ElasticSearch: la tenés atroden Google

BarCamp BA 2012 @mgiglesias

ElasticSearch
La tenés atroden Google

$ who am i
● @mgiglesias
● C++, Node.js, Python, PHP
● Open source
● NodoJS y GrupoPHP
● WORKANA → www.workana.com

¿Me ponés un buscadorcito?
● Los que merecen ser exterminados
– Usá LIKE. Es fácil.
● Los que te odian

– MySQL FULL TEXT
● Los que piensan que The Matrix está basada en hechos

reales
– Creá tu propio indexador
● Los que te quieren. Un poquito nomás.

– Sphinx
● Los que te quieren ver destronar a Zuckerberg. Y te ayudan

a hacerlo.
– ElasticSearch papá.

¿¿¿¿Java == Diversión????

Te empieza a gustar
● Montado sobre Lucene
● “Schema-free”
● REST
– ¡Hasta la configuración!
● Múltiples índices (y poder buscar a través)
● Casi super requete-recontra real time
● Super requete-recontra distribuido
● Una papa de instalar, integrar, y escalar
● El tipo que lo creó es un loco de la guerra (@kimchy)

Conceptos
● Nodos
● Índices
● Tipos
● Documentos

<3
REST
Índice ID
curl -XPUT 'http://localhost:9200/articulos/articulo/1' -d '{
"titulo": "Buenas cervezas", Tipo
"contenido": "Todas. Menos Budweiser.",
"tags": ["cerveza", "budweiser"]
}'

Le pasás JSON

curl -XGET
'http://localhost:9200/articulos/articulo/_search?q=cerveza&pretty'
API
Te devuelve JSON

Obtener documento

curl -XGET 'http://localhost:9200/articulos/articulo/1?pretty'

{
"_index" : "articulos",
"_type" : "articulo",
"_id" : "1",
"_version" : 1,
"exists" : true,
"_source" : {
"titulo":"Buenas cervezas",
"contenido":"Todas. Menos Budweiser."
}

Actualizar documento

"titulo": "Buenas cervezas",
"contenido": "Todas. Menos Budweiser. Tampoco Schneider.",
"tags" ["cerveza", "budweiser", "schneider"]
}'

{
"ok":true,
"_index":"articulos",
"_type":"articulo",
"_id":"1",
"_version":2
}

¿Simplemente un buscador?

curl -XGET 'http://localhost:9200/_all/articulo/_search?q=cerveza'

Busco todos los índices

curl -XGET
'http://localhost:9200/articulos/articulo,autor/_search?q=name:X'

Busco varios tipos de datos

Tipos de datos
● Quiero tener algunos elementos del documento
no indexables
● Quiero poder buscar, agregar filtros, y ordenar
● Datos simples: string, integer, long, float, double,
boolean, null
● Datos compuestos: array, object
● boost
● include_in_all

0, 0, 0

curl -XDELETE 'http://localhost:9200/articulos'

curl -XPUT 'http://localhost:9200/articulos'

curl -XPUT 'http://localhost:9200/articulos/articulo/_mapping' -d '{
"articulo": { "properties": {
"titulo": {"type":"string"},
"pais": {"type":"string", "include_in_all":false},
"contenido": {"type":"string"},
"publicado": {"type":"date", "format": "yyyy-MM-dd HH:mm:ss"},
"tags": {"type":"string"},
"rating": {"type":"object", "properties":{
"promedio": {"type": "float"},
"total": {"type": "long"}
}}
}}
}'

Filtros

"titulo": "Buenas cervezas",
"contenido": "Todas. Menos Budweiser.",
"publicado": "2012-11-04 06:43:00",
"tags": ["cerveza", "budweiser"],
"rating": {"promedio": 8.7, "total": 15}
}'

curl -XGET 'http://localhost:9200/articulos/articulo/_search?q=cerveza' -d '{
"filter": {
"range": {"rating.total": {"from": 10}}
}
}'

Filtros
● limit
● and, or, not
● exists
● geo_distance, geo_distance_range,
geo_bbox, geo_shape, …
● range, numeric_range
● has_parent, has_child

Mejorando la búsqueda
● Query en el POST
● query_string
● field
● bool: must, must_not
● fuzzy
● wildcard

Rivers
● Consume datos (los trae o los recibe) y los mete en ES
● Rivers
– CouchDB
– RabbitMQ
– Twitter
– Wikipedia
● Community
– MongoDB
– JDBC

Percolator
● Almaceno una query (en un índice)
● Ejecuto esa query (_percolate) sobre un documento
– ¡No almacena el documento en el índice!
● Me dice que queries matchearon
● Ejemplo: tweets que matcheen una búsqueda, a
medida que vienen
● Como almaceno queries, puedo filtrar que queries
se ejecutan (wow)

Super requete-recontra escalable
● Shards: parte de los documentos (cada uno es un
índice Lucene). Se shardea por _id
– En cuantas “partes” queremos dividir los datos
– Si un nodo se cae, todavía tenemos parte de los datos
– Más shards, mejor indexing
● Cada shard puede tener réplicas (que se pueden crear
dinamicamente!)
– Copias. Si se caen varios shards, aun podemos tener toda
la data
– Más replicas, mejor búsqueda

Super requete-recontra escalable

Shard 1 Replica 1 Shard 2 Replica 2

Articulo 1 Articulo 1 Articulo 2 Articulo 2
Articulo 3 Articulo 3 Articulo 4 Articulo 4

Query para artículos 1, 2, 4

Una tormenta de magia
● Discovery: identificar nodos, y seleccionar nodo
master
● El master mantiene el estado del cluster, y
reasigna shards si nodos entran / se van
● Los nodos responden a los requests (no van a
master)
● Un nodo sabe si puede responder un request, y si
no lo delega
● Auto-discovery por Zen o EC2

Persistent storage
● La info sobre un nodo es temporaria
– JVM heap (ojo!)
● Persistent: para estado del cluster e indices
● Permite un full recovery si se restartea el cluster
● Gateways soportados:
– FS local o compartido
– Hadoop via HDFS
– S3

API
● _search: errr... buscar :)
● _status: te da información sobre un índice
● _refresh: refrescar indices
● _optimize: optimizar en Lucene
● _mapping: crear un tipo de datos

BarCamp BA 2012 @mgiglesias

¿Preguntas?

ElasticSearch: la tenés atroden Google

Más contenido relacionado

La actualidad más candente

Destacado

Similar a ElasticSearch: la tenés atroden Google

Más de Mariano Iglesias

ElasticSearch: la tenés atroden Google

Notas del editor