Curso Formacion Apache Solr

¿Quiénes Somos? Expertos en sistemas de búsqueda, repositorios digitales y recomendación . Referencia Relevante : 24Symbols, BBVA o Biblioteca Nacional.

Índice Conceptos y descripción de Apache Solr Preparando el terreno ¿Cómo lo instalamos? Configurando Apache Solr Con las manos en la masa Modificando el índice Consultando el índice Análisis personalizado Clustering Operaciones y Mantenimiento

¿Qué es Apache Solr? Es un servidor de búsqueda full-text basado en Apache Solr Utiliza protocolos estándar de comunicación como HTTP y HTTPS Es altamente escalable Es totalmente modular gracias a su sistema de plugins Ofrece una interfaz (simple) de administración web Está construido utilizando la tecnología de Apache Lucene

Componentes Principales RequestHandlers : Procesan la consulta solicitada SearchComponents : Añaden datos (de la consulta) a la respuesta ResponseWriters : Transforman a formato de respuesta concreto. SolrCore : conjunto de configuración y documentos UpdateHandler : Lógica de actualización de documentos Cache : Estrategia de caching.

Instalando Apache Solr: Requisitos Java 1.5 o posterior (http://www.java.com/es/download) Servidor de Aplicaciones con soporte para Servlets 2.4 Tomcat 5.5.X+

Instalando Apache Solr: Despliegue Despliegue del fichero WAR en contenedor Configuración del SOLR_HOME JNDI Variable de entorno Estructura del directorio SOLR_HOME solrconfig.xml schema.xml solr.xml ( opcional )

Configurando Apache Solr: Ficheros solr.xml : configuración de los SolrCores activos schema.xml : Configuración de campos y procesado solrconfig.xml : Configuración de componentes Varios : Ficheros de sinónimos, stopwords, etc.

Configurando Apache Solr: solr . xml < solr persistent ="true" sharedLib ="lib"> < cores adminPath ="/admin/cores"> < core name ="pdg" instanceDir ="/etc/solr/cores/pdg" /> <core name="geoeuskadi" instanceDir="/etc/solr/geoeuskadi" /> <core name="24symbols" instanceDir="/etc/solr/24symbols" /> <core name="cmt" instanceDir="/etc/cores/cmt" /> <core name="disofic" instanceDir="/etc/solr/disofic" /> <core name="cdl" instanceDir="/etc/solr/cdl" /> <core name="24sac" instanceDir="/etc/solr/24symbolsac" /> </cores> </solr>

Configurando Apache Solr: schema.xml < schema name="opensearch" version="1.1"> < types > <fieldType name="string" class="solr.StrField" sortMissingLast ="true" omitNorms ="true"/> < fieldType name="text" class="solr.TextField" positionIncrementGap ="100"> < analyzer type=" index "> < tokenizer class="solr.HTMLStripStandardTokenizerFactory"/> < filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.ISOLatin1AccentFilterFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> </analyzer> <analyzer type=" query "> < tokenizer class="solr.StandardTokenizerFactory"/> < filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.ISOLatin1AccentFilterFactory"/> <filter class="solr.SynonymFilterFactory" ignoreCase="true" synonyms="synonyms.txt"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> </analyzer> </fieldType> </types> < fields > < field name="id" type ="string" stored ="true" indexed ="true"/> <field name="docName" type="text" stored="true" indexed="true"/> < dynamicField name=" fecha* " type="date" indexed="true" stored="true"/> <field name="buscable" type="text" stored="false" indexed="true" multiValued ="true" positionIncrementGap ="50"/> </fields> < copyField source="docName" dest="buscable"/> < uniqueKey >id</uniqueKey> < defaultSearchField >buscable</defaultSearchField> < solrQueryParser defaultOperator="AND"/> </schema>

Configurando Apache Solr: schema.xml field Type: Definen el campo y el comportamiento a la hora de indexarlo <fieldType name="string" class="solr.StrField" sortMissingLast ="true" omitNorms ="true"/> field: Instancia de un tipo de campo bajo una clave propia < field name="id" type ="string" stored ="true" indexed ="true"/> dynamicField: Conjunto de campos bajo el mismo tipo y el mismo patrón < dynamicField name=" fecha* " type="date" indexed="true" stored="true"/> copyField : Copia, antes del procesado, el valor de un campo a otro < copyField source="docName" dest="buscable"/> uniqueKey: Campo que se utilizará como identificador principal < uniqueKey >id</uniqueKey> defaultSearchField: Campo de búsqueda por defecto < defaultSearchField >buscable</defaultSearchField> solrQueryParser: Indica cómo se agruparán las clausulas de la consulta < solrQueryParser defaultOperator="AND"/>

Configurando Apache Solr: schema.xml Analyzers: Se componen de un tokenizer y un conjunto de filtros < analyzer type=" index "> < analyzer type=" query "> Tokenizer: Dividen el texto en un conjunto de tokens < tokenizer class=" solr.StandardTokenizerFactory "/> Filter: Procesan cada uno de los tokens por separado < filter class=" solr.ISOLatin1AccentFilterFactory "/> < filter class=" solr.SynonymFilterFactory " ignoreCase="true" synonyms="synonyms.txt"/> < filter class=" solr.StopFilterFactory " ignoreCase="true" words="stopwords.txt"/>

Configurando Apache Solr: solrconfig.xml Propiedades del índice < dataDir >/var/solr/data</dataDir> < indexDefaults >    < ramBufferSizeMB >32</ramBufferSizeMB>  < maxFieldLength >10000</maxFieldLength> < writeLockTimeout >1000</writeLockTimeout> < commitLockTimeout >10000</commitLockTimeout> < lockType >native</lockType> </indexDefaults> < mainIndex > < useCompoundFile >false</useCompoundFile> < ramBufferSizeMB >32</ramBufferSizeMB> < mergeFactor >10</mergeFactor> </mainIndex>

Configurando Apache Solr: solrconfig.xml Configuración de consulta < query > < maxBooleanClauses >1024</maxBooleanClauses> < filterCache class="solr.FastLRUCache" size="512" initialSize="512" autowarmCount="0" /> < queryResultCache class="solr.LRUCache" size="512" initialSize="512" autowarmCount="0" /> < documentCache class="solr.LRUCache" size="512" initialSize="512" autowarmCount="0" /> < enableLazyFieldLoading >true</enableLazyFieldLoading> <cache name="myUserCache" class="solr.LRUCache" size="4096" initialSize="1024" autowarmCount="1024" regenerator="org.mycompany.mypackage.MyRegenerator" /> < queryResultWindowSize >20</queryResultWindowSize> < queryResultMaxDocsCached >200</queryResultMaxDocsCached> < listener event=" newSearcher " class="solr.QuerySenderListener"> <arr name="queries">  </arr> </listener> < useColdSearcher >false</useColdSearcher> < maxWarmingSearchers >2</maxWarmingSearchers> </query>

Configurando Apache Solr: solrconfig.xml Configuración de los RequestHandlers < requestHandler name=" /spell " class="solr.SearchHandler" lazy="true"> < lst name="defaults">  < str name ="spellcheck.onlyMorePopular"> false </str>  <str name="spellcheck.extendedResults">false</str>  <str name="spellcheck.count">1</str> </lst> < arr name=" last-components "> <str> spellcheck </str> </arr> </requestHandler> < searchComponent name=" spellcheck " class="solr.SpellCheckComponent"> <str name="queryAnalyzerFieldType">textSpell</str> <lst name="spellchecker"> <str name="name">default</str> <str name="field">name</str> <str name="spellcheckIndexDir">./spellchecker</str> </lst> </searchComponent>

Modificando el índice: indexación Formatos admitidos XML : Formato de intercambio por defecto Binario : Serialización Java ( SolrJ ) - commons-codec Ficheros binarios : indexación de ficheros DOC , PDF ,etc utilizando Solr Cell ( Apache Tika ) Limitaciones Visibilidad : no son visibles hasta que suceda el commit (automático o manual) Encoding : solo se soporta indexación en UTF-8 Actualización : No existe tal operación. Se añade un documento bajo mismo id.

Modificando el índice: indexación Formato de XML de indexación <?xml version="1.0" encoding="UTF-8"?> < add > < doc > < field name ="identificador">http://url.cualquiera.com/webclient/</field> <field name=" pid "> 1865905 </field> <field name="thumbnail">http://url.cualquiera.com/webclient/Delivery</field> <field name="autor">Castro, Adolfo de 1823-1898 </field> <field name="autor_facet">Castro, Adolfo de</field> <field name="autor_abreviada">Castro, Adolfo de-1823-1898-</field> <field name="autor_completa">Castro, Adolfo de-1823-1898-#</field> <field name="titulo">Cádiz en la Guerra de la Independencia : cuadro histórico</field> <field name="editor">Cádiz Revista Médica </field> <field name="materia">Cádiz Historia S.XIX </field> … </doc> ... </add>

Modificando el índice: borrado Tipos de borrado ID: Permite borrar una colección de documentos indicando sus identificadores Query: Permite especificar una consulta de Lucene. Todos aquellos que satisfagan la consulta serán borrados. Limitaciones Visibilidad : no son visibles hasta que suceda el commit (automático o manual) Encoding: solo se soporta indexación en UTF-8 <?xml version="1.0" encoding="UTF-8"?> < delete > < id >5c9e2d7e-7114-31cf-8582-56f11cefbcce</id> <id> d0b58756-8a8b-3de2-8327-55023cbdf16f </id> <id>4d9cb11a-2e2a-34e5-821d-5c7f77a41f8f</id> <id>fe722eac-d4cb-30f3-b2b5-b9e72630f523</id> ... </delete> <?xml version="1.0" encoding="UTF-8"?> < delete > < query > category: "Facturas" </query> </delete> Mediante consulta Mediante IDs

Modificando el índice: operaciones commit: Las indexaciones y borrados son ejecutados de forma definitiva rollback: Elimina las indexaciones y borrados pendientes de ejecución optimize: Reorganiza el índice y construye un solo segmento Consideraciones y limitaciones Las transacciones no están asociadas a sesiones A mayor número de documentos en sesión, mayor consumo de memoria Bloqueo largo en commits Degradación paulatina del índice

Modificando el índice: práctica Indexación/borrado: Envío de XML a Solr curl http://127.0.0.1:8983/solr/update -H "Content-Type: text/xml" -d @data.xml Commit sin nuevos documentos curl http://127.0.0.1:8983/solr/update?commit=true Commit no bloqueante: curl http://127.0.0.1:8983/solr/update?commit=true&waitSearcher=false Commit con nuevos documentos curl http://127.0.0.1:8983/solr/update?commit=true -H "Content-Type: text/xml" -d @data.xml Optimize curl http://127.0.0.1:8983/solr/update?optimize=true

Consultando el índice: básicos El protocolo de comunicación es HTTP Los formatos de respuesta son variados XML JSON binario (commons-codec / java serialization) do-it-yourself Aplica teoría de conjuntos mediante el uso de filterQueries Parámetros básicos q : texto de la consulta q.op : operador por defecto de la consulta start : offset del conjunto de resultados rows : número de elementos a recuperar a partir del start sort : campo por el que se realiza la ordenacion fl : campos, separados por coma, que se devolverán fq : consulta de filtro (ocurrencia múltiple)

Consultando el índice: básicos curl http://host:8983/opensearch/select/?q=Pilar%20rojo&fl=title,contenttype&start=0&rows=10&wt=xml < response > <lst name=" responseHeader "> <int name=" status ">0</int> <int name=" QTime ">293</int> <lst name=" params "> <str name="wt">xml</str> <str name=" rows ">10</str> <str name=" start ">0</str> <str name=" q "> Pilar rojo </str> </lst> </lst> < result name="response" numFound ="2894" start ="0"> <doc>...</doc> <doc>...</doc> <doc>...</doc> < doc > <str name=" contenttype ">text/html; charset=utf-8</str> <str name=" title "> Pilar Rojo participa nos actos do Xacobeo 2010</str> </doc> <doc>...</doc> <doc>...</doc> </result> </response>

Consultando el índice: avanzada Selección del RequestHandler qt : http://host:8983/opensearch/select?q=Pilar%20rojo&start=0&rows=10& qt=dismax Path : http://host:8983/opensearch /dismax ?q=Pilar%20rojo&start=0&rows=10 Utilización de sintáxis de consulta avanzada phrase slopping : “jakarta apache”~10 fuzzy queries : sony~0.9 wildcarding : c?sa OR casa* range queries : ["" to *] term boosting : apache^3 Utilización de SearchComponents Faceting : Búsqueda paramétrica (folding de Amazon, eBay, etc) Highlight : Resaltado de los términos que concuerdan de la búsqueda Spellcheck : Sugerencias de búsqueda con corrección ortográfica MoreLikeThis : Documentos relacionados a partir de uno que actúa de patrón.

Consultando el índice: faceting

Consultando el índice: faceting Faceting por valor facet : boolean que activa el componente facet.field : identifica el campo por el cual se realizará el faceting (ocurrencia múltiple) facet.prefix : filtra las facetas que comienzan por este valor facet.sort : "count" para ordenar por valor e "index" para hacerlo alfabeticamente facet.limit : el numero limite de facets que se devuelven facet.offset : offset del conjunto de resultados facet.mincount : especifica la cantidad minima referida para que se incluya en un facet facet.missing : controla si solr debe calcular un recuento de todos los resultados coincidentes que no tienen ningún valor para el campo facet.method : selecciona el algoritmo para realizar el facet (enum o fc) Faceting arbitrario facet.query : Especifica una consulta para la que se calcularán los resultados que la matchean Faceting por Fecha facet.date : nombre del campo sobre el que se realizará el facet tratándolo como fecha (múltiple) facet.date.start : Margen inferior del rango. facet.date.end : Margen superior del rango. facet.date.gap: Expresión que marca el intervalo de fechas que se usará en el faceting facet.date.hardend : En caso de que el último paso del intervalo sea mayor que facet.date.end se utilizará dicha fecha como último salto facet.date.other: Intervalos que se deben operar a mayores del especificado con before, after, between, none y all. facet.date.include: Marca los límites del intervalo con lower , upper, edge, outer, all .

Consultando el índice: faceting <lst name=" facet_counts "> <lst name=" facet_queries "> <int name="l ocale:"es_ES" ">16684</int> <int name=" locale_americano ">844</int> </lst> <lst name=" facet_fields "> <lst name=" locale "> <int name="es_ES">16684</int> <int name="en_US">844</int> <int name="ca_ES">110</int> <int name="eu_ES">110</int> <int name="gl_ES">110</int> </lst> </lst> <lst name=" facet_dates "> <lst name=" fecha_resolucion "> <int name="2007-08-31T16:17:37.304Z">4</int> <int name="2008-08-31T16:17:37.304Z">41</int> <int name="2009-08-31T16:17:37.304Z">49</int> <str name="gap">+1YEARS</str> <date name="end">2010-08-31T16:17:37.304Z</date> </lst> </lst> </lst>

Consultando el índice: faceting Faceting simple /select?q=Cervantes& facet=true & facet.field=category Facet múltiple /select?q=Cervantes&facet=true& facet.field=category & facet.field=collections Facet con límite y filtrado /select?q=vargas+llosa&facet=true&facet.field=category& facet.limit=10 & facet.prefix=Novela Facet con mincount y sort /select?q=vargas+llosa&facet=true&facet.field=category& facet.mincount=10 & facet.sort=index Facet por fechas &facet=true& facet.date.start =-30DAY& facet.date.start = + 30DAY& facet.date.gap =+1DAY Configuración por campo &facet=true&facet.field=category&facet.field=locale& f.category.facet.mincount =200 Exclusión de filtros /select?q=vargas&fq= {!tag=dt} category:"Novela Histórica"&facet=true&facet.field=category Etiquetado /select?q=vargas&facet=true&facet.field= {!ex=dt key=Categoría} category

Consultando el índice: highlighting Parámetros hl : true para activar el componente hl.fl : Campos, separados por comas, donde se efectuará el highlighting hl.simple.pre : Valor que se situará antes del término matcheado hl.simple.post : Valor que se situará después del término matcheado hl.snippets : Número de snippets devueltos hl.fragsize : Número de caracteres que serán devueltos Ejemplos Selección de campos con expresión /select?q=exp& hl=true & hl.fl = descripcion_* Código de highlighting personalizado /select?q=exp&hl=true& hl.simple.pre =& hl.simple.post = Highlighting de más de 100 caracteres /select?q=exp&hl=true& hl.fragsize =1500

Consultando el índice: highlighting <lst name=" highlighting "> <lst name=" lp_es_ES2567024 "> <arr name=" titulo "> <str>La CMT abre expediente sancionador a Proyecto Atarfe</str> </arr> </lst> <lst name=" lp_es_ES2574813 "> <arr name=" asunto "> <str>ACUERDO PARA LA INSCRIPCIÓN DE AUTORIZACIÓN GENERAL EN EL EXPEDIENTE AUT-001/98 DE</str> </arr> <arr name=" expediente "> <str> Expediente AUT</str> </arr> </lst> <lst name=" lp_es_ES2627601 "> <arr name=" asunto "> <str>RESOLUCION DEL ARCHIVO DEL EXPEDIENTE DE LA ENTIDAD GOYA SERVICIOS</str> </arr> </lst> ... </lst>

Consultando el índice: spellchecking Configuración < searchComponent name="standardSpellcheck" class=" solr.SpellCheckComponent "> <str name=" queryAnalyzerFieldType ">spellFieldType</str> <lst name=" spellchecker "> <str name=" name ">default</str> <str name=" field ">SPELL_FIELD</str> <str name=" buildOnCommit ">true</str> <str name=" buildOnOptimize ">true</str> <str name=" spellcheckIndexDir ">./spellchecker</str> </lst> </searchComponent> Parámetros spellcheck: Activa en componente spellcheck.count: Número de sugerencias devueltas spellcheck.dictionary: Selecciona el diccionario a utilizar spellcheck.onlyMorePopular: Devuelve los elementos con más frecuencia spellcheck.extendedResults: Añade información adicional a la respuesta spellcheck.collate: Devuelve la frase con todos los términos corregidos

Consultando el índice: spellchecking <lst name=" spellcheck "> <lst name=" suggestions "> <lst name=" ipoteca "> <int name="numFound">1</int> <int name="startOffset">0</int> <int name="endOffset">7</int> <arr name=" suggestion "> <str> hipoteca </str> </arr> </lst> <lst name=" vasura "> <int name="numFound">1</int> <int name="startOffset">8</int> <int name="endOffset">14</int> <arr name=" suggestion "> <str> basura </str> </arr> </lst> <str name=" collation "> hipoteca basura </str> </lst> </lst> /select?q= ipoteca%20vasura & spellcheck=true & spellcheck.collate=true & spellcheck.count=1

Análisis personalizado: CharFilterFactories ¿Qué són? ¿Para qué valen? Tipos solr. PatternReplaceCharFilterFactor solr. HTMLStripCharFilterFactory Configuración <analyzer> < charFilter class="solr. HTMLStripCharFilterFactory "/> <tokenizer class="solr.StandardTokenizerFactory"/> </analyzer>

Análisis personalizado: tokenizers ¿Qué són? ¿Para qué valen? Tipos solr. WhitespaceTokenizerFactory : Genera tokens a partir de espacios en blanco solr. KeywordTokenizerFactory : Genera un único token solr. StandardTokenizerFactory : Genera tokens a partir de espacios en blanco y de los signos de puntuación solr. LowerCaseTokenizerFactory : Convierte todo a minúsculas y elimina cualquier caracter no letra Configuración <analyzer> <charFilter class="solr.HTMLStripCharFilterFactory"/> < tokenizer class="solr. StandardTokenizerFactory "/> </analyzer>

Análisis personalizado: analyzer ¿Qué són? ¿Para qué valen? Tipos solr. SnowballPorterFilterFactory : Genera lexemas a partir del algoritmo Snowball solr. StopFilterFactory : Elimina los tokens a partir de una lista solr. SynonymFilterFactory : Genera varios tokens para una misma posición solr. LowerCaseFilterFactory : Convierte todos los tokens a minúsculas solr. ISOLatin1AccentFilterFactory : Genera el token equivalente sin los caracteres especiales del encoding latin1 solr. EdgeNGramFilterFactory : Genera gramas a partir del comienzo de cada token solr. RemoveDuplicatesTokenFilterFactory : Elimina tokens duplicados solr. LengthFilterFactory : Elimina los tokens que se excedan o se queden sean más cortos que los parámetros indicados

Análisis personalizado: analyzer <fieldtype name="teststop" class="solr.TextField"> <analyzer> <tokenizer class="solr.LowerCaseTokenizerFactory"/> < filter class="solr. StopFilterFactory " words =" stopwords.txt " ignoreCase ="true"/> </analyzer> </fieldtype> <fieldtype name="testedgengrams" class="solr.TextField"> <analyzer> <tokenizer class="solr.LowerCaseTokenizerFactory"/> < filter class="solr. EdgeNGramFilterFactory " minGramSize ="2" maxGramSize ="15" side ="front"/> </analyzer> </fieldtype> <fieldtype name="testkeep" class="solr.TextField"> <analyzer> < filter class="solr. KeepWordFilterFactory " words=" keepwords.txt " ignoreCase ="true"/> </analyzer> </fieldtype> <fieldtype name="syn" class="solr.TextField"> <analyzer> <tokenizer class="solr.WhitespaceTokenizerFactory"/> < filter class="solr. SynonymFilterFactory " synonyms =" syn.txt " ignoreCase ="true" expand ="false"/> </analyzer> </fieldtype>

Análisis personalizado: testing

Clustering: replicación ¿Qué es la alta disponibilidad? Master / esclavo Repetidores Limitaciones Capacidad de indexación Tiempo de replicación Consideraciones Replicación pasiva Replicación vía HTTP Replicación de ficheros

Alta Disponibilidad: replicación

Clustering: replicación Master <requestHandler name="/ replication " class=" solr.ReplicationHandler " > <lst name=" master "> <str name=" replicateAfter "> commit </str> <str name="replicateAfter"> startup </str> <str name="replicateAfter"> optimize </str> <str name=" confFiles "> solrconfig_slave.xml:solrconfig.xml ,schema.xml</str> </lst> </requestHandler> Esclavo <requestHandler name="/replication" class="solr.ReplicationHandler" > <lst name=" slave "> <!– Configurar aquí la URL del servidor maestro --> <str name=" masterUrl "> http://localhost:8080/solr/replication </str> <str name=" pollInterval "> 00:00:10 </str> </lst> </requestHandler>

Clustering: sharding ¿Qué es el sharding? Búsqueda distribuida Indexación distrbuida Limitaciones Hotspotting Capacidad de crecimiento IDF distribuido Consideraciones SolrCloud Replication factor Autodetección de nodos Cluster block

Mantenimiento OpenSearch: operaciones Backup Limitaciones No debe hacerse durante otras operaciones Copia íntegra del directorio ${dataDir} Restauración Limitaciones Evitar índices bloqueados Obligatorio parar el servicio Copiar el backup al directorio ${dataDir} Optimize Limitaciones Bloquea el directorio Espacio de disco libre equivalente al del índice http:/local/opensearch/update?stream.body=%3Coptimize/%3E

Curso Formacion Apache Solr

Más contenido relacionado

La actualidad más candente

Destacado

Similar a Curso Formacion Apache Solr

Más de EmpathyBroker

Último

Curso Formacion Apache Solr