SlideShare una empresa de Scribd logo
1 de 26
UCM                                               OEG - UPM




                El futuro de los buscadores:
                    nuevas tendencias en
               Recuperación de Información

           Anotación Semántica y
         Recuperación de Información
                      Antonio Pareja Lora
                      (apareja@sip.ucm.es)




FESABID 2007                10 / 05 / 2007     ©Antonio Pareja Lora
Índice

•       ¿Qué es la Web Semántica?
•       De la WWW a la Web Semántica
•       ¿Qué son las ontologías?
           – Clasificación en función de su grado de formalización.
           – Componentes de una ontología
•       Ontologías y anotación en la Web Semántica
           –    Anotación semántica: de los metadatos a las ontologías
           –    Anotación con semántica ontológica: una aproximación
           –    SKOS: migración de recursos a la Web Semántica
           –    Los problemas de fondo:
                    • Asociados a la Web Semántica
                    • Asociados la anotación basada en ontologías
•       Contrapunto: la anotación en Lingüística (de Corpus)
           – Niveles de anotación lingüística – ejemplo
           – Problemas asociados a la anotación lingüística
•       Solución: la anotación semántica híbrida
•       Anotación semántica híbrida y recuperación de información
•       El papel de los bibliotecarios y documentalistas
    Anotación Semántica y Recuperación de Información     2              ©Antonio Pareja Lora
¿Qué es la Web Semántica?

• Es una extensión de la WWW.
• Mejoras introducidas:
       – La información es etiquetada con un significado
         bien definido.
• Objetivos:
       – Explicitar formalmente el significado de los
         contenidos de los documentos en la red.
       – Obtener una red de contenidos comprensibles y
         procesables por los ordenadores.
                • Berners-Lee, T., Hendler, J. and Lassila, O. (2001) The Semantic Web. Scientific American, May 2001


Anotación Semántica y Recuperación de Información            3                                         ©Antonio Pareja Lora
De la WWW a la Web Semántica
                                                           Semántica
                                                                                 Web
                                                                                 Web
                                                            explícita
               WWW
               WWW                                +      procesable por   =   Semántica
                                                                               Semántica
                                                          ordenadores


                                                          ANOTACIÓN
       Contenidos                                                                 Contenidos
   comprensibles                                                                  comprensibles
para las personas                                                                 para el ordenador


   HTML:                                                  ONTOLÓGICA               XML, RDF(S)
Centrado en la                                                                       & OWL:
estructura y el                                                                       Centrados en
   formato                                                                             el contenido

                                                            FORMAL
 Orientada a la
                                                                                  Orientada a la
 presentación                                            ∀x P(x) → Q(x)           comprensión
 (automática)
                                                            A = π·r2              (automática)


     Anotación Semántica y Recuperación de Información          4                 ©Antonio Pareja Lora
¿Qué es una ontología?
                                                      Una ONTOLOGÍA es:

una especificación formal (y explícita) de una conceptualización compartida


     Está formada por
 conceptos, propiedades,                                                   Es un modelo abstracto
                                                                           de un cierto fenómeno
   relaciones, funciones,
                                                                           real que identifica sus
  restricciones (reglas) y                                                 componentes (conceptos)
          axiomas         Computable                                       más importantes

                                                     El tipo de conceptos
                                                                                                        Plasma un
                                                     utilizados, así como sus
                                                                                                       conocimiento
                                                     restricciones de uso, son
                                                                                                       consensuado
                                                     definidos explícitamente

    • Gruber, T. R. (1993) A Translation Approach to Portable Ontologies. Journal on Knowledge Acquisition, Vol. 5(2), 199-220
    • Borst, W. N. (1997) Construction of Engineering Ontologies. PhD thesis, University of Twente, Enschede
    • Studer, R.; Benjamins, R.; Fensel, D. (1998) Knowledge Engineering: Principles and Methods. Data and Knowledge
      Engineering, (DKE) Vol. 25, 1-2: 161-197


 Anotación Semántica y Recuperación de Información                 5                                  ©Antonio Pareja Lora
Ontologías: grados de formalización

• Ontologías ligeras (lightweight):
       – Poco más que taxonomías
       – Incluyen:
                •   Conceptos
                •   Taxonomías conceptuales
                •   Relaciones entre conceptos
                •   Propiedades que describen los conceptos
• Ontologías de peso (heavyweight):
       – Profundizan y refinan más el modelo del dominio
       – Proporcionan más restricciones sobre la semántica del dominio
       – Incluyen:
                • El tipo de conocimiento que incorporan las ontologías ligeras
                • Axiomas y restricciones (que clarifican el significado con el que se definen
                  los términos recogidos en la ontología)

             • Gómez-Pérez, A., Fernandez-Lopez, M., Corcho, O. (2003) Ontological engineering: with examples from the
               areas of knowledge management, e-commerce and the Semantic Web. Londres:Springer Verlag London Ltd.

Anotación Semántica y Recuperación de Información          6                                          ©Antonio Pareja Lora
Ontologías: Clasificación de Lassila & McGuinness


          Ontologías ligeras                                         Ontologías de peso
                    Tesauros basados
                      en la relación                                     Marcos
                  hipónimo/hiperónimo                 Relación
                                                                      (propiedades)        Restricciones
 Lenguajes                                             formal
                                                       Es-Un                                  lógicas
controlados                                                                                 genéricas




                                                                                                        Disjunto,
 (Glosario de) Términos                                      Instancias                                Exhaustivo,
                                                              formales                                 Parte-De, ...
                                           Relación
                                           informal                        Restricción de valores
                                            Es-Un


              • Gómez-Pérez, A., Fernandez-Lopez, M., Corcho, O. (2003) Ontological engineering: with examples from the
                areas of knowledge management, e-commerce and the Semantic Web. Londres:Springer Verlag London Ltd.

 Anotación Semántica y Recuperación de Información          7                                          ©Antonio Pareja Lora
Ontologías: componentes principales

•       Usando marcos (Minsky) y Lógica de Primer Orden:
           – Clases
                    • Representan conceptos (en un sentido amplio) del dominio modelado
           – Relaciones
                    • Correspondencias entre conceptos de ese dominio
                    • Normalmente, se representan sólo como binarias
                    • Pueden ser instanciadas con conocimiento del dominio
           – Funciones
                    • Son un caso especial de relaciones cuyo n-ésimo elemento es único una vez fijados
                      los n-1 elementos precedentes
           – Axiomas formales
                    • Modelan enunciados que son siempre ciertos
                    • Representan conocimiento que no puede ser definido formalmente por ninguno de
                      los otros componentes
           – Instancias
                    • Son los elementos o individuos de la ontología

                 • Gómez-Pérez, A., Fernandez-Lopez, M., Corcho, O. (2003) Ontological engineering: with examples from the
                   areas of knowledge management, e-commerce and the Semantic Web. Londres:Springer Verlag London Ltd.

    Anotación Semántica y Recuperación de Información          8                                          ©Antonio Pareja Lora
Ontologías: componentes principales (2)

• Usando Lógica Descriptiva :
       – Conceptos
                • Representan clases de objetos (≡ son las clases del paradigma basado en
                  marcos)
                • Pueden ser primitivos
       – Roles
                • Describen:
                        – Relaciones binarias entre conceptos
                        – Propiedades de los conceptos
       – Individuos
                • Representan instancias de las los conceptos (clases) y los valores que
                  adquieren sus roles (propiedades)




             • Gómez-Pérez, A., Fernandez-Lopez, M., Corcho, O. (2003) Ontological engineering: with examples from the
               areas of knowledge management, e-commerce and the Semantic Web. Londres:Springer Verlag London Ltd.

Anotación Semántica y Recuperación de Información          9                                          ©Antonio Pareja Lora
Ontologías y anotación en la Web Semántica
                                                                                    OWL
                                                                          OIL    DAML+OIL
                                                    XOL   SHOE   OML            RDF(S)

        Semántica                                                  XML                              El acceso
                                                                                                 inteligente a
        Ontológica
                                                                                       ite        los recursos
                                                                                      m
                                                                                  p er
                                                           Anotación
                                                           en la Web             posibilita            Las
                                                           Semántica                               inferencias
                                                                                   fa
          Ontologías                                                                 cil
                                                                                         ita
                                                                                                     Las
explicitan                                           d es               descr                    búsquedas y
                                                         crib                iben               la navegación
                                                              en
   El significado de
   los términos de                                        Los recursos de                 El vocabulario
   una página web                                            la WWW                        de la WWW

• Benjamins, R., Contreras, J., Martín, F., Navarrete, B., Aguado de Cea, G., Álvarez de Mon, I., Pareja-Lora, A., Plaza-
  Arteche, R. (2003) State of the Art on Annotation Tools and Services. Esperonto Services (IST-2001-34373) Deliverable D3.1.

Anotación Semántica y Recuperación de Información                  10                               ©Antonio Pareja Lora
Anotación semántica, metadatos y ontologías

                         Consenso
                                                                              Conceptos,
                                                                               atributos,
                                                                              relaciones,
                                                                               intancias,
                         Ontologías                                               etc.
                  (XML / RDF(S) / OWL)


                                                    METADATOS
                                                    SEMÁNTICOS                           Estandarización


                                                                                             Documento
     Documento
                                                    Anotador                               (anotado) de la
     de la WWW
                                                                                           Web Semántica



                • Berners-Lee, T., Hendler, J. y Lassila, O. (2001) The Semantic Web. Scientific American, May 2001


Anotación Semántica y Recuperación de Información           11                                          ©Antonio Pareja Lora
Anotación con semántica ontológica: una aproximación

    La Excepción saltó a la fama a raíz de la publicación de su primer disco, ‘Cata cheli’ …
•     La
•     Excepción                   InstanciaDe(‘La Excepción’, Concepto(Grupo_Musical, Ontología_Música))
•     saltó                       InstanciaDe(saltó, Concepto(saltar, Ontología_Verbos_Movimiento))
•     a
•     la
•     fama                        Concepto(fama, Ontología_Música)
•     a
•     raíz                        Concepto(raíz, Ontología_Plantas)      ¿?
•     de
•     la
•     publicación                 Concepto(publicación, Ontología_Eventos)
•     de
•     su
•     primer
•     disco                       Concepto(disco, Ontología_Música)
•     ,
•     ‘
•     Cata                        InstanciaDe(‘Cata Cheli’, Concepto(disco, Ontología_Música))
•     Cheli                       AutorDe(‘Cata Cheli’, ‘La Excepción’)
•     ’

Anotación Semántica y Recuperación de Información         12                                ©Antonio Pareja Lora
SKOS: Migrando recursos a la Web Semántica

• SKOS – Simple Knowledge Organisation System:
       – Propuesta de representación estandarizada del World Wide Web
         Consortium (W3C) para sistemas de organización del conocimiento.


                                     Tesauros                               Web Semántica
                                                                            Web Semántica

                                                    SKOS                            Sistemas
                                                           Codificación
                                                           Codificació           estandarizados
                                 Estandarización
                                 Estandarizació                                  de organización
                                                                                    organizació
                                                            en RDF(S)
                                                               RDF(S)
                                                                                del conocimiento
   Esquemas de
   clasificación y
   clasificació
    taxonomías
    taxonomí




                                                                          • http://en.wikipedia.org/wiki/SKOS
                                   Vocabularios
                                   controlados

Anotación Semántica y Recuperación de Información              13                                 ©Antonio Pareja Lora
Componentes de SKOS
                                         Define las clases y las propiedades suficientes para
                                        representar las características más generalizadas de
                                               contenidas en un tesauro prototípico.
                                                       [EN ELABORACIÓN]



                                                          SKOS-Core

                                                                                • http://en.wikipedia.org/wiki/SKOS

                                                              SKOS


                                              SKOS-                         SKOS-
                                             Mapping                      Extensions

         Pensado     para      proporcionar      un                   Diseñadas para posibilitar la declaración
         vocabulario      que      exprese      las                   de relaciones semánticas entre conceptos,
         correspondencias     (matchings),    tanto                   pero no de tipo hiperónimo-hipónimo,
         binarias como borrosas, entre conceptos de                   sino clase-instancia, metonimias (A es
         esquemas diferentes.                                         parte de B), etc.
                   [NO CONSOLIDADO]                                              [¿ABANDONADO?]


Anotación Semántica y Recuperación de Información               14                                      ©Antonio Pareja Lora
SKOS-Core

• No se centra en los términos, sino en los conceptos.
• Pensado como un complemento simplificado de OWL.


                                                                                    LEYENDA:


                                                                                    Esquema conceptual


                                                                             o      Concepto
                                                                                    Relación semántica (hiper/hipónimo)
                                                                                    Relació semá       (hiper/hipó nimo)
                                                                                    Correspondencia semántica
                                                                                                    semá
                                                                                    Etiqueta (término) preferente
                                                                                             (té
                                                                                    Etiqueta (término) aternativa(o)
                                                                                             (té       aternativa(o)




                     • http://www.w3.org/2001/sw/Europe/events/200406-esp/trabajo-final-extratesauros/node6.html

Anotación Semántica y Recuperación de Información            15                                        ©Antonio Pareja Lora
SKOS-Core: un ejemplo de codificación

•       Un esquema conceptual:
           <rdf:RDF
                     xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
                     xmlns:rdf="http://www.w3. org/1999/02/22-rdf- syntax- ns#"
                     xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
                     xmlns:rdfs="http://www.w3. org/2000/01/rdf- schema#"
                     xmlns:skos="http://www.w3.org/2004/02/skos/core#"
                     xmlns:skos="http://www.w3. org/2004/02/skos/ core#"
                     xmlns:dc="http://purl.org/dc/elements/1.1/">
                     xmlns:dc="http://purl.org/ dc/ elements/1.1/">
               <skos:ConceptScheme rdf:about="http:/spines.org/thesaurus">
                                      rdf:about="http:/spines.org/ thesaurus">
                     <dc:title> SPINES </dc:title>
                      dc:title>        </dc:title>
                     <dc:description> Tesauro de política científica. </dc:description>
                      dc:description>             polí    cientí      </dc:description>
                     <dc:creator> UNESCO </dc:creator>
                      dc:creator>           </dc:creator>
               </skos:ConceptScheme>
               </skos:ConceptScheme>
           </rdf:RDF>
           </rdf:RDF>                                                         • http://www.w3.org/2001/sw/Europe/events/200406-
•       Un concepto:                                                           esp/trabajo-final-extratesauros/node6.html

           <rdf:RDF
                 xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
                 xmlns:rdf="http://www.w3. org/1999/02/22-rdf- syntax- ns#"
                 xmlns:skos="http://www.w3.org/2004/02/skos/core#">
                 xmlns:skos="http://www.w3. org/2004/02/skos/ core#">
               <skos:Concept rdf:about="http:/spines.org/concept/0001">
                               rdf:about="http:/spines.org/ concept/0001">
                     <skos:externalID> A.01.0001 </skos:externalID>
                      skos:externalID>              </skos:externalID>
                     <skos:prefLabel> Capital </skos:prefLabel>
                      skos:prefLabel >          </skos:prefLabel>
                     <skos:altLabel> Activo </skos:altLabel>
                      skos:altLabel>         </skos:altLabel>
                     <skos:altLabel> Riqueza </skos:altLabel>
                      skos:altLabel>           </skos:altLabel>
                     <skos:inScheme rdf:resource="http:/spines.org/thesaurus"/>
                                       rdf:resource="http:/spines.org/ thesaurus"/>
               </Concept>
               </Concept>
           /rdf:RDF

    Anotación Semántica y Recuperación de Información          16                                          ©Antonio Pareja Lora
Problemas asociados a la Web Semántica

•       ¿En qué idioma se escriben las ontologías?
           – ¿Se pierden por ello las capacidades interlingües?
•       ¿Cómo decidir qué se modela como un concepto, qué como una instancia,
        qué como un valor, etc.?
           – ¿Cómo afectan estas decisiones a posteriores extensiones e integraciones de la
             ontología?
•       ¿Cómo se comparan y modifican las ontologías?
           – Si dos entidades han modelado un mismo dominio con dos ontologías
             diferentes, ¿cuál es la mejor? ¿Con cuál quedarse?
           – Si dos ontologías se solapan en cierta medida, ¿cómo se conjugan?
           – ¿Cómo se enlazan ontologías de dominios distintos en un único modelo?
           – ¿Quién se encarga de actualizar el conocimiento ontológico?
•       ¿Quién garantiza un nivel de consenso suficiente?
           – ¿Es posible crear algún tipo de marchamo de calidad o de estándar?
•       ¿Quién se encarga de anotar la ingente cantidad de recursos de la WWW?

    Anotación Semántica y Recuperación de Información   17                    ©Antonio Pareja Lora
Problemas asociados a la anotación con ontologías

• Las herramientas de la Ingeniería Ontológica:
       – No automatizan el proceso de anotación semántica
                • En la mayoría de los casos, son simples entornos de
                  anotación basada en ontologías:
                • El usuario enlaza los términos con conceptos de una
                  ontología
       – No cubren la totalidad de los niveles de la
         pirámide de anotación lingüística, requeridos para
         capturar el significado real de un documento por
         completo.
       – Se centran casi en exclusiva en la anotación del
         inglés.

Anotación Semántica y Recuperación de Información   18      ©Antonio Pareja Lora
Contrapunto: la anotación en Lingüística (de Corpus)
                                                                       Anotación
                                                                       Pragmática




                                Resolutores de                       Etiquetado
                              anáforas y catáforas                   del discurso

                          Etiquetadores del sentido                   Etiquetado
                         y de entidades con nombre                    semántico

                           Analizadores sintácticos              Etiquetado sintáctico

                                                              Etiquetado     Etiquetado
                        Etiquetadores gramaticales
                                                               lemático     morfosintáctico



                                Herramientas
                                 Herramientas
                                 lingüísticas                          Niveles de
                                                                        Niveles de
                                   lingüísticas                        anotación
                                                                        anotación

                • McEnery, A. M. y Wilson, A. (2001) Corpus Linguistics: An introduction. Edinburgh:Edinburgh
                  University Press.


Anotación Semántica y Recuperación de Información        19                                     ©Antonio Pareja Lora
Anotación lingüística: un ejemplo
      La Excepción saltó a la fama a raíz de la publicación de su primer disco, ‘Cata cheli’ …
•     La                    la                     PD: DET, FEM, SING                                 • NE: GRUPO –
                                                                            SN                          ARG1= AGENT
•     Excepción             Excepción              NP: FEM, SING                  Sujeto
•     saltó                 saltar                 V: PAS, 3ª, SING                                   • MAIN PRED –
•     a                     a                      AP: PREP                                             MOVEMENT
                                                                                 SPrep              S • ARG2 =
•     la                    la                     PD: DET, FEM, SING       SN                          DESTINO
•     fama                  fama                   NC: FEM, SING                 Adjunto1
•     a                     a                      AP: PREP
•     raíz                  raíz                   NC: FEM, SING     Prep
•     de                    de                     AP: PREP                                           • ARG3 = TEMP
                                                                                            SPrep
•     la                    la                     PD: DET, FEM, SING
•     publicación           publicación            NC: FEM, SING                                      • PRED SEC –
                                                                                         SN
•     de                    de                     AP: PREP                                             DO(PUBLIC)
•     su                    su                     PD: POS, 3ª, SING             SPrep
•     primer                primer                 NU: ORD, MSC, SING       SN       Adjunto2         • ARG2 = OBJ
•     disco                 disco                  NC: MSC, SING
•     ,                     ,                      PU: COMMA                      Modificador
•     ‘                     ‘                      PU: APOSTR. (ABRE)
•     Cata                  Cata                   NP: FEM, SING                                      • NE:
                                                                     SN
•     Cheli                 Cheli                  AJ: FEM, SING                                        ARTEFACTO –
•     ’                     ’                      PU: APOSTR. (CERR.)                                  ARG2=OBJ
      TEXTO                   LEMAS                 ETIQUETAS POS           E. SINTÁCTICAS            E.SEMÁNTICAS
    Anotación Semántica y Recuperación de Información            20                                    ©Antonio Pareja Lora
Problemas asociados a la anotación lingüística

• Las herramientas desarrolladas en el ámbito de la
  Lingüística:
       – Ventajas:
                • Automatizan el proceso de anotación de documentos.
       – Inconvenientes:
                • No son todo lo precisas que se esperaría en el nivel semántico.
                • Aún es necesaria la revisión humana en los niveles inferiores.
                        – Objetivo: reducir la tasa real de errores por debajo del 5%.
                • No se ajustan, en general, a estándares o directrices consensuadas
                  de anotación (ni en sus etiquetarios ni en su formato o lenguaje de
                  anotación).
                        – Sus anotaciones no se pueden interpretar con independencia de la
                          herramienta utilizada.


Anotación Semántica y Recuperación de Información   21                               ©Antonio Pareja Lora
Solución: la anotación semántica híbrida
                                                                                                   Extracción de
                                                    Reutilizables                                   información


    Herramientas                                                                                   Recuperación
    de anotación                                                                                  de información
     lingüística
                                                       Documento
                                                        anotado                                      Traducción
                                                     semánticamente                                  automática

    Herramientas
    de Ingeniería                                                                                 Aprendizaje de
     Ontológica                                                                                     ontologías


                                                    Independencia                                   Minería de
                                                                                                   datos / textos


                                    del propósito                    de la lengua

                • Aguado-de Cea, G., Álvarez de Mon-Rego, I., Pareja-Lora, A. (2002) Primeras aproximaciones a la
                  anotación lingüístico-ontológica de documentos de la Web Semántica: OntoTag. Inteligencia Artificial,
                  Revista Iberoamericana de Inteligencia Artificial. No.17 (2002). 55–67.

Anotación Semántica y Recuperación de Información            22                                          ©Antonio Pareja Lora
Anotación semántica híbrida: un ejemplo

                                                         • Wilcock, G., Buitelaar, P.,
                                                           Pareja-Lora, A., Bryant, B.,
                                                           Lin, J., Ide, N. (2004) The
                                                           Roles of Natural Language
                                                           and XML in the Semantic
                                                           Web.          Computational
                                                           Linguistics and Beyond
                                                           (Perspectives      at    the
                                                           Beginning of the 21st
                                                           Century) (editado por Chu-
                                                           Ren Huang y Winfried
                                                           Lenders). Taipei: Academia
                                                           Sinica. 139 – 180.
                                                         • Aguado-de Cea, G., Álvarez
                                                           de Mon-Rego, I., Gómez-
                                                           Pérez, A., Pareja-Lora, A.
                                                           (2003) OntoTag: XML /
                                                           RDF(S) / OWL Semantic
                                                           Web Page Annotation in
                                                           ContentWeb. Proceedings
                                                           of the 3rd Workshop on NLP
                                                           and XML (NLPXML-2003)
                                                           – Language Technology and
                                                           the      Semantic     Web.
                                                           EACL’03. 25–32.



Anotación Semántica y Recuperación de Información   23         ©Antonio Pareja Lora
Anot. semántica híbrida y recuperación de información

•       Premisas:
           – Se anotan igualmente los documentos y las consultas:
                    • Todas las etiquetas deben estar consensuadas o, mejor aún, estandarizadas – ISO TC
                      37 / SC 24 (http://www.tc37sc4.org/index.php).
•       Ventajas:
           – Las consultas se benefician de los avances en:
                    • tokenización (separación en palabras del texto) y lematización.
                    • resolución de ambigüedades del sentido (WSD: Word Sense Disambiguation).
                    • detección y clasificación de entidades con nombre (NERC: Named Entity
                      Recognition and Classification).
                    • gestión de la multilingualidad, etc.
•       Problemas:
           – Falta de contexto en las consultas:
                    • La ayuda de la Ingeniería Lingüística por sí sola es insuficiente.
                    • Sigue requiriendo la interacción con el usuario para eliminar las ambigüedades.
                    • Baeza-Yates, R. (2004) Challenges in the Interaction of Information Retrieval and Natural Language
                      Processing. Proceedings of CICLing 2004. Berlín:Springer-Verlag. 445 – 456.

    Anotación Semántica y Recuperación de Información           24                                        ©Antonio Pareja Lora
El papel de los bibliotecarios y documentalistas

•       En la gestión automática del conocimiento:
           – Migración de sistemas de organización del conocimiento al entorno de la Web
             Semántica (SKOS / SKOS Core):
                    •   Reutilizando sus tesauros y otros recursos disponibles como punto de partida
                    •   Abstrayendo un metamodelo basado en ontologías
                    •   Enriqueciendo los recursos ya existentes con el metamodelo desarrollado
                    •   Incorporando el nuevo recurso enriquecido a la Web Semántica
•       En el desarrollo de ontologías:
           – Colaboración con el ingeniero del conocimiento y los terminógrafos en la
             identificación de los términos (conceptos, instancias, propiedades y relaciones)
             del dominio
           – Documentación exhaustiva de cada término de la ontología
           – Archivo organizado de versiones obsoletas
•       En el proceso de anotación:
           – Desarrollo de minicorpus anotados que sirvan de entrenamiento (bootstrapping)
             de herramientas (semi)automáticas de anotación basadas en ontologías
           – Anotado a gran escala de documentos de la Web Semántica, ayudados por
             herramientas de edición de anotaciones

    Anotación Semántica y Recuperación de Información    25                                  ©Antonio Pareja Lora
UCM                                               OEG - UPM




                El futuro de los buscadores:
                    nuevas tendencias en
               Recuperación de Información

           Anotación Semántica y
         Recuperación de Información
                      Antonio Pareja Lora
                      (apareja@sip.ucm.es)




FESABID 2007                10 / 05 / 2007     ©Antonio Pareja Lora

Más contenido relacionado

Similar a Anotacion Semantica y Recuperacion de Informacion - FESABID 2007 - Antonio Pareja Lora

Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...
Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...
Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...SemanticWebBuilder
 
Ontologías y su utilidad en ingeniería de software
Ontologías y su utilidad en ingeniería de softwareOntologías y su utilidad en ingeniería de software
Ontologías y su utilidad en ingeniería de softwareSelin Carrasco
 
Web semántica 2do comunicacion "A"
Web semántica 2do comunicacion "A"Web semántica 2do comunicacion "A"
Web semántica 2do comunicacion "A"Negra Morales
 
LENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOS
LENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOSLENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOS
LENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOSJonathan Hidalgo Nolasco
 
Desarrollo de un agente buscador inteligente de metadatos
Desarrollo de un agente buscador inteligente  de metadatosDesarrollo de un agente buscador inteligente  de metadatos
Desarrollo de un agente buscador inteligente de metadatosHugo Banda
 
Pensáis que es posible la web semántica actividad 1
Pensáis que es posible la web semántica actividad 1Pensáis que es posible la web semántica actividad 1
Pensáis que es posible la web semántica actividad 1Catalino Dominguez Villarreal
 
Sistemas de Etiquetado
Sistemas de EtiquetadoSistemas de Etiquetado
Sistemas de EtiquetadoOmar Sosa-Tzec
 
Web semantica y ontologias
Web semantica y ontologiasWeb semantica y ontologias
Web semantica y ontologiasVane Erraez
 
Vocabulario basado en XML y ontología para la coordinación de postgrado del d...
Vocabulario basado en XML y ontología para la coordinación de postgrado del d...Vocabulario basado en XML y ontología para la coordinación de postgrado del d...
Vocabulario basado en XML y ontología para la coordinación de postgrado del d...Manuel Mujica
 
Teoría computación
Teoría computaciónTeoría computación
Teoría computaciónOscar Eduardo
 

Similar a Anotacion Semantica y Recuperacion de Informacion - FESABID 2007 - Antonio Pareja Lora (20)

Ontologías
OntologíasOntologías
Ontologías
 
Web Semantica
Web SemanticaWeb Semantica
Web Semantica
 
Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...
Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...
Desarrollo orientado a la semántica - Encuentro de la Industria en el Tecnoló...
 
La web semantica
La web semanticaLa web semantica
La web semantica
 
Web semántica13.41
Web semántica13.41Web semántica13.41
Web semántica13.41
 
Ontologías y su utilidad en ingeniería de software
Ontologías y su utilidad en ingeniería de softwareOntologías y su utilidad en ingeniería de software
Ontologías y su utilidad en ingeniería de software
 
Ontologias con Bases de Datos
Ontologias con Bases de DatosOntologias con Bases de Datos
Ontologias con Bases de Datos
 
Web semántica 2do comunicacion "A"
Web semántica 2do comunicacion "A"Web semántica 2do comunicacion "A"
Web semántica 2do comunicacion "A"
 
LENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOS
LENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOSLENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOS
LENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOS
 
Desarrollo de un agente buscador inteligente de metadatos
Desarrollo de un agente buscador inteligente  de metadatosDesarrollo de un agente buscador inteligente  de metadatos
Desarrollo de un agente buscador inteligente de metadatos
 
Pensáis que es posible la web semántica actividad 1
Pensáis que es posible la web semántica actividad 1Pensáis que es posible la web semántica actividad 1
Pensáis que es posible la web semántica actividad 1
 
Sistemas de Etiquetado
Sistemas de EtiquetadoSistemas de Etiquetado
Sistemas de Etiquetado
 
Web semantica y ontologias
Web semantica y ontologiasWeb semantica y ontologias
Web semantica y ontologias
 
Ontologia Ecst
Ontologia EcstOntologia Ecst
Ontologia Ecst
 
Ontología
OntologíaOntología
Ontología
 
ATIX18
ATIX18ATIX18
ATIX18
 
Vocabulario basado en XML y ontología para la coordinación de postgrado del d...
Vocabulario basado en XML y ontología para la coordinación de postgrado del d...Vocabulario basado en XML y ontología para la coordinación de postgrado del d...
Vocabulario basado en XML y ontología para la coordinación de postgrado del d...
 
Web Semántica
Web SemánticaWeb Semántica
Web Semántica
 
Web semantica (2)
Web semantica (2)Web semantica (2)
Web semantica (2)
 
Teoría computación
Teoría computaciónTeoría computación
Teoría computación
 

Último

EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptxEXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptxPryhaSalam
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónLourdes Feria
 
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PCCesarFernandez937857
 
MAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMarjorie Burga
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxAna Fernandez
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuaDANNYISAACCARVAJALGA
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.amayarogel
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptxFelicitasAsuncionDia
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIACarlos Campaña Montenegro
 
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdfDemetrio Ccesa Rayme
 
Neurociencias para Educadores NE24 Ccesa007.pdf
Neurociencias para Educadores  NE24  Ccesa007.pdfNeurociencias para Educadores  NE24  Ccesa007.pdf
Neurociencias para Educadores NE24 Ccesa007.pdfDemetrio Ccesa Rayme
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 
la unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fiscala unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fiscaeliseo91
 
2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdfBaker Publishing Company
 

Último (20)

EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptxEXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
EXPANSIÓN ECONÓMICA DE OCCIDENTE LEÓN.pptx
 
Estrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcciónEstrategia de prompts, primeras ideas para su construcción
Estrategia de prompts, primeras ideas para su construcción
 
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 2do Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 2do Grado Educacion Primaria 2024 Ccesa007.pdf
 
Identificación de componentes Hardware del PC
Identificación de componentes Hardware del PCIdentificación de componentes Hardware del PC
Identificación de componentes Hardware del PC
 
MAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grandeMAYO 1 PROYECTO día de la madre el amor más grande
MAYO 1 PROYECTO día de la madre el amor más grande
 
RETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docxRETO MES DE ABRIL .............................docx
RETO MES DE ABRIL .............................docx
 
cortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahuacortes de luz abril 2024 en la provincia de tungurahua
cortes de luz abril 2024 en la provincia de tungurahua
 
La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.La triple Naturaleza del Hombre estudio.
La triple Naturaleza del Hombre estudio.
 
Registro Auxiliar - Primaria 2024 (1).pptx
Registro Auxiliar - Primaria  2024 (1).pptxRegistro Auxiliar - Primaria  2024 (1).pptx
Registro Auxiliar - Primaria 2024 (1).pptx
 
Repaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia GeneralRepaso Pruebas CRECE PR 2024. Ciencia General
Repaso Pruebas CRECE PR 2024. Ciencia General
 
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIARAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
RAIZ CUADRADA Y CUBICA PARA NIÑOS DE PRIMARIA
 
Unidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la InvestigaciónUnidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la Investigación
 
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdfPlanificacion Anual 4to Grado Educacion Primaria   2024   Ccesa007.pdf
Planificacion Anual 4to Grado Educacion Primaria 2024 Ccesa007.pdf
 
Neurociencias para Educadores NE24 Ccesa007.pdf
Neurociencias para Educadores  NE24  Ccesa007.pdfNeurociencias para Educadores  NE24  Ccesa007.pdf
Neurociencias para Educadores NE24 Ccesa007.pdf
 
Power Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptxPower Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptx
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
Medición del Movimiento Online 2024.pptx
Medición del Movimiento Online 2024.pptxMedición del Movimiento Online 2024.pptx
Medición del Movimiento Online 2024.pptx
 
la unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fiscala unidad de s sesion edussssssssssssssscacio fisca
la unidad de s sesion edussssssssssssssscacio fisca
 
2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf2024 - Expo Visibles - Visibilidad Lesbica.pdf
2024 - Expo Visibles - Visibilidad Lesbica.pdf
 
Sesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdfSesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdf
 

Anotacion Semantica y Recuperacion de Informacion - FESABID 2007 - Antonio Pareja Lora

  • 1. UCM OEG - UPM El futuro de los buscadores: nuevas tendencias en Recuperación de Información Anotación Semántica y Recuperación de Información Antonio Pareja Lora (apareja@sip.ucm.es) FESABID 2007 10 / 05 / 2007 ©Antonio Pareja Lora
  • 2. Índice • ¿Qué es la Web Semántica? • De la WWW a la Web Semántica • ¿Qué son las ontologías? – Clasificación en función de su grado de formalización. – Componentes de una ontología • Ontologías y anotación en la Web Semántica – Anotación semántica: de los metadatos a las ontologías – Anotación con semántica ontológica: una aproximación – SKOS: migración de recursos a la Web Semántica – Los problemas de fondo: • Asociados a la Web Semántica • Asociados la anotación basada en ontologías • Contrapunto: la anotación en Lingüística (de Corpus) – Niveles de anotación lingüística – ejemplo – Problemas asociados a la anotación lingüística • Solución: la anotación semántica híbrida • Anotación semántica híbrida y recuperación de información • El papel de los bibliotecarios y documentalistas Anotación Semántica y Recuperación de Información 2 ©Antonio Pareja Lora
  • 3. ¿Qué es la Web Semántica? • Es una extensión de la WWW. • Mejoras introducidas: – La información es etiquetada con un significado bien definido. • Objetivos: – Explicitar formalmente el significado de los contenidos de los documentos en la red. – Obtener una red de contenidos comprensibles y procesables por los ordenadores. • Berners-Lee, T., Hendler, J. and Lassila, O. (2001) The Semantic Web. Scientific American, May 2001 Anotación Semántica y Recuperación de Información 3 ©Antonio Pareja Lora
  • 4. De la WWW a la Web Semántica Semántica Web Web explícita WWW WWW + procesable por = Semántica Semántica ordenadores ANOTACIÓN Contenidos Contenidos comprensibles comprensibles para las personas para el ordenador HTML: ONTOLÓGICA XML, RDF(S) Centrado en la & OWL: estructura y el Centrados en formato el contenido FORMAL Orientada a la Orientada a la presentación ∀x P(x) → Q(x) comprensión (automática) A = π·r2 (automática) Anotación Semántica y Recuperación de Información 4 ©Antonio Pareja Lora
  • 5. ¿Qué es una ontología? Una ONTOLOGÍA es: una especificación formal (y explícita) de una conceptualización compartida Está formada por conceptos, propiedades, Es un modelo abstracto de un cierto fenómeno relaciones, funciones, real que identifica sus restricciones (reglas) y componentes (conceptos) axiomas Computable más importantes El tipo de conceptos Plasma un utilizados, así como sus conocimiento restricciones de uso, son consensuado definidos explícitamente • Gruber, T. R. (1993) A Translation Approach to Portable Ontologies. Journal on Knowledge Acquisition, Vol. 5(2), 199-220 • Borst, W. N. (1997) Construction of Engineering Ontologies. PhD thesis, University of Twente, Enschede • Studer, R.; Benjamins, R.; Fensel, D. (1998) Knowledge Engineering: Principles and Methods. Data and Knowledge Engineering, (DKE) Vol. 25, 1-2: 161-197 Anotación Semántica y Recuperación de Información 5 ©Antonio Pareja Lora
  • 6. Ontologías: grados de formalización • Ontologías ligeras (lightweight): – Poco más que taxonomías – Incluyen: • Conceptos • Taxonomías conceptuales • Relaciones entre conceptos • Propiedades que describen los conceptos • Ontologías de peso (heavyweight): – Profundizan y refinan más el modelo del dominio – Proporcionan más restricciones sobre la semántica del dominio – Incluyen: • El tipo de conocimiento que incorporan las ontologías ligeras • Axiomas y restricciones (que clarifican el significado con el que se definen los términos recogidos en la ontología) • Gómez-Pérez, A., Fernandez-Lopez, M., Corcho, O. (2003) Ontological engineering: with examples from the areas of knowledge management, e-commerce and the Semantic Web. Londres:Springer Verlag London Ltd. Anotación Semántica y Recuperación de Información 6 ©Antonio Pareja Lora
  • 7. Ontologías: Clasificación de Lassila & McGuinness Ontologías ligeras Ontologías de peso Tesauros basados en la relación Marcos hipónimo/hiperónimo Relación (propiedades) Restricciones Lenguajes formal Es-Un lógicas controlados genéricas Disjunto, (Glosario de) Términos Instancias Exhaustivo, formales Parte-De, ... Relación informal Restricción de valores Es-Un • Gómez-Pérez, A., Fernandez-Lopez, M., Corcho, O. (2003) Ontological engineering: with examples from the areas of knowledge management, e-commerce and the Semantic Web. Londres:Springer Verlag London Ltd. Anotación Semántica y Recuperación de Información 7 ©Antonio Pareja Lora
  • 8. Ontologías: componentes principales • Usando marcos (Minsky) y Lógica de Primer Orden: – Clases • Representan conceptos (en un sentido amplio) del dominio modelado – Relaciones • Correspondencias entre conceptos de ese dominio • Normalmente, se representan sólo como binarias • Pueden ser instanciadas con conocimiento del dominio – Funciones • Son un caso especial de relaciones cuyo n-ésimo elemento es único una vez fijados los n-1 elementos precedentes – Axiomas formales • Modelan enunciados que son siempre ciertos • Representan conocimiento que no puede ser definido formalmente por ninguno de los otros componentes – Instancias • Son los elementos o individuos de la ontología • Gómez-Pérez, A., Fernandez-Lopez, M., Corcho, O. (2003) Ontological engineering: with examples from the areas of knowledge management, e-commerce and the Semantic Web. Londres:Springer Verlag London Ltd. Anotación Semántica y Recuperación de Información 8 ©Antonio Pareja Lora
  • 9. Ontologías: componentes principales (2) • Usando Lógica Descriptiva : – Conceptos • Representan clases de objetos (≡ son las clases del paradigma basado en marcos) • Pueden ser primitivos – Roles • Describen: – Relaciones binarias entre conceptos – Propiedades de los conceptos – Individuos • Representan instancias de las los conceptos (clases) y los valores que adquieren sus roles (propiedades) • Gómez-Pérez, A., Fernandez-Lopez, M., Corcho, O. (2003) Ontological engineering: with examples from the areas of knowledge management, e-commerce and the Semantic Web. Londres:Springer Verlag London Ltd. Anotación Semántica y Recuperación de Información 9 ©Antonio Pareja Lora
  • 10. Ontologías y anotación en la Web Semántica OWL OIL DAML+OIL XOL SHOE OML RDF(S) Semántica XML El acceso inteligente a Ontológica ite los recursos m p er Anotación en la Web posibilita Las Semántica inferencias fa Ontologías cil ita Las explicitan d es descr búsquedas y crib iben la navegación en El significado de los términos de Los recursos de El vocabulario una página web la WWW de la WWW • Benjamins, R., Contreras, J., Martín, F., Navarrete, B., Aguado de Cea, G., Álvarez de Mon, I., Pareja-Lora, A., Plaza- Arteche, R. (2003) State of the Art on Annotation Tools and Services. Esperonto Services (IST-2001-34373) Deliverable D3.1. Anotación Semántica y Recuperación de Información 10 ©Antonio Pareja Lora
  • 11. Anotación semántica, metadatos y ontologías Consenso Conceptos, atributos, relaciones, intancias, Ontologías etc. (XML / RDF(S) / OWL) METADATOS SEMÁNTICOS Estandarización Documento Documento Anotador (anotado) de la de la WWW Web Semántica • Berners-Lee, T., Hendler, J. y Lassila, O. (2001) The Semantic Web. Scientific American, May 2001 Anotación Semántica y Recuperación de Información 11 ©Antonio Pareja Lora
  • 12. Anotación con semántica ontológica: una aproximación La Excepción saltó a la fama a raíz de la publicación de su primer disco, ‘Cata cheli’ … • La • Excepción InstanciaDe(‘La Excepción’, Concepto(Grupo_Musical, Ontología_Música)) • saltó InstanciaDe(saltó, Concepto(saltar, Ontología_Verbos_Movimiento)) • a • la • fama Concepto(fama, Ontología_Música) • a • raíz Concepto(raíz, Ontología_Plantas) ¿? • de • la • publicación Concepto(publicación, Ontología_Eventos) • de • su • primer • disco Concepto(disco, Ontología_Música) • , • ‘ • Cata InstanciaDe(‘Cata Cheli’, Concepto(disco, Ontología_Música)) • Cheli AutorDe(‘Cata Cheli’, ‘La Excepción’) • ’ Anotación Semántica y Recuperación de Información 12 ©Antonio Pareja Lora
  • 13. SKOS: Migrando recursos a la Web Semántica • SKOS – Simple Knowledge Organisation System: – Propuesta de representación estandarizada del World Wide Web Consortium (W3C) para sistemas de organización del conocimiento. Tesauros Web Semántica Web Semántica SKOS Sistemas Codificación Codificació estandarizados Estandarización Estandarizació de organización organizació en RDF(S) RDF(S) del conocimiento Esquemas de clasificación y clasificació taxonomías taxonomí • http://en.wikipedia.org/wiki/SKOS Vocabularios controlados Anotación Semántica y Recuperación de Información 13 ©Antonio Pareja Lora
  • 14. Componentes de SKOS Define las clases y las propiedades suficientes para representar las características más generalizadas de contenidas en un tesauro prototípico. [EN ELABORACIÓN] SKOS-Core • http://en.wikipedia.org/wiki/SKOS SKOS SKOS- SKOS- Mapping Extensions Pensado para proporcionar un Diseñadas para posibilitar la declaración vocabulario que exprese las de relaciones semánticas entre conceptos, correspondencias (matchings), tanto pero no de tipo hiperónimo-hipónimo, binarias como borrosas, entre conceptos de sino clase-instancia, metonimias (A es esquemas diferentes. parte de B), etc. [NO CONSOLIDADO] [¿ABANDONADO?] Anotación Semántica y Recuperación de Información 14 ©Antonio Pareja Lora
  • 15. SKOS-Core • No se centra en los términos, sino en los conceptos. • Pensado como un complemento simplificado de OWL. LEYENDA: Esquema conceptual o Concepto Relación semántica (hiper/hipónimo) Relació semá (hiper/hipó nimo) Correspondencia semántica semá Etiqueta (término) preferente (té Etiqueta (término) aternativa(o) (té aternativa(o) • http://www.w3.org/2001/sw/Europe/events/200406-esp/trabajo-final-extratesauros/node6.html Anotación Semántica y Recuperación de Información 15 ©Antonio Pareja Lora
  • 16. SKOS-Core: un ejemplo de codificación • Un esquema conceptual: <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdf="http://www.w3. org/1999/02/22-rdf- syntax- ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:rdfs="http://www.w3. org/2000/01/rdf- schema#" xmlns:skos="http://www.w3.org/2004/02/skos/core#" xmlns:skos="http://www.w3. org/2004/02/skos/ core#" xmlns:dc="http://purl.org/dc/elements/1.1/"> xmlns:dc="http://purl.org/ dc/ elements/1.1/"> <skos:ConceptScheme rdf:about="http:/spines.org/thesaurus"> rdf:about="http:/spines.org/ thesaurus"> <dc:title> SPINES </dc:title> dc:title> </dc:title> <dc:description> Tesauro de política científica. </dc:description> dc:description> polí cientí </dc:description> <dc:creator> UNESCO </dc:creator> dc:creator> </dc:creator> </skos:ConceptScheme> </skos:ConceptScheme> </rdf:RDF> </rdf:RDF> • http://www.w3.org/2001/sw/Europe/events/200406- • Un concepto: esp/trabajo-final-extratesauros/node6.html <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdf="http://www.w3. org/1999/02/22-rdf- syntax- ns#" xmlns:skos="http://www.w3.org/2004/02/skos/core#"> xmlns:skos="http://www.w3. org/2004/02/skos/ core#"> <skos:Concept rdf:about="http:/spines.org/concept/0001"> rdf:about="http:/spines.org/ concept/0001"> <skos:externalID> A.01.0001 </skos:externalID> skos:externalID> </skos:externalID> <skos:prefLabel> Capital </skos:prefLabel> skos:prefLabel > </skos:prefLabel> <skos:altLabel> Activo </skos:altLabel> skos:altLabel> </skos:altLabel> <skos:altLabel> Riqueza </skos:altLabel> skos:altLabel> </skos:altLabel> <skos:inScheme rdf:resource="http:/spines.org/thesaurus"/> rdf:resource="http:/spines.org/ thesaurus"/> </Concept> </Concept> /rdf:RDF Anotación Semántica y Recuperación de Información 16 ©Antonio Pareja Lora
  • 17. Problemas asociados a la Web Semántica • ¿En qué idioma se escriben las ontologías? – ¿Se pierden por ello las capacidades interlingües? • ¿Cómo decidir qué se modela como un concepto, qué como una instancia, qué como un valor, etc.? – ¿Cómo afectan estas decisiones a posteriores extensiones e integraciones de la ontología? • ¿Cómo se comparan y modifican las ontologías? – Si dos entidades han modelado un mismo dominio con dos ontologías diferentes, ¿cuál es la mejor? ¿Con cuál quedarse? – Si dos ontologías se solapan en cierta medida, ¿cómo se conjugan? – ¿Cómo se enlazan ontologías de dominios distintos en un único modelo? – ¿Quién se encarga de actualizar el conocimiento ontológico? • ¿Quién garantiza un nivel de consenso suficiente? – ¿Es posible crear algún tipo de marchamo de calidad o de estándar? • ¿Quién se encarga de anotar la ingente cantidad de recursos de la WWW? Anotación Semántica y Recuperación de Información 17 ©Antonio Pareja Lora
  • 18. Problemas asociados a la anotación con ontologías • Las herramientas de la Ingeniería Ontológica: – No automatizan el proceso de anotación semántica • En la mayoría de los casos, son simples entornos de anotación basada en ontologías: • El usuario enlaza los términos con conceptos de una ontología – No cubren la totalidad de los niveles de la pirámide de anotación lingüística, requeridos para capturar el significado real de un documento por completo. – Se centran casi en exclusiva en la anotación del inglés. Anotación Semántica y Recuperación de Información 18 ©Antonio Pareja Lora
  • 19. Contrapunto: la anotación en Lingüística (de Corpus) Anotación Pragmática Resolutores de Etiquetado anáforas y catáforas del discurso Etiquetadores del sentido Etiquetado y de entidades con nombre semántico Analizadores sintácticos Etiquetado sintáctico Etiquetado Etiquetado Etiquetadores gramaticales lemático morfosintáctico Herramientas Herramientas lingüísticas Niveles de Niveles de lingüísticas anotación anotación • McEnery, A. M. y Wilson, A. (2001) Corpus Linguistics: An introduction. Edinburgh:Edinburgh University Press. Anotación Semántica y Recuperación de Información 19 ©Antonio Pareja Lora
  • 20. Anotación lingüística: un ejemplo La Excepción saltó a la fama a raíz de la publicación de su primer disco, ‘Cata cheli’ … • La la PD: DET, FEM, SING • NE: GRUPO – SN ARG1= AGENT • Excepción Excepción NP: FEM, SING Sujeto • saltó saltar V: PAS, 3ª, SING • MAIN PRED – • a a AP: PREP MOVEMENT SPrep S • ARG2 = • la la PD: DET, FEM, SING SN DESTINO • fama fama NC: FEM, SING Adjunto1 • a a AP: PREP • raíz raíz NC: FEM, SING Prep • de de AP: PREP • ARG3 = TEMP SPrep • la la PD: DET, FEM, SING • publicación publicación NC: FEM, SING • PRED SEC – SN • de de AP: PREP DO(PUBLIC) • su su PD: POS, 3ª, SING SPrep • primer primer NU: ORD, MSC, SING SN Adjunto2 • ARG2 = OBJ • disco disco NC: MSC, SING • , , PU: COMMA Modificador • ‘ ‘ PU: APOSTR. (ABRE) • Cata Cata NP: FEM, SING • NE: SN • Cheli Cheli AJ: FEM, SING ARTEFACTO – • ’ ’ PU: APOSTR. (CERR.) ARG2=OBJ TEXTO LEMAS ETIQUETAS POS E. SINTÁCTICAS E.SEMÁNTICAS Anotación Semántica y Recuperación de Información 20 ©Antonio Pareja Lora
  • 21. Problemas asociados a la anotación lingüística • Las herramientas desarrolladas en el ámbito de la Lingüística: – Ventajas: • Automatizan el proceso de anotación de documentos. – Inconvenientes: • No son todo lo precisas que se esperaría en el nivel semántico. • Aún es necesaria la revisión humana en los niveles inferiores. – Objetivo: reducir la tasa real de errores por debajo del 5%. • No se ajustan, en general, a estándares o directrices consensuadas de anotación (ni en sus etiquetarios ni en su formato o lenguaje de anotación). – Sus anotaciones no se pueden interpretar con independencia de la herramienta utilizada. Anotación Semántica y Recuperación de Información 21 ©Antonio Pareja Lora
  • 22. Solución: la anotación semántica híbrida Extracción de Reutilizables información Herramientas Recuperación de anotación de información lingüística Documento anotado Traducción semánticamente automática Herramientas de Ingeniería Aprendizaje de Ontológica ontologías Independencia Minería de datos / textos del propósito de la lengua • Aguado-de Cea, G., Álvarez de Mon-Rego, I., Pareja-Lora, A. (2002) Primeras aproximaciones a la anotación lingüístico-ontológica de documentos de la Web Semántica: OntoTag. Inteligencia Artificial, Revista Iberoamericana de Inteligencia Artificial. No.17 (2002). 55–67. Anotación Semántica y Recuperación de Información 22 ©Antonio Pareja Lora
  • 23. Anotación semántica híbrida: un ejemplo • Wilcock, G., Buitelaar, P., Pareja-Lora, A., Bryant, B., Lin, J., Ide, N. (2004) The Roles of Natural Language and XML in the Semantic Web. Computational Linguistics and Beyond (Perspectives at the Beginning of the 21st Century) (editado por Chu- Ren Huang y Winfried Lenders). Taipei: Academia Sinica. 139 – 180. • Aguado-de Cea, G., Álvarez de Mon-Rego, I., Gómez- Pérez, A., Pareja-Lora, A. (2003) OntoTag: XML / RDF(S) / OWL Semantic Web Page Annotation in ContentWeb. Proceedings of the 3rd Workshop on NLP and XML (NLPXML-2003) – Language Technology and the Semantic Web. EACL’03. 25–32. Anotación Semántica y Recuperación de Información 23 ©Antonio Pareja Lora
  • 24. Anot. semántica híbrida y recuperación de información • Premisas: – Se anotan igualmente los documentos y las consultas: • Todas las etiquetas deben estar consensuadas o, mejor aún, estandarizadas – ISO TC 37 / SC 24 (http://www.tc37sc4.org/index.php). • Ventajas: – Las consultas se benefician de los avances en: • tokenización (separación en palabras del texto) y lematización. • resolución de ambigüedades del sentido (WSD: Word Sense Disambiguation). • detección y clasificación de entidades con nombre (NERC: Named Entity Recognition and Classification). • gestión de la multilingualidad, etc. • Problemas: – Falta de contexto en las consultas: • La ayuda de la Ingeniería Lingüística por sí sola es insuficiente. • Sigue requiriendo la interacción con el usuario para eliminar las ambigüedades. • Baeza-Yates, R. (2004) Challenges in the Interaction of Information Retrieval and Natural Language Processing. Proceedings of CICLing 2004. Berlín:Springer-Verlag. 445 – 456. Anotación Semántica y Recuperación de Información 24 ©Antonio Pareja Lora
  • 25. El papel de los bibliotecarios y documentalistas • En la gestión automática del conocimiento: – Migración de sistemas de organización del conocimiento al entorno de la Web Semántica (SKOS / SKOS Core): • Reutilizando sus tesauros y otros recursos disponibles como punto de partida • Abstrayendo un metamodelo basado en ontologías • Enriqueciendo los recursos ya existentes con el metamodelo desarrollado • Incorporando el nuevo recurso enriquecido a la Web Semántica • En el desarrollo de ontologías: – Colaboración con el ingeniero del conocimiento y los terminógrafos en la identificación de los términos (conceptos, instancias, propiedades y relaciones) del dominio – Documentación exhaustiva de cada término de la ontología – Archivo organizado de versiones obsoletas • En el proceso de anotación: – Desarrollo de minicorpus anotados que sirvan de entrenamiento (bootstrapping) de herramientas (semi)automáticas de anotación basadas en ontologías – Anotado a gran escala de documentos de la Web Semántica, ayudados por herramientas de edición de anotaciones Anotación Semántica y Recuperación de Información 25 ©Antonio Pareja Lora
  • 26. UCM OEG - UPM El futuro de los buscadores: nuevas tendencias en Recuperación de Información Anotación Semántica y Recuperación de Información Antonio Pareja Lora (apareja@sip.ucm.es) FESABID 2007 10 / 05 / 2007 ©Antonio Pareja Lora