SlideShare una empresa de Scribd logo
1 de 30
Descargar para leer sin conexión
Minado de
Opiniones!
#datafest!
Lic. Ernesto Mislej!
ernesto@7puentes.com - @fetnelio !

Datafest – La Nación & Univ. Austral !
Noviembre 2012 – BA – Argentina !
                   7puentes.com!
Outline



   • Intro & Background
   • Modelo Formal
   • Subtareas
       • Recuperación de Opiniones (Opinion Retrieval)
       • Modelos de Análisis de Sentimiento (Sentiment Analysis)
       • Resumen (Summarization)
   • Problemas y desafíos
   • Referencias
Intro

  El objetivo del Minado de Opiniones - (OM) es recuperar y
  extraer la orientación semántica de un conjunto de textos para
  clasificarlos de acuerdo a ella como positivas o negativas.

  OM es una disciplina relativamente reciente que utiliza técnicas
  de IR, AI, ML y NLP para recuperar textos de opinión e inducir
  la orientación/polaridad semántica; más informalmente, extraer
  opiniones y sentimientos de textos.

  Incluye subtareas como:
    • Recuperación de Opiniones (Opinion Retrieval)
    • Modelos de Análisis de Sentimiento (Sentiment Analysis)
    • Resumen (Summarization)
Social media


   • La social media es una gran espacio donde se comparten
     opiniones y experiencias de consumidores.
   • Las opiniones pueden ser sobre un producto como un
     teléfono celular o una película; un evento, como un festival
     de música; o una persona como un candidato político.
   • Los textos son:
       •   datos poco-estructurados,
       •   pueden estar mal formados,
       •   ajustado a las condiciones del medio (140 caracteres),
       •   errores de ortografía,
       •   lenguajes particulares, emoticons, multi-lang,
       •   y muchos problemas más tratados por técnicas de
           Procesamiento de Lenguaje Natural.
Opinion Mining is Big Business
       !"#$%&'#()*+,*-.%,,#%/01*234


            !"#$#%$&'#$#$(&#)&*#(&*+)#$,))

 Alguien que quiere comprar una
        ! -%.,%$,&/0%&/1$2)&2%&3+4&1&51.,61
 cámara
             !   7%%8)&9%6&5%..,$2)&1$:&6,;#,/)
   • Busca comentarios y reviews.
        !    -%.,%$,&/0%&<+)2&3%+(02&1&51.,61
 Alguien que ya compró una cámara
             !   =%..,$2)&%$&#2
   • Escribe su experiencia.
             !   >6#2,)&13%+2&20,#6&,?",6#,$5,
   • Fanático vs. contra-fanático.
        !    =1.,61&'1$+9152+6,6
 Fabricante
             !   @,2)&9,,:3158&96%.&5+)2%.,6
   • Obtiene feedback de los
             !   A."6%;,&20,#6&"6%:+52)
     consumidores.
             !   B:<+)2&'168,2#$(&-2612,(#,)
   • Mejora de los productos.
   • Adapta estrategias de márketing.!
Otras aplicaciones Opinion Mining

  Ads placements
    • Relevar e identificar la ubicación para imprimir un ad en la
      social media.
    • Teniendo en cuenta opiniones de la página huésped.
    • Opiniones propias y de la competencia.

  Influencia y Reputación
    • Identificar usuarios líderes y formadores de opinión.
    • Predecir compra de usuarios.

  Opinion Spam
    • Identificar opiniones falsas.
    • Identificar usuarios falsos/sesgados.
El vestido de Venus
El vestido de Venus
   !"#$%&'#()*+,*-.%,,#%/01*234


      !"#$#%$&'#$#$(&)*"%+)+&,-)+)&#$+#(-,+




                                  !
Online social media sentiment apps


   • Twitter sentiment: http://twittersentiment.appspot.com/
   • Twends: http://twendz.waggeneredstrom.com/
   • Twittratr: http://twitrratr.com/
   • SocialMention: http://socialmention.com/
   • . . . +40 empresas en USA

   • Tribatics: http://www.tribatics.com/
   • SocialMetrix: http://socialmetrix.com/
   • Zenzey: http://www.zenzey.com/
   • Keepcon: http://keepcon.com/
   • Ventura*: http://7puentes.com/products/ventura/
Online social media sentiment apps - Issues



    • Funciona para gente famosa!
    • Diferentes estrategias para construir los modelos de
      sentiment analysis causan resultados muy dispares.
    • Basados en diccionarios, rule-based, SVM, EM, etc.
    • Dificultad para separar la polaridad general
    • Buzz (menciones) vs. Opiniones.
    • Muchas veces funciona muy bien. Y algunas muy mal.
No sólo cámaras y vestidos...


    • Películas, obras de teatro, libros, moda.
    • Predicciones, tendencias, humor social.
    • Monitoreo de opinión pública de acciones de gobierno,
      actos de campaña.
    • Feedback sobre congresos, eventos, conferencias.
    • Monitoreo de catástrofes, accidentes, estado del tránsito,
      etc.

    • Comportamiento del mercado de valores. Medir el buzz de
      acciones, bonos, títulos.
¿La voz del pueblo o de un experto?


  Depende de la complejidad de la pregunta. Y de la precisión de
  la respuesta.


 ¿Cuál es la altura del monte
                                   ¿Cuál es la capital de España?
 Kilimanjaro?
                                     1   Barcelona
   1   19,341 ft
                                     2   Madrid
   2   23,341 ft
                                     3   Valencia
   3   15,341 ft
                                     4   Sevilla
   4   21,341 ft
No todas las opiniones valen lo mismo

    • ¿Cómo medir el valor de una opinión?
    • Usuario expertos del dominio.
    • Usuario frecuentes.
    • Spammer?
    • Expertos en un área no necesariamente son expertos en
      otra.

  Confianza
    • Basada en el vínculo (local): User-similarity, entramado
      social.
    • Basada en la reputación (global): Esta recomendación me ha
      sido útil
Subtareas

  Opinion Retrieval & Extraction
    • Recuperar de grandes volúmenes de textos, aquellos que
      contienen referencia al objeto.
    • Luego identificar el contexto de opinión.

  Sentiment Analysis
    • Extraer la polaridad de la opinión
    • Puede ser positivo-negativo, pos-neg-neutro, o una escala
      numérica.

  Opinion summarization
    • Resumir la opinión general de un conjunto de opiniones o
      de una opinón con varias facetas.
    • El resumen puede ser una metáfora visual.
Opinion Retrieval & Extraction

      Me compré una cámara de fotos el día de ayer. Me salió
      muy cara, pero saca unas fotos excelentes y la batería
      dura mucho.

    • Identificar zonas dentro de la página que responden a un
      texto de opinión.
    • Reglas sintácticas, estructurales del sitio.
    • Modelos estadísticos sobre sliding windows.
    • Identificación del objeto, marca.
    • Contexto fijo y variable.
    • Detección de puntos, fin de párrafo, etc.
    • ID, hastag, sinónimos, hiperónimos, etc.
Sentiment Analysis

  Identificar y extraer la orientación subjetiva de un texto.

    • Objetivo, Subjetivo.
    • Positivo, Negativo, Neutro. Rango numérico.

    • Métodos basados en reglas: diccionarios, boosted weak
      rules, etc.
    • Modelos de machine learning: SVM, NB, EM.
    • Prepos: steming, lematización, extracción de palabras por
      función (ADJ, VER, ADV).

    • Sentiment words: Genial, excelente, horrible, malo, peor,
      roto, etc.
Sentiment classification using ML methods. Pang, EMNLP-02




   Este paper aplica diversos métodos de ML supervisado para la
   clasificación de reviews de películas.

   En el preprocesamiento se utilizaron: tags de negación (no,
   pero, sin embargo, no obstante, por el contrario. . . ), unigramas,
   bigramas, POS tags, posición dentro de la oración.

   Se utilizaron métodos Naïve Bayes, Maximum entropy, Support
   vector machine, este último con la mejor performance del 83 %.
Unsupervised review classification. Turney, ACL-02


  Se extrajeron reviews de epinions.com sobre autos, bancos,
  películas y destinos turísticos. El enfoque consta de 3 partes:

    1   POS Tagging. Se extrajeron frases de 2-palabras según
        diversos patrones sintácticos: JJ-NN (Adjective-singular
        common nouns).
    2   Se estima la orientación semantica (SO) de las frases
        utilizando Pointwise mutual information (PMI).
    3   Se calcula el SO promedio para todas las frases.
Unsupervised review classification. Turney, ACL-02


  Pointwise mutual information
                                           P(a ∧ b)
             PMI(word1 , word2 ) = log2
                                          P(a) ∧ P(b)

  Semantic orientation (SO)

     SO(phrase) = PMI(phrase, excellent) − PMI(phrase, poor)

  Se puede usar el operador NEAR de AltaVista para buscar las
  frases y calcular los indicadores PMI y SO.
Unsupervised review classification. Turney, ACL-02



  Por último se calcula el SO promedio para todas las frases que
  componen la opinión.

  La performance de este enfoque:
    • autos - 84 %
    • bancos - 80 %
    • películas - 65.83 %
    • destinos turísticos - 70.53 %
Term Subjectivity and Term... Esuli and Sebastiani

   Construye clasificadores a nivel término objetivo-subjetivo y
   positivo-negativo. También de manera semisupervisada.

     • Se parte de 3 conjuntos pequeños de entrenamiento: Lp , Ln
       y Lo de términos Positivos, Negativos y Objetivos.
     • Los términos son synsets de Wordnet
       http://wordnet.princeton.edu/.
     • Y en cada iteración se navega por el grafo resultante de las
       relaciones de cada synset.
     • direct antonymy, similarity, derivedfrom, pertains-to,
       attribute, y also-see...

     • Sentiwordnet http://sentiwordnet.isti.cnr.it/
Opinion summarization & visualization
Opinion summarization & visualization
       Ejemplo: AIT en opinión política!

      Elecciones legislativas 2009!   Controles de Alcoholemia!




                                        Seguimiento Gripe A!




     7puentes.com!                     Análisis Inteligente de Textos!
Opinion summarization & visualization
Opinion summarization & visualization
Opinion summarization & visualization
Opinion summarization & visualization
Herramientas

   • NLTK Natural Language Toolkit http://nltk.org/
   • Freeling http://nlp.lsi.upc.edu/freeling/
   • Mallet MAchine Learning for LanguagE Toolkit
     http://mallet.cs.umass.edu/
   • GATE General Architecture for Text Engineering http://gate.ac.uk/
   • Bow: A Toolkit for Statistical Language Modeling
     http://www.cs.cmu.edu/∼mccallum/bow/
   • Cluto: Software for Clustering High-Dimensional Datasets
     http://glaros.dtc.umn.edu/gkhome/views/cluto
   • icsiboost: Open-source implementation of Boostexter
     http://code.google.com/p/icsiboost/

   • ManyEyes
     http://www-958.ibm.com/software/data/cognos/manyeyes/
   • TwitterStreamGraphs
     http://www.neoformix.com/Projects/TwitterStreamGraphs/view.php
Referencias

    • Opinion Mining: Exploiting the Sentiment of the Crowd,
      Diana Maynard, Adam Funk, Kalina Bontcheva. University
      of Sheffield, UK. 1995-2012
    • Sentiment Analysis and Opinion Mining, Bing Liu,
      AAAI-2011, EACL-2012, and Sentiment Analysis
      Symposium, Department of Computer Science, University
      Of Illinois at Chicago
    • Sentiment Analysis and Opinion Mining. Morgan & Claypool
      Publishers. May 2012., Bing Liu.
    • Bing Liu’s Home Page. http://www.cs.uic.edu/∼liub/
    • Web Data Mining, Bing Liu, Springer, December, 2006
    • Language and Intelligence Group, Università di Pisa.
      http://medialab.di.unipi.it/web/Language+Intelligence/
Gracias por
vuestra !
atención!
Lic. Ernesto Mislej!
ernesto@7puentes.com - @fetnelio !

Más contenido relacionado

Similar a Opinion Mining #datafestAr

Temario curso: Selección IT y Marketing para reclutamiento
Temario curso: Selección IT y Marketing para reclutamientoTemario curso: Selección IT y Marketing para reclutamiento
Temario curso: Selección IT y Marketing para reclutamientoADVISE Consultores
 
¿Podemos predecir si Twitter hundirá un banco?
¿Podemos predecir si Twitter hundirá un banco?¿Podemos predecir si Twitter hundirá un banco?
¿Podemos predecir si Twitter hundirá un banco?Carlos Perales
 
"Conducta en la red" 2012
"Conducta en la red" 2012"Conducta en la red" 2012
"Conducta en la red" 2012Juan Carlos
 
Encuestafacil
EncuestafacilEncuestafacil
EncuestafacilKorazza
 
Crear productos digitales pensando en el usuario
Crear productos digitales pensando en el usuarioCrear productos digitales pensando en el usuario
Crear productos digitales pensando en el usuarioMercadoLibre Córdoba
 
Edgar Sanchez Keyword Hunting.pdf
Edgar Sanchez Keyword Hunting.pdfEdgar Sanchez Keyword Hunting.pdf
Edgar Sanchez Keyword Hunting.pdfEdgar Sánchez
 
SEO y CRO en 6 pasos · Clinic SEO
SEO y CRO en 6 pasos · Clinic SEOSEO y CRO en 6 pasos · Clinic SEO
SEO y CRO en 6 pasos · Clinic SEONatzir Turrado
 
Usabilidad en práctica caso ISAGEN - Ana María Echeverri
Usabilidad en práctica caso ISAGEN - Ana María EcheverriUsabilidad en práctica caso ISAGEN - Ana María Echeverri
Usabilidad en práctica caso ISAGEN - Ana María Echeverriwww.usarte.co
 
Analisis Conjiint en ddetalle y friendly.pdf
Analisis Conjiint en ddetalle y friendly.pdfAnalisis Conjiint en ddetalle y friendly.pdf
Analisis Conjiint en ddetalle y friendly.pdfssuserd8290b1
 
Tecnicas de recoleccion de informacion
Tecnicas de recoleccion de informacionTecnicas de recoleccion de informacion
Tecnicas de recoleccion de informacionDuber Collazos
 
Ux en 30 minutos
Ux en 30 minutosUx en 30 minutos
Ux en 30 minutosSol Mesz
 
Lean startup: diseño de productos centrados en el usuario
Lean startup: diseño de productos centrados en el usuarioLean startup: diseño de productos centrados en el usuario
Lean startup: diseño de productos centrados en el usuarioSol Mesz
 
Conversion Rate Optimization CRO by ClinicSeo.es
Conversion Rate Optimization CRO by ClinicSeo.esConversion Rate Optimization CRO by ClinicSeo.es
Conversion Rate Optimization CRO by ClinicSeo.esClinic Seo
 
Explosión creativa (Maracay-Barquisimeto) 2012
Explosión creativa (Maracay-Barquisimeto) 2012Explosión creativa (Maracay-Barquisimeto) 2012
Explosión creativa (Maracay-Barquisimeto) 2012Juan Carlos
 

Similar a Opinion Mining #datafestAr (20)

Monitoreo de reputación online
Monitoreo de reputación onlineMonitoreo de reputación online
Monitoreo de reputación online
 
Temario curso: Selección IT y Marketing para reclutamiento
Temario curso: Selección IT y Marketing para reclutamientoTemario curso: Selección IT y Marketing para reclutamiento
Temario curso: Selección IT y Marketing para reclutamiento
 
¿Podemos predecir si Twitter hundirá un banco?
¿Podemos predecir si Twitter hundirá un banco?¿Podemos predecir si Twitter hundirá un banco?
¿Podemos predecir si Twitter hundirá un banco?
 
"Conducta en la red" 2012
"Conducta en la red" 2012"Conducta en la red" 2012
"Conducta en la red" 2012
 
Encuestafacil
EncuestafacilEncuestafacil
Encuestafacil
 
Crear productos digitales pensando en el usuario
Crear productos digitales pensando en el usuarioCrear productos digitales pensando en el usuario
Crear productos digitales pensando en el usuario
 
Edgar Sanchez Keyword Hunting.pdf
Edgar Sanchez Keyword Hunting.pdfEdgar Sanchez Keyword Hunting.pdf
Edgar Sanchez Keyword Hunting.pdf
 
SEO y CRO en 6 pasos · Clinic SEO
SEO y CRO en 6 pasos · Clinic SEOSEO y CRO en 6 pasos · Clinic SEO
SEO y CRO en 6 pasos · Clinic SEO
 
El analisis de sentimientos
El analisis de sentimientosEl analisis de sentimientos
El analisis de sentimientos
 
Usabilidad en práctica caso ISAGEN - Ana María Echeverri
Usabilidad en práctica caso ISAGEN - Ana María EcheverriUsabilidad en práctica caso ISAGEN - Ana María Echeverri
Usabilidad en práctica caso ISAGEN - Ana María Echeverri
 
Marketing&amp;ventas 01
Marketing&amp;ventas 01Marketing&amp;ventas 01
Marketing&amp;ventas 01
 
Analisis Conjiint en ddetalle y friendly.pdf
Analisis Conjiint en ddetalle y friendly.pdfAnalisis Conjiint en ddetalle y friendly.pdf
Analisis Conjiint en ddetalle y friendly.pdf
 
Introducción al CRO
Introducción al CROIntroducción al CRO
Introducción al CRO
 
Tecnicas de recoleccion de informacion
Tecnicas de recoleccion de informacionTecnicas de recoleccion de informacion
Tecnicas de recoleccion de informacion
 
Investigacion de mercado v.2010
Investigacion de mercado v.2010Investigacion de mercado v.2010
Investigacion de mercado v.2010
 
Duoc ai - usabilidad - metodologias
Duoc   ai - usabilidad - metodologiasDuoc   ai - usabilidad - metodologias
Duoc ai - usabilidad - metodologias
 
Ux en 30 minutos
Ux en 30 minutosUx en 30 minutos
Ux en 30 minutos
 
Lean startup: diseño de productos centrados en el usuario
Lean startup: diseño de productos centrados en el usuarioLean startup: diseño de productos centrados en el usuario
Lean startup: diseño de productos centrados en el usuario
 
Conversion Rate Optimization CRO by ClinicSeo.es
Conversion Rate Optimization CRO by ClinicSeo.esConversion Rate Optimization CRO by ClinicSeo.es
Conversion Rate Optimization CRO by ClinicSeo.es
 
Explosión creativa (Maracay-Barquisimeto) 2012
Explosión creativa (Maracay-Barquisimeto) 2012Explosión creativa (Maracay-Barquisimeto) 2012
Explosión creativa (Maracay-Barquisimeto) 2012
 

Más de Ernesto Mislej

Data Science & Big Data
Data Science & Big DataData Science & Big Data
Data Science & Big DataErnesto Mislej
 
Dime qué tuiteas y te diré quién eres. DataFest 2013
Dime qué tuiteas y te diré quién eres. DataFest 2013Dime qué tuiteas y te diré quién eres. DataFest 2013
Dime qué tuiteas y te diré quién eres. DataFest 2013Ernesto Mislej
 
Curso de Nivelación de Algoritmos - Clase 4
Curso de Nivelación de Algoritmos - Clase 4Curso de Nivelación de Algoritmos - Clase 4
Curso de Nivelación de Algoritmos - Clase 4Ernesto Mislej
 
Curso de Nivelación de Algoritmos - Clase 3
Curso de Nivelación de Algoritmos - Clase 3Curso de Nivelación de Algoritmos - Clase 3
Curso de Nivelación de Algoritmos - Clase 3Ernesto Mislej
 
Curso de Nivelación de Algoritmos - Clase 2
Curso de Nivelación de Algoritmos - Clase 2Curso de Nivelación de Algoritmos - Clase 2
Curso de Nivelación de Algoritmos - Clase 2Ernesto Mislej
 
Curso de Nivelación de Algoritmos - Clase 5
Curso de Nivelación de Algoritmos - Clase 5Curso de Nivelación de Algoritmos - Clase 5
Curso de Nivelación de Algoritmos - Clase 5Ernesto Mislej
 
Recommender Systems! @ASAI 2011
Recommender Systems! @ASAI 2011Recommender Systems! @ASAI 2011
Recommender Systems! @ASAI 2011Ernesto Mislej
 
Análisis Inteligente de Textos
Análisis Inteligente de TextosAnálisis Inteligente de Textos
Análisis Inteligente de TextosErnesto Mislej
 

Más de Ernesto Mislej (9)

Data Science & Big Data
Data Science & Big DataData Science & Big Data
Data Science & Big Data
 
Dime qué tuiteas y te diré quién eres. DataFest 2013
Dime qué tuiteas y te diré quién eres. DataFest 2013Dime qué tuiteas y te diré quién eres. DataFest 2013
Dime qué tuiteas y te diré quién eres. DataFest 2013
 
Data Mining
Data MiningData Mining
Data Mining
 
Curso de Nivelación de Algoritmos - Clase 4
Curso de Nivelación de Algoritmos - Clase 4Curso de Nivelación de Algoritmos - Clase 4
Curso de Nivelación de Algoritmos - Clase 4
 
Curso de Nivelación de Algoritmos - Clase 3
Curso de Nivelación de Algoritmos - Clase 3Curso de Nivelación de Algoritmos - Clase 3
Curso de Nivelación de Algoritmos - Clase 3
 
Curso de Nivelación de Algoritmos - Clase 2
Curso de Nivelación de Algoritmos - Clase 2Curso de Nivelación de Algoritmos - Clase 2
Curso de Nivelación de Algoritmos - Clase 2
 
Curso de Nivelación de Algoritmos - Clase 5
Curso de Nivelación de Algoritmos - Clase 5Curso de Nivelación de Algoritmos - Clase 5
Curso de Nivelación de Algoritmos - Clase 5
 
Recommender Systems! @ASAI 2011
Recommender Systems! @ASAI 2011Recommender Systems! @ASAI 2011
Recommender Systems! @ASAI 2011
 
Análisis Inteligente de Textos
Análisis Inteligente de TextosAnálisis Inteligente de Textos
Análisis Inteligente de Textos
 

Último

Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerenciacubillannoly
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosAlbanyMartinez7
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfKarinaCambero3
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersIván López Martín
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzzAlexandergo5
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxtjcesar1
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificialcynserafini89
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfFernandoOblitasVivan
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1ivanapaterninar
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docxobandopaula444
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
Análisis de Artefactos Tecnologicos (3) (1).pdf
Análisis de Artefactos Tecnologicos  (3) (1).pdfAnálisis de Artefactos Tecnologicos  (3) (1).pdf
Análisis de Artefactos Tecnologicos (3) (1).pdfsharitcalderon04
 

Último (20)

Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerencia
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos Juridicos
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdf
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 Testcontainers
 
tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzz
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
 
Presentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia ArtificialPresentación sobre la Inteligencia Artificial
Presentación sobre la Inteligencia Artificial
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdf
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1
 
El camino a convertirse en Microsoft MVP
El camino a convertirse en Microsoft MVPEl camino a convertirse en Microsoft MVP
El camino a convertirse en Microsoft MVP
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
Análisis de Artefactos Tecnologicos (3) (1).pdf
Análisis de Artefactos Tecnologicos  (3) (1).pdfAnálisis de Artefactos Tecnologicos  (3) (1).pdf
Análisis de Artefactos Tecnologicos (3) (1).pdf
 

Opinion Mining #datafestAr

  • 1. Minado de Opiniones! #datafest! Lic. Ernesto Mislej! ernesto@7puentes.com - @fetnelio ! Datafest – La Nación & Univ. Austral ! Noviembre 2012 – BA – Argentina ! 7puentes.com!
  • 2. Outline • Intro & Background • Modelo Formal • Subtareas • Recuperación de Opiniones (Opinion Retrieval) • Modelos de Análisis de Sentimiento (Sentiment Analysis) • Resumen (Summarization) • Problemas y desafíos • Referencias
  • 3. Intro El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas. OM es una disciplina relativamente reciente que utiliza técnicas de IR, AI, ML y NLP para recuperar textos de opinión e inducir la orientación/polaridad semántica; más informalmente, extraer opiniones y sentimientos de textos. Incluye subtareas como: • Recuperación de Opiniones (Opinion Retrieval) • Modelos de Análisis de Sentimiento (Sentiment Analysis) • Resumen (Summarization)
  • 4. Social media • La social media es una gran espacio donde se comparten opiniones y experiencias de consumidores. • Las opiniones pueden ser sobre un producto como un teléfono celular o una película; un evento, como un festival de música; o una persona como un candidato político. • Los textos son: • datos poco-estructurados, • pueden estar mal formados, • ajustado a las condiciones del medio (140 caracteres), • errores de ortografía, • lenguajes particulares, emoticons, multi-lang, • y muchos problemas más tratados por técnicas de Procesamiento de Lenguaje Natural.
  • 5. Opinion Mining is Big Business !"#$%&'#()*+,*-.%,,#%/01*234 !"#$#%$&'#$#$(&#)&*#(&*+)#$,)) Alguien que quiere comprar una ! -%.,%$,&/0%&/1$2)&2%&3+4&1&51.,61 cámara ! 7%%8)&9%6&5%..,$2)&1$:&6,;#,/) • Busca comentarios y reviews. ! -%.,%$,&/0%&<+)2&3%+(02&1&51.,61 Alguien que ya compró una cámara ! =%..,$2)&%$&#2 • Escribe su experiencia. ! >6#2,)&13%+2&20,#6&,?",6#,$5, • Fanático vs. contra-fanático. ! =1.,61&'1$+9152+6,6 Fabricante ! @,2)&9,,:3158&96%.&5+)2%.,6 • Obtiene feedback de los ! A."6%;,&20,#6&"6%:+52) consumidores. ! B:<+)2&'168,2#$(&-2612,(#,) • Mejora de los productos. • Adapta estrategias de márketing.!
  • 6. Otras aplicaciones Opinion Mining Ads placements • Relevar e identificar la ubicación para imprimir un ad en la social media. • Teniendo en cuenta opiniones de la página huésped. • Opiniones propias y de la competencia. Influencia y Reputación • Identificar usuarios líderes y formadores de opinión. • Predecir compra de usuarios. Opinion Spam • Identificar opiniones falsas. • Identificar usuarios falsos/sesgados.
  • 8. El vestido de Venus !"#$%&'#()*+,*-.%,,#%/01*234 !"#$#%$&'#$#$(&)*"%+)+&,-)+)&#$+#(-,+ !
  • 9. Online social media sentiment apps • Twitter sentiment: http://twittersentiment.appspot.com/ • Twends: http://twendz.waggeneredstrom.com/ • Twittratr: http://twitrratr.com/ • SocialMention: http://socialmention.com/ • . . . +40 empresas en USA • Tribatics: http://www.tribatics.com/ • SocialMetrix: http://socialmetrix.com/ • Zenzey: http://www.zenzey.com/ • Keepcon: http://keepcon.com/ • Ventura*: http://7puentes.com/products/ventura/
  • 10. Online social media sentiment apps - Issues • Funciona para gente famosa! • Diferentes estrategias para construir los modelos de sentiment analysis causan resultados muy dispares. • Basados en diccionarios, rule-based, SVM, EM, etc. • Dificultad para separar la polaridad general • Buzz (menciones) vs. Opiniones. • Muchas veces funciona muy bien. Y algunas muy mal.
  • 11. No sólo cámaras y vestidos... • Películas, obras de teatro, libros, moda. • Predicciones, tendencias, humor social. • Monitoreo de opinión pública de acciones de gobierno, actos de campaña. • Feedback sobre congresos, eventos, conferencias. • Monitoreo de catástrofes, accidentes, estado del tránsito, etc. • Comportamiento del mercado de valores. Medir el buzz de acciones, bonos, títulos.
  • 12. ¿La voz del pueblo o de un experto? Depende de la complejidad de la pregunta. Y de la precisión de la respuesta. ¿Cuál es la altura del monte ¿Cuál es la capital de España? Kilimanjaro? 1 Barcelona 1 19,341 ft 2 Madrid 2 23,341 ft 3 Valencia 3 15,341 ft 4 Sevilla 4 21,341 ft
  • 13. No todas las opiniones valen lo mismo • ¿Cómo medir el valor de una opinión? • Usuario expertos del dominio. • Usuario frecuentes. • Spammer? • Expertos en un área no necesariamente son expertos en otra. Confianza • Basada en el vínculo (local): User-similarity, entramado social. • Basada en la reputación (global): Esta recomendación me ha sido útil
  • 14. Subtareas Opinion Retrieval & Extraction • Recuperar de grandes volúmenes de textos, aquellos que contienen referencia al objeto. • Luego identificar el contexto de opinión. Sentiment Analysis • Extraer la polaridad de la opinión • Puede ser positivo-negativo, pos-neg-neutro, o una escala numérica. Opinion summarization • Resumir la opinión general de un conjunto de opiniones o de una opinón con varias facetas. • El resumen puede ser una metáfora visual.
  • 15. Opinion Retrieval & Extraction Me compré una cámara de fotos el día de ayer. Me salió muy cara, pero saca unas fotos excelentes y la batería dura mucho. • Identificar zonas dentro de la página que responden a un texto de opinión. • Reglas sintácticas, estructurales del sitio. • Modelos estadísticos sobre sliding windows. • Identificación del objeto, marca. • Contexto fijo y variable. • Detección de puntos, fin de párrafo, etc. • ID, hastag, sinónimos, hiperónimos, etc.
  • 16. Sentiment Analysis Identificar y extraer la orientación subjetiva de un texto. • Objetivo, Subjetivo. • Positivo, Negativo, Neutro. Rango numérico. • Métodos basados en reglas: diccionarios, boosted weak rules, etc. • Modelos de machine learning: SVM, NB, EM. • Prepos: steming, lematización, extracción de palabras por función (ADJ, VER, ADV). • Sentiment words: Genial, excelente, horrible, malo, peor, roto, etc.
  • 17. Sentiment classification using ML methods. Pang, EMNLP-02 Este paper aplica diversos métodos de ML supervisado para la clasificación de reviews de películas. En el preprocesamiento se utilizaron: tags de negación (no, pero, sin embargo, no obstante, por el contrario. . . ), unigramas, bigramas, POS tags, posición dentro de la oración. Se utilizaron métodos Naïve Bayes, Maximum entropy, Support vector machine, este último con la mejor performance del 83 %.
  • 18. Unsupervised review classification. Turney, ACL-02 Se extrajeron reviews de epinions.com sobre autos, bancos, películas y destinos turísticos. El enfoque consta de 3 partes: 1 POS Tagging. Se extrajeron frases de 2-palabras según diversos patrones sintácticos: JJ-NN (Adjective-singular common nouns). 2 Se estima la orientación semantica (SO) de las frases utilizando Pointwise mutual information (PMI). 3 Se calcula el SO promedio para todas las frases.
  • 19. Unsupervised review classification. Turney, ACL-02 Pointwise mutual information P(a ∧ b) PMI(word1 , word2 ) = log2 P(a) ∧ P(b) Semantic orientation (SO) SO(phrase) = PMI(phrase, excellent) − PMI(phrase, poor) Se puede usar el operador NEAR de AltaVista para buscar las frases y calcular los indicadores PMI y SO.
  • 20. Unsupervised review classification. Turney, ACL-02 Por último se calcula el SO promedio para todas las frases que componen la opinión. La performance de este enfoque: • autos - 84 % • bancos - 80 % • películas - 65.83 % • destinos turísticos - 70.53 %
  • 21. Term Subjectivity and Term... Esuli and Sebastiani Construye clasificadores a nivel término objetivo-subjetivo y positivo-negativo. También de manera semisupervisada. • Se parte de 3 conjuntos pequeños de entrenamiento: Lp , Ln y Lo de términos Positivos, Negativos y Objetivos. • Los términos son synsets de Wordnet http://wordnet.princeton.edu/. • Y en cada iteración se navega por el grafo resultante de las relaciones de cada synset. • direct antonymy, similarity, derivedfrom, pertains-to, attribute, y also-see... • Sentiwordnet http://sentiwordnet.isti.cnr.it/
  • 22. Opinion summarization & visualization
  • 23. Opinion summarization & visualization Ejemplo: AIT en opinión política! Elecciones legislativas 2009! Controles de Alcoholemia! Seguimiento Gripe A! 7puentes.com! Análisis Inteligente de Textos!
  • 24. Opinion summarization & visualization
  • 25. Opinion summarization & visualization
  • 26. Opinion summarization & visualization
  • 27. Opinion summarization & visualization
  • 28. Herramientas • NLTK Natural Language Toolkit http://nltk.org/ • Freeling http://nlp.lsi.upc.edu/freeling/ • Mallet MAchine Learning for LanguagE Toolkit http://mallet.cs.umass.edu/ • GATE General Architecture for Text Engineering http://gate.ac.uk/ • Bow: A Toolkit for Statistical Language Modeling http://www.cs.cmu.edu/∼mccallum/bow/ • Cluto: Software for Clustering High-Dimensional Datasets http://glaros.dtc.umn.edu/gkhome/views/cluto • icsiboost: Open-source implementation of Boostexter http://code.google.com/p/icsiboost/ • ManyEyes http://www-958.ibm.com/software/data/cognos/manyeyes/ • TwitterStreamGraphs http://www.neoformix.com/Projects/TwitterStreamGraphs/view.php
  • 29. Referencias • Opinion Mining: Exploiting the Sentiment of the Crowd, Diana Maynard, Adam Funk, Kalina Bontcheva. University of Sheffield, UK. 1995-2012 • Sentiment Analysis and Opinion Mining, Bing Liu, AAAI-2011, EACL-2012, and Sentiment Analysis Symposium, Department of Computer Science, University Of Illinois at Chicago • Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers. May 2012., Bing Liu. • Bing Liu’s Home Page. http://www.cs.uic.edu/∼liub/ • Web Data Mining, Bing Liu, Springer, December, 2006 • Language and Intelligence Group, Università di Pisa. http://medialab.di.unipi.it/web/Language+Intelligence/
  • 30. Gracias por vuestra ! atención! Lic. Ernesto Mislej! ernesto@7puentes.com - @fetnelio !