SlideShare una empresa de Scribd logo
1 de 35
WEB y TEXT MINING
Text MiningJuan Azcurra
¿Qué es Text Mining?
2
 Text Mining es ir de:
 “La calidad de atención es muy mala. Llamé 5 veces
reclamando por el servicio de SMS y no me atendió
nadie.”
 … a:
 Razón: Calidad de atención mala. Llamó 5 veces.
 Tema: servicio SMS
 Esto puede ser combinado con tiempo de
llamada, operador, etc. para ver conocer cuáles
son los productos más caros de atender.
¿Para qué Text Mining?
3
 A veces tenemos mucho texto y poca
información u oculta…
 ¿Quién es autoridad en qué tema? ¿Qué temas
están creciendo en importancia?
 Otras veces tenemos mucho texto y mucha
información oculta...
 emails, chats, libros online, comentarios de
productos ¿Qué leo? ¿Con qué se relaciona?
¿Tiene el texto un sesgo a favor o en contra de
algo o alguien?
¿Por qué Text Mining?
4
 En algunos campos (por ej. relacionados a
biología, medicina, etc.) el 80% del
conocimiento está en papers.
 Humanos no escalan:
 Una persona puede leer, en promedio, 20 papers
por semana. En ese lapso PubMed agregó 2500
abstracts.
 De acuerdo a Gartner, hasta el 85% de
información empresarial es no estructurada.
Buscar no es suficiente
5
 El objetivo de Information Retrieval (IR) es
ayudar a usuarios a que encuentren una
respuesta a una necesidad de información, o sea
maximizar precision y recall. No es tanto que la
información no esté clara, sino que es muy dificil
de encontrar.
 El objetivo de Text Mining es el de identificar,
extraer y relacionar información con mayor
precisión.
 Técnicas de IR se usan en text mining, por
ejemplo representación de documentos,
clustering de documentos, análisis de citas y
Definición
6
 Text Mining es extraer información interesante
y no trivial de texto sin estructura, para poder
encontrar patrones y tendencias de datos,
asociaciones entre entidades, y reglas
predictivas entre esas entidades mencionadas
en el texto.
Aplicaciones
7
 En organizaciones, text mining se usa para
identificar expertos y relaciones entre empleados
y proyectos, tecnologías y clientes (Knowledge
Management).
 En empresas, text mining se usa para hacer
análisis de información de clientes (por ejemplo
call centers)
 En química y medicina, text mining se usa para
identificar nuevas relaciones entre síntomas
causas y tratamientos (p.ej. Entre agentes
químicos y drogas).
 En finanzas, se usa para descubrir patrones que
relacionan información financiera y no financiera
Dificultad
8
 Text Mining es más complicado que Data
Mining porque:
 Las computadoras no pueden leer o comprender
texto.
 El texto no tiene estructura bien definida
(campos).
 Un documento trata varios temas.
 El significado de las palabras es ambiguo, y
depende del contexto y del idioma.
 Posible explosión combinatoria de conexiones
potencialmente válidas.
Dificultad
9
 Número de atributos > 15000
 Ruido (errores de ortografia, abreviaturas)
 Sinónimos
 Diferentes significados dependiendo de la
función: ("claro, lo que Ud quiere es..." vs. "los de
colores claros son mas caros")
 Diferentes significados dependiendo de la
comunidad:
 "debian soluciona tu problema" (Debian Linux) vs
 "debian solucionar tu problema" (Verbo “debían” sin
ancento).
 Localismos
Tareas típicas
10
 Detección de importancia de emails (spam)
 Clustering de documentos (vivisimo.com)
 Creación de mapas de topicos
(www.leximancer.com)
 Minería de tendencias, y Opiniones
(www.opencalais.com)
 Extracción de ontologías y de entidades
 Resumen de documentos
 Descubrimientos de relaciones por citas y
links
Modelos básicos de
representación de documentos11
 Modelo booleano.
 Modelo vectorial.
 Modelos probabilísticos.
Presunciones (bolsa de
palabras)12
 Cada documento se representa por una serie de
términos.
 Un término es una palabra o grupo de palabras
útiles para describir el contenido del documento.
 Todos los términos son independientes entre sí, lo
que implica que puedo calcular la importancia de
cada término en un documento
independientemente de los otros (la
independencia no es cierta, pero en la práctica
funciona).
 El peso wij de un término ti en un documento dj es
proporcional a la importancia de ese término.
Modelo vectorial
13
 Todos los términos de todos los documentos
en la colección tienen un índice i único. i es
siempre igual para t en todos los documentos.
 Wij > 0 si ti es un término en dj, 0 si t E Dj
 Si hay N términos en total en una colección,
un documento DJ es un vector de dimensiones
N.
 Documento Dj = [w1j, w2j, w3j, wnj] (la mayoria
van a ser 0)
Modelo vectorial
14
 Los D documentos son vectores en un
espacio N dimensional.
 Como ti es independiente de tj entonces los
vectores unitarios t1...tN son linealmente
independientes (forman una base del
espacio).
 Tanto los documentos como las consultas son
vectores dentro del espacio.
Similaridad entre documentos
15
Dos documentos se parecen si tienen algún término en común (no
necesariamente con igual importancia).
Procesamiento del lenguaje
natural
16
Necesidad de NLP
17
 La mayoría del texto disponible no tiene
estructura. Cuanto más estructura tenga para
analizar, mejor puedo encontrar relaciones
entre partes del texto.
 Puedo ir desde preguntas en lenguaje natural
a respuestas muy concretas:
 Por ejemplo: “¿Quién fue el presidente de EE.
UU. antes de Obama?”
 preguntas: ¿quién? ¿presidente? ¿de qué o dónde?
¿quién es Obama?”
 Respuesta: George W. Bush (persona)
Niveles de análisis del lenguaje
18
 Estructura Fonética: La manera en que los
sonidos son creados, en qué contexto y qué
sonidos son creados (Reconocimiento de voz).
 Estructura Morfológica (de morphos = forma):
Analizar como las palabras se forman y derivan a
partir de unidades más pequeñas.
 Por ejemplo triangulaciones = triangul (raíz) + acion
(sufijo de sustantivo abstracto) + es (sufijo de plural).
 Estructura Sintáctica (de sintaxis = colocar
juntas): Describe la organización gramática de
las palabras en una frase, que formar una
estructura jerárquica.
 ej: sustantivo  frase nominal  sujeto
Niveles de análisis del lenguaje
19
 Estructura temática: reconocer quien le hizo
qué a quién (sujeto acción objeto).
 Estructura semántica: Combinar la
estructura temática para reconocer quién le
hizo qué a quién de acuerdo a la ambigüedad
del lenguaje.
 Por ejemplo: “luego, llama a la puerta, pero no
responden”.
 Estructura Discursiva: Relación entre las
frases según se combinan las frases
(apoya_a, discute_un_punto_de,
contradice_a).
Análisis gramático
20
 ¿Por qué querría hacer análisis gramático?
 Saber la función sintáctica de una palabra permite
identificar de qué se está hablando, y como se
relacionan los objetos nombrados.
 El sustantivo en el sujeto determina quién o qué
lleva a cabo una acción.
 El adjetivo determina como es el sujeto (p. ej.
modelo de auto)
 El verbo determina la acción (que se hace)
 El objeto directo determina a quién se lo hace.
 http://es.wikipedia.org/wiki/Sustantivo (y siguiente
slide) para detalles de partes de la oración.
Análisis gramático
21
 Partes de la Oración en Castellano:
 Artículo: transforma al sustantivo en uno o
muchos (el, las, lo, unas...)
 Sustantivo: el sujeto de la acción
 Adjetivo: la característica del sustantivo.
 Verbo: la acción que se lleva a cabo.
 Pronombre: sustituye a un sustantivo ya
nombrado (él, conmigo...).
Análisis gramático
22
 Partes de la Oración en Castellano:
 Conjunción: agrupa y desagrupa palabras (y, o,
ni, pero...
 Adverbio: califica al verbo, adjetivo u otro
adverbio dando información de tiempo, modo,
lugar, afirmación o negación (dónde, rápido,
públicamente, tampoco,...)
 Preposición: relaciona palabras mediante una
función (hasta, bajo, contra, sin,...).
Frases nominales
23
 Una frase nominal es una sección de una oración que incluye
a un sustantivo, y que es completa (tiene sentido por sí
misma). Son importantes porque casi por si solas son
suficientes para saber de qué o quién se está hablando.
 Una frase nominal puede formarse a partir de (pero no solo
de):
 un nominal (sustantivo con o sin adjetivo)
 un artículo y un nominal
 un nombre propio
 Ejemplos:
 El príncipe valiente atacó la fortaleza.
 En la casa corre libremente el viejo perro.
 Existen otros tipos de frase: adverbiales (p.ej. “de pronto”),
verbales (p.ej. “dio apoyo”).
Análisis gramático
24
 POS (Part-Of-Speech) tagging es asignar a cada
palabra un tag que identifique la función sintáctica de
la palabra o token. Normalmente no incluye análisis
gramático completo (sujeto - tácito o no, predicado,
etc).
 POS tagging sirve como atributo adicional para otras
tareas:
 En minería de opiniones, los adjetivos calificativos
(bueno, malo, viejo, etc.) incluyen la opinión, y el adverbio
cerca del adjetivo dan una idea de la firmeza de la opinión
(muy, poco, más, demasiado).
 En Named-Entity Recognition (NER), los sustantivos son
el centro de las entidades.
 En Question Answering, algunos adverbios (quién,
dónde, cual) dan pistas de que tipo de respuesta se
espera.
POS tagging automático
25
 POS tagging automático es difícil porque:
 La palabra no determina la función, sino que también lo
hace el contexto:
 Cura puede ser verbo o sustantivo.
 El castellano no es perfectamente regular:
 Nace  nazco  nació, pero hace  hago  hizo
 Los sufijos de palabras son ambiguos para determinar
función gramátical:
 compás (sust) vs. llenás (verbo) vs. llenas (verbo) vs.llenas
(adj)
 En castellano, el sujeto puede ser tácito:
 Los últimos serán los primeros. (¿dónde está el sujeto?)
 La gente escribe con errores gramaticales cuando escribe
coloquialmente; los taggers asumen gramática correcta.
Establecer genero es ambiguo
26
 Establecer el género en castellano es complicado. La regla
o/a para masculino/femenino del mismo objeto tiene
ambigüedades:
 pasta – pasto
 foco – foca
 raya – rayo
 velo – vela
 punto – punta
 fila – filo
 caro – cara
 tango - tanga
 Los sufijos de aumentativo / diminutivo causa ambigüedades:
 visa - visita
 pavo - pavote
Utilidades de POS tagging
27
 Frases nominales como key phrases en
BlogPulse de Nielsen
Cómo hacer POS tagging
28
 Expresiones regulares
 Unigramas
 Bigramas
 Trigramas
 Hidden Markov Models
 Taggers Transformativos (Brill´s Tagger)
POS Tagging
29
 El tagging más simple es asignar a todas las
palabras la misma clase (usualmente:
sustantivo).
 No es útil de por sí, pero sí como ultimo
recurso (fallback).
POS Tagging en NLTK
30
text = "There are 11 players in a football team"
text_tokens = text.split()
# ["There", "are", "11", "players", "in", "a",
"football", "team"]
import nltk
mytagger = nltk.DefaultTagger("NN")
for t in mytagger.tag(text_tokens):
print t
# ("There", "NN")
# ("are", "NN")
# ...
POS Tagging con expresiones
regulares31
 Usar enumeraciones, prefijos y sufijos para adivinar
categorias de palabras.
import nltk
default_pattern = (r".+", "NN")
cd_pattern = (r"[0-9]+|[0-9]+,[0-9]+", "CD")
patterns = [cd_pattern, default_pattern]
CD_NN_tagger = nltk.RegexpTagger(patterns)
text = "There are 11 players in a football team"
re_tagged = CD_NN_tagger.tag(text.split())
# [('There', 'NN'), ('are', 'NN'), ('11', 'CD'),
('players', 'NN'),('in', 'NN'), ('a', 'NN'),
('football', 'NN'), ('team', 'NN')
N-Gramas
32
 Si tengo información de ejemplo sobre
palabras y tags, puedo mirarlas en secuencias
para aprender “patrones” de tagging.
 Un n-grama es una secuencia de símbolos
(letras, palabras, etc) de largo n: Unigrama =
largo 1, bigrama=largo 2, etc.
 ¿Por qué no usar las palabras o letras
directamente? La secuencia da información,
no todas las secuencias son igualmente
probables
Collocation: Juntas por
casualidad33
 Colocación: dos o más palabras que
corresponden al nombre de algo o a una
manera de llamar a las cosas.
 “ciencia ficción”, “disco rígido”, “software libre”.
 El significado no se deduce de las partes
(ejemplo “yerba mala”).
Collocation
34
 Colocación significa que ciertas palabras no son
independientes entre sí.
 ¿Cómo decidir si están juntas por casualidad, o
en realidad están relacionadas?
 Medidas de Colocación más usadas:
 Intersección
 Jackard
 Dice
 Información mutua
 Tests de Colocación: c2
Medidas de colocación
35
 Carácterísticas Deseables:
 Que tenga un máximo y mínimo definido, para
poder interpretar el valor.
 Que no sea muy sensible a eventos raros.
 Que tenga una justificación (casi siempre
probabilística).

Más contenido relacionado

Similar a Text mining

Cohesión, coherencia y adecuación
Cohesión, coherencia y adecuaciónCohesión, coherencia y adecuación
Cohesión, coherencia y adecuaciónFann Andrade
 
Según karl bühler
Según karl bühlerSegún karl bühler
Según karl bühlerMelanySheena
 
Coherencia, cohesión y adecuación
Coherencia, cohesión y adecuación Coherencia, cohesión y adecuación
Coherencia, cohesión y adecuación Lilian Garcia
 
Es lo mismo la búsqueda por palabras revisada final 3
Es lo mismo la búsqueda por  palabras revisada final 3Es lo mismo la búsqueda por  palabras revisada final 3
Es lo mismo la búsqueda por palabras revisada final 3Ketty Rodriguez
 
PRIMERA UNIDAD DE APRENDIZAJE TERCER GRADO
PRIMERA UNIDAD DE APRENDIZAJE TERCER GRADOPRIMERA UNIDAD DE APRENDIZAJE TERCER GRADO
PRIMERA UNIDAD DE APRENDIZAJE TERCER GRADOSulio Chacón Yauris
 
Unidad III exposicion
Unidad III exposicionUnidad III exposicion
Unidad III exposicionVictor Manu-l
 
Escritura académico-científica
Escritura académico-científicaEscritura académico-científica
Escritura académico-científicaMarioPizzi1
 
Literatura Actual De La Identidad Chilena Magda
Literatura Actual De La Identidad Chilena MagdaLiteratura Actual De La Identidad Chilena Magda
Literatura Actual De La Identidad Chilena Magdatrabajo
 
2 a zz03-la_frase_y_la_oraci--an__25034__
2 a zz03-la_frase_y_la_oraci--an__25034__2 a zz03-la_frase_y_la_oraci--an__25034__
2 a zz03-la_frase_y_la_oraci--an__25034__Jhair Silva
 
Ct 100
Ct 100Ct 100
Ct 100UV
 
Como elaborar Mapa conceptuales
Como elaborar Mapa conceptualesComo elaborar Mapa conceptuales
Como elaborar Mapa conceptualesArgenis Mora
 
Representación del Conocimiento
Representación del ConocimientoRepresentación del Conocimiento
Representación del ConocimientoHernán Salazar
 
Texto escrito
Texto escritoTexto escrito
Texto escritovane9508
 
Propiedades del texto
Propiedades del textoPropiedades del texto
Propiedades del textoMapraza
 
Guía del usuario
Guía del usuarioGuía del usuario
Guía del usuariokatchadour
 

Similar a Text mining (20)

Cohesión, coherencia y adecuación
Cohesión, coherencia y adecuaciónCohesión, coherencia y adecuación
Cohesión, coherencia y adecuación
 
Según karl bühler
Según karl bühlerSegún karl bühler
Según karl bühler
 
Coherencia, cohesión y adecuación
Coherencia, cohesión y adecuación Coherencia, cohesión y adecuación
Coherencia, cohesión y adecuación
 
Guía 1
Guía 1Guía 1
Guía 1
 
Es lo mismo la búsqueda por palabras revisada final 3
Es lo mismo la búsqueda por  palabras revisada final 3Es lo mismo la búsqueda por  palabras revisada final 3
Es lo mismo la búsqueda por palabras revisada final 3
 
PRIMERA UNIDAD DE APRENDIZAJE TERCER GRADO
PRIMERA UNIDAD DE APRENDIZAJE TERCER GRADOPRIMERA UNIDAD DE APRENDIZAJE TERCER GRADO
PRIMERA UNIDAD DE APRENDIZAJE TERCER GRADO
 
Unidad III exposicion
Unidad III exposicionUnidad III exposicion
Unidad III exposicion
 
Escritura académico-científica
Escritura académico-científicaEscritura académico-científica
Escritura académico-científica
 
Guia de estudio de secundaria
Guia de estudio de secundariaGuia de estudio de secundaria
Guia de estudio de secundaria
 
Literatura Actual De La Identidad Chilena Magda
Literatura Actual De La Identidad Chilena MagdaLiteratura Actual De La Identidad Chilena Magda
Literatura Actual De La Identidad Chilena Magda
 
La Cohesión y Coherencia
La Cohesión y CoherenciaLa Cohesión y Coherencia
La Cohesión y Coherencia
 
2 a zz03-la_frase_y_la_oraci--an__25034__
2 a zz03-la_frase_y_la_oraci--an__25034__2 a zz03-la_frase_y_la_oraci--an__25034__
2 a zz03-la_frase_y_la_oraci--an__25034__
 
Ct 100
Ct 100Ct 100
Ct 100
 
Propiedades textuales
Propiedades textualesPropiedades textuales
Propiedades textuales
 
Como elaborar Mapa conceptuales
Como elaborar Mapa conceptualesComo elaborar Mapa conceptuales
Como elaborar Mapa conceptuales
 
Representación del Conocimiento
Representación del ConocimientoRepresentación del Conocimiento
Representación del Conocimiento
 
Texto escrito
Texto escritoTexto escrito
Texto escrito
 
Propiedades del texto
Propiedades del textoPropiedades del texto
Propiedades del texto
 
Base de datos 4
Base de datos 4Base de datos 4
Base de datos 4
 
Guía del usuario
Guía del usuarioGuía del usuario
Guía del usuario
 

Más de Juan Azcurra

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosJuan Azcurra
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosJuan Azcurra
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosJuan Azcurra
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business IntelligenceJuan Azcurra
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWKJuan Azcurra
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosJuan Azcurra
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information RetrievalJuan Azcurra
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosJuan Azcurra
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web MiningJuan Azcurra
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big DataJuan Azcurra
 

Más de Juan Azcurra (15)

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en Proyectos
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los Proyectos
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de Proyectos
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business Intelligence
 
NoSQL - MongoDB
NoSQL - MongoDBNoSQL - MongoDB
NoSQL - MongoDB
 
Opinion mining
Opinion miningOpinion mining
Opinion mining
 
Web Link Analysis
Web Link AnalysisWeb Link Analysis
Web Link Analysis
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWK
 
Web Usage Mining
Web Usage MiningWeb Usage Mining
Web Usage Mining
 
Web Usage Mining - Temas Avanzados
Web Usage Mining - Temas AvanzadosWeb Usage Mining - Temas Avanzados
Web Usage Mining - Temas Avanzados
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information Retrieval
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructurados
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web Mining
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 

Último

definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 

Último (20)

definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 

Text mining

  • 1. WEB y TEXT MINING Text MiningJuan Azcurra
  • 2. ¿Qué es Text Mining? 2  Text Mining es ir de:  “La calidad de atención es muy mala. Llamé 5 veces reclamando por el servicio de SMS y no me atendió nadie.”  … a:  Razón: Calidad de atención mala. Llamó 5 veces.  Tema: servicio SMS  Esto puede ser combinado con tiempo de llamada, operador, etc. para ver conocer cuáles son los productos más caros de atender.
  • 3. ¿Para qué Text Mining? 3  A veces tenemos mucho texto y poca información u oculta…  ¿Quién es autoridad en qué tema? ¿Qué temas están creciendo en importancia?  Otras veces tenemos mucho texto y mucha información oculta...  emails, chats, libros online, comentarios de productos ¿Qué leo? ¿Con qué se relaciona? ¿Tiene el texto un sesgo a favor o en contra de algo o alguien?
  • 4. ¿Por qué Text Mining? 4  En algunos campos (por ej. relacionados a biología, medicina, etc.) el 80% del conocimiento está en papers.  Humanos no escalan:  Una persona puede leer, en promedio, 20 papers por semana. En ese lapso PubMed agregó 2500 abstracts.  De acuerdo a Gartner, hasta el 85% de información empresarial es no estructurada.
  • 5. Buscar no es suficiente 5  El objetivo de Information Retrieval (IR) es ayudar a usuarios a que encuentren una respuesta a una necesidad de información, o sea maximizar precision y recall. No es tanto que la información no esté clara, sino que es muy dificil de encontrar.  El objetivo de Text Mining es el de identificar, extraer y relacionar información con mayor precisión.  Técnicas de IR se usan en text mining, por ejemplo representación de documentos, clustering de documentos, análisis de citas y
  • 6. Definición 6  Text Mining es extraer información interesante y no trivial de texto sin estructura, para poder encontrar patrones y tendencias de datos, asociaciones entre entidades, y reglas predictivas entre esas entidades mencionadas en el texto.
  • 7. Aplicaciones 7  En organizaciones, text mining se usa para identificar expertos y relaciones entre empleados y proyectos, tecnologías y clientes (Knowledge Management).  En empresas, text mining se usa para hacer análisis de información de clientes (por ejemplo call centers)  En química y medicina, text mining se usa para identificar nuevas relaciones entre síntomas causas y tratamientos (p.ej. Entre agentes químicos y drogas).  En finanzas, se usa para descubrir patrones que relacionan información financiera y no financiera
  • 8. Dificultad 8  Text Mining es más complicado que Data Mining porque:  Las computadoras no pueden leer o comprender texto.  El texto no tiene estructura bien definida (campos).  Un documento trata varios temas.  El significado de las palabras es ambiguo, y depende del contexto y del idioma.  Posible explosión combinatoria de conexiones potencialmente válidas.
  • 9. Dificultad 9  Número de atributos > 15000  Ruido (errores de ortografia, abreviaturas)  Sinónimos  Diferentes significados dependiendo de la función: ("claro, lo que Ud quiere es..." vs. "los de colores claros son mas caros")  Diferentes significados dependiendo de la comunidad:  "debian soluciona tu problema" (Debian Linux) vs  "debian solucionar tu problema" (Verbo “debían” sin ancento).  Localismos
  • 10. Tareas típicas 10  Detección de importancia de emails (spam)  Clustering de documentos (vivisimo.com)  Creación de mapas de topicos (www.leximancer.com)  Minería de tendencias, y Opiniones (www.opencalais.com)  Extracción de ontologías y de entidades  Resumen de documentos  Descubrimientos de relaciones por citas y links
  • 11. Modelos básicos de representación de documentos11  Modelo booleano.  Modelo vectorial.  Modelos probabilísticos.
  • 12. Presunciones (bolsa de palabras)12  Cada documento se representa por una serie de términos.  Un término es una palabra o grupo de palabras útiles para describir el contenido del documento.  Todos los términos son independientes entre sí, lo que implica que puedo calcular la importancia de cada término en un documento independientemente de los otros (la independencia no es cierta, pero en la práctica funciona).  El peso wij de un término ti en un documento dj es proporcional a la importancia de ese término.
  • 13. Modelo vectorial 13  Todos los términos de todos los documentos en la colección tienen un índice i único. i es siempre igual para t en todos los documentos.  Wij > 0 si ti es un término en dj, 0 si t E Dj  Si hay N términos en total en una colección, un documento DJ es un vector de dimensiones N.  Documento Dj = [w1j, w2j, w3j, wnj] (la mayoria van a ser 0)
  • 14. Modelo vectorial 14  Los D documentos son vectores en un espacio N dimensional.  Como ti es independiente de tj entonces los vectores unitarios t1...tN son linealmente independientes (forman una base del espacio).  Tanto los documentos como las consultas son vectores dentro del espacio.
  • 15. Similaridad entre documentos 15 Dos documentos se parecen si tienen algún término en común (no necesariamente con igual importancia).
  • 17. Necesidad de NLP 17  La mayoría del texto disponible no tiene estructura. Cuanto más estructura tenga para analizar, mejor puedo encontrar relaciones entre partes del texto.  Puedo ir desde preguntas en lenguaje natural a respuestas muy concretas:  Por ejemplo: “¿Quién fue el presidente de EE. UU. antes de Obama?”  preguntas: ¿quién? ¿presidente? ¿de qué o dónde? ¿quién es Obama?”  Respuesta: George W. Bush (persona)
  • 18. Niveles de análisis del lenguaje 18  Estructura Fonética: La manera en que los sonidos son creados, en qué contexto y qué sonidos son creados (Reconocimiento de voz).  Estructura Morfológica (de morphos = forma): Analizar como las palabras se forman y derivan a partir de unidades más pequeñas.  Por ejemplo triangulaciones = triangul (raíz) + acion (sufijo de sustantivo abstracto) + es (sufijo de plural).  Estructura Sintáctica (de sintaxis = colocar juntas): Describe la organización gramática de las palabras en una frase, que formar una estructura jerárquica.  ej: sustantivo  frase nominal  sujeto
  • 19. Niveles de análisis del lenguaje 19  Estructura temática: reconocer quien le hizo qué a quién (sujeto acción objeto).  Estructura semántica: Combinar la estructura temática para reconocer quién le hizo qué a quién de acuerdo a la ambigüedad del lenguaje.  Por ejemplo: “luego, llama a la puerta, pero no responden”.  Estructura Discursiva: Relación entre las frases según se combinan las frases (apoya_a, discute_un_punto_de, contradice_a).
  • 20. Análisis gramático 20  ¿Por qué querría hacer análisis gramático?  Saber la función sintáctica de una palabra permite identificar de qué se está hablando, y como se relacionan los objetos nombrados.  El sustantivo en el sujeto determina quién o qué lleva a cabo una acción.  El adjetivo determina como es el sujeto (p. ej. modelo de auto)  El verbo determina la acción (que se hace)  El objeto directo determina a quién se lo hace.  http://es.wikipedia.org/wiki/Sustantivo (y siguiente slide) para detalles de partes de la oración.
  • 21. Análisis gramático 21  Partes de la Oración en Castellano:  Artículo: transforma al sustantivo en uno o muchos (el, las, lo, unas...)  Sustantivo: el sujeto de la acción  Adjetivo: la característica del sustantivo.  Verbo: la acción que se lleva a cabo.  Pronombre: sustituye a un sustantivo ya nombrado (él, conmigo...).
  • 22. Análisis gramático 22  Partes de la Oración en Castellano:  Conjunción: agrupa y desagrupa palabras (y, o, ni, pero...  Adverbio: califica al verbo, adjetivo u otro adverbio dando información de tiempo, modo, lugar, afirmación o negación (dónde, rápido, públicamente, tampoco,...)  Preposición: relaciona palabras mediante una función (hasta, bajo, contra, sin,...).
  • 23. Frases nominales 23  Una frase nominal es una sección de una oración que incluye a un sustantivo, y que es completa (tiene sentido por sí misma). Son importantes porque casi por si solas son suficientes para saber de qué o quién se está hablando.  Una frase nominal puede formarse a partir de (pero no solo de):  un nominal (sustantivo con o sin adjetivo)  un artículo y un nominal  un nombre propio  Ejemplos:  El príncipe valiente atacó la fortaleza.  En la casa corre libremente el viejo perro.  Existen otros tipos de frase: adverbiales (p.ej. “de pronto”), verbales (p.ej. “dio apoyo”).
  • 24. Análisis gramático 24  POS (Part-Of-Speech) tagging es asignar a cada palabra un tag que identifique la función sintáctica de la palabra o token. Normalmente no incluye análisis gramático completo (sujeto - tácito o no, predicado, etc).  POS tagging sirve como atributo adicional para otras tareas:  En minería de opiniones, los adjetivos calificativos (bueno, malo, viejo, etc.) incluyen la opinión, y el adverbio cerca del adjetivo dan una idea de la firmeza de la opinión (muy, poco, más, demasiado).  En Named-Entity Recognition (NER), los sustantivos son el centro de las entidades.  En Question Answering, algunos adverbios (quién, dónde, cual) dan pistas de que tipo de respuesta se espera.
  • 25. POS tagging automático 25  POS tagging automático es difícil porque:  La palabra no determina la función, sino que también lo hace el contexto:  Cura puede ser verbo o sustantivo.  El castellano no es perfectamente regular:  Nace  nazco  nació, pero hace  hago  hizo  Los sufijos de palabras son ambiguos para determinar función gramátical:  compás (sust) vs. llenás (verbo) vs. llenas (verbo) vs.llenas (adj)  En castellano, el sujeto puede ser tácito:  Los últimos serán los primeros. (¿dónde está el sujeto?)  La gente escribe con errores gramaticales cuando escribe coloquialmente; los taggers asumen gramática correcta.
  • 26. Establecer genero es ambiguo 26  Establecer el género en castellano es complicado. La regla o/a para masculino/femenino del mismo objeto tiene ambigüedades:  pasta – pasto  foco – foca  raya – rayo  velo – vela  punto – punta  fila – filo  caro – cara  tango - tanga  Los sufijos de aumentativo / diminutivo causa ambigüedades:  visa - visita  pavo - pavote
  • 27. Utilidades de POS tagging 27  Frases nominales como key phrases en BlogPulse de Nielsen
  • 28. Cómo hacer POS tagging 28  Expresiones regulares  Unigramas  Bigramas  Trigramas  Hidden Markov Models  Taggers Transformativos (Brill´s Tagger)
  • 29. POS Tagging 29  El tagging más simple es asignar a todas las palabras la misma clase (usualmente: sustantivo).  No es útil de por sí, pero sí como ultimo recurso (fallback).
  • 30. POS Tagging en NLTK 30 text = "There are 11 players in a football team" text_tokens = text.split() # ["There", "are", "11", "players", "in", "a", "football", "team"] import nltk mytagger = nltk.DefaultTagger("NN") for t in mytagger.tag(text_tokens): print t # ("There", "NN") # ("are", "NN") # ...
  • 31. POS Tagging con expresiones regulares31  Usar enumeraciones, prefijos y sufijos para adivinar categorias de palabras. import nltk default_pattern = (r".+", "NN") cd_pattern = (r"[0-9]+|[0-9]+,[0-9]+", "CD") patterns = [cd_pattern, default_pattern] CD_NN_tagger = nltk.RegexpTagger(patterns) text = "There are 11 players in a football team" re_tagged = CD_NN_tagger.tag(text.split()) # [('There', 'NN'), ('are', 'NN'), ('11', 'CD'), ('players', 'NN'),('in', 'NN'), ('a', 'NN'), ('football', 'NN'), ('team', 'NN')
  • 32. N-Gramas 32  Si tengo información de ejemplo sobre palabras y tags, puedo mirarlas en secuencias para aprender “patrones” de tagging.  Un n-grama es una secuencia de símbolos (letras, palabras, etc) de largo n: Unigrama = largo 1, bigrama=largo 2, etc.  ¿Por qué no usar las palabras o letras directamente? La secuencia da información, no todas las secuencias son igualmente probables
  • 33. Collocation: Juntas por casualidad33  Colocación: dos o más palabras que corresponden al nombre de algo o a una manera de llamar a las cosas.  “ciencia ficción”, “disco rígido”, “software libre”.  El significado no se deduce de las partes (ejemplo “yerba mala”).
  • 34. Collocation 34  Colocación significa que ciertas palabras no son independientes entre sí.  ¿Cómo decidir si están juntas por casualidad, o en realidad están relacionadas?  Medidas de Colocación más usadas:  Intersección  Jackard  Dice  Información mutua  Tests de Colocación: c2
  • 35. Medidas de colocación 35  Carácterísticas Deseables:  Que tenga un máximo y mínimo definido, para poder interpretar el valor.  Que no sea muy sensible a eventos raros.  Que tenga una justificación (casi siempre probabilística).