SlideShare una empresa de Scribd logo
1 de 48
Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya
[object Object],[object Object],[object Object],[object Object],[object Object],Minería de textos y datos para-textuales
Minería de textos y datos para-textuales ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],1. Introducción :
[object Object],[object Object],[object Object],Minería de textos y Estadística textual
Estadística léxica, Lexicometría y estadística textual, Minería de textos Medida del vocabulario: recuento de las palabras Minería de textos y Estadística textual ,[object Object],[object Object],[object Object]
Tipos de textos analizados ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Minería de textos y Estadística textual
Minería de textos y datos Textos e información complementaria ,[object Object],[object Object],[object Object],[object Object],Métodos que analizan simultáneamente los textos y la información cerrada  No hay una única manera de hacerlo. La elección del méetodo depende de los objetivos y de los datos.
[object Object],[object Object],[object Object],[object Object],Minería de textos y datos
Individuos/textos Codificación del corpus: tabla léxica Variable textual pal1  palt2 k ij La codificación transforma el corpus en una tabla que se puede analizar mediante métodos estadísticos Minería de textos y datos
Utilizar la información cerrada Individuos Information a analizar:  ¿cuál es la parte  activa?  ¿cuál es la parte  suplementaria? Variables cuantitativas Variables textuales Variables cualitativas Tabla mixta Minería de textos y Estadística textual
  1 La codificación escogida tiene una incidencia sobre la distancia ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Minería de textos y Estadística textual
Representación gráfica :  Análisis de correspondencias Tipología de documentos:  Clasificación Tipología a partir de tablas múltipes:  Análisis factorial múltiple y clasificación Minería de textos y Estadística textual
[object Object],. . . . . . i G F 1 F 2 O G 1 G 2 k . . . . . . . . . . Minería de textos y Estadística textual Análisis de correspondencias
[object Object],Clasificación Minería de textos y Estadística textual
Primer ejemplo:  Evaluación de vinos mediante notas y comentarios
Castilla y León 5 denominaciones: Bierzo,  Cigales,  Ribera del Duero,  Rueda, Toro   Minería de textos y Estadística textual
----  Note=  80   Valdelosfriales-2003 Joven típico, con notas de tempranillo y balsámicos; en boca amable y frutoso. ----  Note=91   Tares P3-2001 premium Mucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final. Minería de textos y Estadística textual Ejemplo: guía de vinos de Castilla y León
[object Object],[object Object],[object Object],Problemática similar a la abordada por los métodos multicanónicos: buscar la(s) variable(s) general(es) que constituye la mejor síntesis de varios grupos de variables Minería de textos y Estadística textual
Método de referencia: AC Métode de referencia: ACP Tabla a analizar Grupo textual  J f  columnas Grupo notas  J c  columnas Minería de textos y Estadística textual
Tabla léxica activa Minería de textos y Estadística textual
Nota y commentarios activos Minería de textos y Estadística textual
Minería de textos y Estadística textual A PARTIR DE AQUÍ,  SÓLO LOS VINOS TINTOS
Nota y commentarios activos Minería de textos y Estadística textual Eje de calidad
Minería de textos y Estadística textual - 1.0 - 0.5 0 0.5 1.0 - 0.75 0.75 1.50 2.25 tempranillo tiempo equilibrio intensidad estructura concentración n vino ciruela paladar aroma tinto cuerpo cuero madurez mineral estilo coco tacto vez potencial p ó lvora torrefacto cascajo roble consistencia crianza sequedad Ribera paso recuerdo acidez frutosidad expresi ó n sobremadurez capa tuestes gominola fondo tierra zumo ceniza grosella caf é hierba% bosque monte carne s í lex chocolate bouquet First Principal  Plane NOUNS Axis 2 : 1.75% frutillos Axis 1: 3.52%
Minería de textos y Estadística textual - 1.50 - 0.75 0.75 - 0.75 0  0.75 1.50 2.25 t í pico joven amable corto herb á ceo f á cil precioso tradicional frutal ligero limpio americano franco frutoso primer gran en é rgico salado denso impresionante graso granuloso noble magn í fico mojado arom á tico salino amargo largo rico vigoroso sabroso silvestre jugoso potente oscuro voluptuoso todo complejo concentrado integrado pulido lineal r ú stico vivo First Principal  Plane ADJECTIVES Axis 2 : 1.75% Axis 1: 3.52% agradable medio accesible abierto ensamblado tostado
Minería de textos y Estadística textual 82 highest marks en é rgico lowest marks Average  mark : 85.16 corto coco p ó lvora voluptuoso magn í fico - 1,9 - 1,1 1,3 0,9 0,5 - 1,5 - 0,7 - 0,3 0,1 herb á ceo tradicional r ú stico joven roble lineal amable denso salado impresionante 83 86 consistencia frutal crianza algo limpio ligero beber evolucionar f á cil agradable sobremadurez sequedad medio tempranillo ligeramente americano capa tuestes cierto abierto alg ú n demasiado franco reducido discreto frutosidad ensamblado seco cl á sico dominar rojo t í pico expresi ó n compotado suave Ribera cesta toque vez graso torrefacto granuloso gran tiempo todo noble cascajo estilo concentrado necesitar potencial sabroso sorprende tacto complejo largo potente puro dejar mineral primer moderno carnoso amargo salino fino donde mucho ser bouquet s í lex intenso firme vino chocolate Mark 81 84 85 87 88 89 90
Minería de textos y Estadística textual 82 highest marks en é rgico lowest marks Average  mark : 85.16 corto coco p ó lvora voluptuoso magn í fico - 1,9 - 1,1 1,3 0,9 0,5 - 1,5 - 0,7 - 0,3 0,1 herb á ceo tradicional r ú stico joven roble lineal amable denso salado impresionante 83 86 consistencia frutal crianza algo limpio ligero beber evolucionar f á cil agradable sobremadurez sequedad medio tempranillo ligeramente americano capa tuestes cierto abierto alg ú n demasiado franco reducido discreto frutosidad ensamblado seco cl á sico dominar rojo t í pico expresi ó n compotado suave Ribera cesta toque vez graso torrefacto granuloso gran tiempo todo noble cascajo estilo concentrado necesitar potencial sabroso sorprende tacto complejo largo potente puro dejar mineral primer moderno carnoso amargo salino fino donde mucho ser bouquet s í lex intenso firme vino chocolate Mark 81 84 85 87 88 89 90 Criterio dominante: potencia del vino; las palabras denso, graso, concentrado Se oponen a ligero, fácil,  Algunos defectos: sequedad, sobremadurez, evolucionado defectos importantes en el mundo del vino
Minería de textos y Estadística textual Variables suplementarias
Minería de textos y Estadística textual Variables suplementarias 1.5 3.0 4.5 1.5 - 3.0 - 1.5 - 1.5 83 81 82 84 85 88 90 91 92 93 94 97 95 79 80 78 86 87 Gran Reserva 50-99,9€ 30-49,9€ 89 15-19,9€ 20-24,9€ 25-29,9€ Tinto joven 0-4,9€ 5-9,9€ Tinto crianza 10-14,9€ Tinto reserva Tinto roble Axis2 Axis1 Vega Sicilia 'Único' (94) Viña Sastre Pesus(01)  Jaros Chafandín (01) 100-300€ Astrales (02)  Punta Esencia (01)  Tares P3 (01) Termanthia (02)  Gran Elías Mora (00) Bienvenida Sitio de El Palo (01)  Bienvenida Sitio de El Palo (02)  Numanthia (02) San Román (01) Valdetán (02) Torondos (02) Mesoneros de Castilla (03) Valdelosfrailes (03) Fuentenarro (02) Valdecuadrón (02) Gayubar (02) Viñatorondos (03) Viña Valdable (03) Marqués de Olivara (98) Rauda (01) El Marqués (02) Carramimbre (03) Viña Eremos (03) Valsotillo (01) Marqués de Peñamonte (01)
Importancia relativa de los comentarios y de la nota Contribución de cada palabra al score global La nota aporta 51.7% de la varianza del score global y las palabras  48.3% Minería de textos y Estadística textual palabra nota
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Minería de textos y Estadística textual Punto de vista global/  punto de vista parcial
----  Wine 212  (mark= 85)  Legaris-2001 Tuestes, gominolas y buenos balsámicos marcan la intensidad media frutal de este crianza. En boca aparece muy lineal, con consistencia media; el retrogusto frutal todavía tapado por una madera algo rústica. ----  Wine 30  (mark=91)   Tares P3-2001 premium Mucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final. ----  Wine 314  (mark=97)  Vega Sicilia 'Único-1994 Hay que realizar un ejercicio de disciplina gustativa de primer rango para describir este gran vino. el bouquet es fresco, bien armado de fruta roja que se ve potenciada por tintes de chocolates, tabacos, notas de sotobosque y una madera que se manifiesta pero que resulta difícil de localizar y menos de concretar. Tenemos el caso raro de un tinto que sale ileso del paso del tiempo sin lucir su armadura, que es la barrica. En boca joven, aunque ya tiene su cuerpo vigoroso y enérgico bastante ensamblado, con la excepción de algunos taninos saltamontes que quedan para domesticar. Largo y vibrante final que mezcla madurez con una notable finura fresca. Minería de textos y Estadística textual
Presentación detallada de la metodología en: Bécue-Bertaut, M. & Pagès J. “ Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis.  Application to survey  data.”  aceptado para publicación por   Computational Statistics and Data Analysis Minería de textos y Estadística textual
Segundo ejemplo:  Los niños y la lectura
[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Preguntas cerradas ,[object Object],[object Object],[object Object],Encuesta Lectura Nuria Rajadell, UB
----A130 es un rollo porque hay muchas letras ++++ si no sabes leer no sabes escribir ----D214 como vivir otra clase de vida, aprendo, me divierto y me entrego, no sé como explicarlo, pero me gusta leer ++++ aprendes cosas nuevas Minería de textos y Estadística textual Ejemplos de respuestas
Respuestas abiertas: ----  para mí, leer es es muy interesante porque te puedes ir al mundo de la fantasía. por ejemplo puedes viajar a la edad media o estar en la prehistoria ++++  Leer es importante por que sin la lectura no podría viajar ----  para mí, leer es aprender ++++  Leer es importante por que se aprenden cosas nuevas J127   Respuestas cerradas:  leo bastante, leo muy fácilmente N314 Respuestas cerradas:  leo bastante, leo muy fácilmente Respuestas abiertas: ABIERTO y CERRADO
Preguntas cerradas categóricas  Q1  Q2  Q3  I 1   I k 1   Pregunta abierta  1 Aprender  Aventura …  Pregunta abierta 2 Aprender  Importante  Ind1 Ind  i Ind  n 001 1000 0100 1  …   2  0 0  0 ……2 … En el ejemplo: tabla múltiple mixta Minería de textos y Estadística textual
Primer plano factorial: Individuos Factor 1 Factor 2 J127 N314 Axis    1 =1.4; 2% Axis    2 =1.2; 1.7% Minería de textos y Estadística textual -2 0 2 4 6 -3.0 -1.5 0  1.5 3.0
-1 1 2 3 -1.50 -0.75 0  0.75 1.50 eje  1 eje  2 Ieo poco Leo bastante Leo mucho Leo con dificultades Leo muy fácilmente aburrido aburrimiento aprender aprendes aprendo aventura aventuras diversion divertida divertido divertirme divierto enseña entrar entretenido entretenimiento fantasia imaginacion importante interesante mundo rollo saber aprende aventuras diviertes imaginación importante importantes sino NOTA GLOBAL: SUSPENSO NOTA GLOBAL: EXCELENTE PADRE.: SIN ESTUDIOS CLASE SOCIAL  ELEVADA PADRE EST. SUP leo fácilmente (  1 =1.4, 2%) (  2 =1.2, 1.7%) Minería de textos y Estadística textual
Análisis Cluster de los individuos a partir de sus coordenadas sobre los 7 primeros ejes Método jerárquico, con el criterio de Ward 7 clases (una residual cluster con 11 niños)  Minería de textos y Estadística textual
Minería de textos y Estadística textual GRUPO 220 NIÑOS CERRADAS Leo mucho (50% ; 28%) Leo muy fácilmente  (81%; 58%) … . PARA MI, LEER ES MEDIA EN LA MUESTRA 6.8  PALABRAS ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],CREO QUE LEER ES IMPORTANTE PORQUE… MEDIA EN LA MUESTRA 7.4  PALABRAS PALABRAS SOBRE-REPRESENTADAS imaginación, hace , aprende, vocabulario, divertido, ayuda, aventura MEDIA :  8.7  PALABRAS RESPUESTAS MODALES -Te enseña palabras nuevas. Viajas a paises con la imaginación   -Aprendo ortografía, se me abre la imaginación
Minería de textos y Estadística textual Pregunta Coef. de Cramer En casa tenemos   (cantidad de libros)   Leer los libros escolares   Leo (cantidad de lectura)  Para mí, leer es (abierta) Leo (facilidad de lectura)  Leer es importante porque (abierta) Los libros dados por el maestro  Prefiero leer (forma de leer)   Leo cuando   (contexto de la lectura)   En la escuela leemos   (cantidad de lectura escolar)   0.52 0.44 0.41 0.38 0.35 0.27 0.26 0.20 0.20 0.14
Si sólo se tiene en cuenta las preguntas cerradas, tomando las palabras y respuestas como ilustrativas Se obtiene… Minería de textos y Estadística textual
Minería de textos y Estadística textual GRUPO 168 NIÑOS CERRADAS CATEGORIAS SOBREREPRESENTADAS LEO MUCHO (82%; 28%) LEO MUY FÁCILMENTE (93%; 58%) … PARA MI, LEER ES MEDIA EN LA MUESTRA 6.8  PALABRAS PALABRAS SOBRE-REPRESENTADAS NINGUNA MEDIA ,  7.6  PALABRAS CREO QUE LEER ES IMPORTANTE PORQUE… MEDIA EN LA MUESTRA 7.4  PALABRAS PALABRAS SOBRE-REPRESENTADAS Aprende, cosas  MEDIA   7.8  PALABRAS RESPUESTAS MODALES -Se aprende   -Se aprende
Minería de textos y Estadística textual Pregunta Coeficiente de Cramer Leo  (cantidad de lectura)  Leo con  (facilidad de lectura)  Leo cuando (contexto de lectura) Los libros dados por el maestro  Leer los libros escolares  En la escuela, leemos  (cantidad)  I prefer reading  (manera de leer)  At home, we have  (cantidad de libros)  For me, to read means (open-ended) Reading is important because (open-ended) 0,62 0.50 0.45 0.43 0.39 0.39 0.32 0.30 0.17 0.15
Conclusión: textos e información paratextual Olvidaros Es práctico Todo es automático Minería de textos y Estadística textual
Bibliografía Lebart, Salem, Bécue, 2000, Análisis estadístico de textos Editorial MILENIO, Lleida Minería de textos y Estadística textual Presentación detallada de la metodología en: Bécue-Bertaut, M. & Pagès J. “ Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis.  Application to survey  data.”  aceptado para publicación por   Computational Statistics and Data Analysis Sobre el estudio de los vinos: Bécue-Bertaut M., Pagès J., Alvarez-Esteban R., Vásquez Burguete J.L. Détermination d’une note globale, synthèse d’une évalautaion numérique et d’appréciations libres. Application aux études de marché. Actes des JADT2006. http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2006/tocJADT2006.htm

Más contenido relacionado

La actualidad más candente

Implementacion de business intelligence
Implementacion de business intelligenceImplementacion de business intelligence
Implementacion de business intelligenceFernando Lopez Ignacio
 
Anzo Smart Data Lake 4.0 - a Data Lake Platform for the Enterprise Informatio...
Anzo Smart Data Lake 4.0 - a Data Lake Platform for the Enterprise Informatio...Anzo Smart Data Lake 4.0 - a Data Lake Platform for the Enterprise Informatio...
Anzo Smart Data Lake 4.0 - a Data Lake Platform for the Enterprise Informatio...Cambridge Semantics
 
Modelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocioModelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocioMiguel Orquera
 
IN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negociosIN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negociosFranklin Parrales Bravo
 
Componentes de Business Intelligence
Componentes de Business IntelligenceComponentes de Business Intelligence
Componentes de Business IntelligenceCarlos Escobar
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negociosjeffersonjsk
 
Marquez: A Metadata Service for Data Abstraction, Data Lineage, and Event-bas...
Marquez: A Metadata Service for Data Abstraction, Data Lineage, and Event-bas...Marquez: A Metadata Service for Data Abstraction, Data Lineage, and Event-bas...
Marquez: A Metadata Service for Data Abstraction, Data Lineage, and Event-bas...Willy Lulciuc
 
Performance Acceleration: Summaries, Recommendation, MPP and more
Performance Acceleration: Summaries, Recommendation, MPP and morePerformance Acceleration: Summaries, Recommendation, MPP and more
Performance Acceleration: Summaries, Recommendation, MPP and moreDenodo
 
Data Infrastructure at LinkedIn
Data Infrastructure at LinkedIn Data Infrastructure at LinkedIn
Data Infrastructure at LinkedIn Amy W. Tang
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosRoman Herrera
 
Inteligencia De Negocios para Dummies
Inteligencia De Negocios para DummiesInteligencia De Negocios para Dummies
Inteligencia De Negocios para DummiesSorey García
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantesCarlos Toxtli
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivassgcuadrado
 
Introduction to data science
Introduction to data scienceIntroduction to data science
Introduction to data scienceMahir Haque
 
Datos semiestructurados Xml
Datos semiestructurados XmlDatos semiestructurados Xml
Datos semiestructurados Xmljosecuartas
 

La actualidad más candente (20)

BUSINESS INTELLIGENCE
BUSINESS INTELLIGENCEBUSINESS INTELLIGENCE
BUSINESS INTELLIGENCE
 
Implementacion de business intelligence
Implementacion de business intelligenceImplementacion de business intelligence
Implementacion de business intelligence
 
Anzo Smart Data Lake 4.0 - a Data Lake Platform for the Enterprise Informatio...
Anzo Smart Data Lake 4.0 - a Data Lake Platform for the Enterprise Informatio...Anzo Smart Data Lake 4.0 - a Data Lake Platform for the Enterprise Informatio...
Anzo Smart Data Lake 4.0 - a Data Lake Platform for the Enterprise Informatio...
 
Modelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocioModelo dimensional de un proceso de negocio
Modelo dimensional de un proceso de negocio
 
IN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negociosIN Unidad 1: Introducción a la inteligencia de negocios
IN Unidad 1: Introducción a la inteligencia de negocios
 
Componentes de Business Intelligence
Componentes de Business IntelligenceComponentes de Business Intelligence
Componentes de Business Intelligence
 
Big Data
Big DataBig Data
Big Data
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Marquez: A Metadata Service for Data Abstraction, Data Lineage, and Event-bas...
Marquez: A Metadata Service for Data Abstraction, Data Lineage, and Event-bas...Marquez: A Metadata Service for Data Abstraction, Data Lineage, and Event-bas...
Marquez: A Metadata Service for Data Abstraction, Data Lineage, and Event-bas...
 
Big data aplicado el negocio CRISP-DM
Big data aplicado el negocio CRISP-DMBig data aplicado el negocio CRISP-DM
Big data aplicado el negocio CRISP-DM
 
Introduccion a mineria de datos
Introduccion a mineria de datosIntroduccion a mineria de datos
Introduccion a mineria de datos
 
Performance Acceleration: Summaries, Recommendation, MPP and more
Performance Acceleration: Summaries, Recommendation, MPP and morePerformance Acceleration: Summaries, Recommendation, MPP and more
Performance Acceleration: Summaries, Recommendation, MPP and more
 
Data Infrastructure at LinkedIn
Data Infrastructure at LinkedIn Data Infrastructure at LinkedIn
Data Infrastructure at LinkedIn
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datos
 
Inteligencia De Negocios para Dummies
Inteligencia De Negocios para DummiesInteligencia De Negocios para Dummies
Inteligencia De Negocios para Dummies
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
 
Introduction to data science
Introduction to data scienceIntroduction to data science
Introduction to data science
 
Data streaming fundamentals
Data streaming fundamentalsData streaming fundamentals
Data streaming fundamentals
 
Datos semiestructurados Xml
Datos semiestructurados XmlDatos semiestructurados Xml
Datos semiestructurados Xml
 

Destacado

¿Que es el Text Mining?
¿Que es el Text Mining?¿Que es el Text Mining?
¿Que es el Text Mining?DMC Perú
 
5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearsonEvelyn Femat
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.DMC Perú
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaDMC Perú
 
Data mining
Data miningData mining
Data miningmayimez
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text MiningJuan Azcurra
 
Minería de textos sacar más partido de las preguntas abiertas
Minería de textos   sacar más partido de las preguntas abiertasMinería de textos   sacar más partido de las preguntas abiertas
Minería de textos sacar más partido de las preguntas abiertasAlter Análisis
 
Minería y visualización de texto
Minería y visualización de textoMinería y visualización de texto
Minería y visualización de textoEwing Ma
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual dataJonathan Calero
 
Curso Big Data. AplicaciónText mining con R by María Garcia y Francisco París
Curso Big Data. AplicaciónText mining con R by María Garcia y Francisco ParísCurso Big Data. AplicaciónText mining con R by María Garcia y Francisco París
Curso Big Data. AplicaciónText mining con R by María Garcia y Francisco ParísVictoria López
 
Dell social media analysis jun jul copia
Dell social media analysis jun   jul copiaDell social media analysis jun   jul copia
Dell social media analysis jun jul copiaDaniel Plascencia
 
Seguimiento twitter de las elecciones generales 2015 de Andorra la Vella
Seguimiento twitter de las elecciones generales 2015 de Andorra la VellaSeguimiento twitter de las elecciones generales 2015 de Andorra la Vella
Seguimiento twitter de las elecciones generales 2015 de Andorra la Vellajvaron
 
Twiter trabajo
Twiter trabajoTwiter trabajo
Twiter trabajoChambee
 
Metodologia para el analisis de redes sociales
Metodologia para el analisis de redes socialesMetodologia para el analisis de redes sociales
Metodologia para el analisis de redes socialesMontse Fernández Crespo
 
Data Mining Curso, PeruStat - 2014-II Lima, Perú
Data Mining Curso, PeruStat  - 2014-II Lima, PerúData Mining Curso, PeruStat  - 2014-II Lima, Perú
Data Mining Curso, PeruStat - 2014-II Lima, PerúPeruStat
 

Destacado (20)

¿Que es el Text Mining?
¿Que es el Text Mining?¿Que es el Text Mining?
¿Que es el Text Mining?
 
Articulo revista amai
Articulo revista amaiArticulo revista amai
Articulo revista amai
 
Text mining
Text miningText mining
Text mining
 
5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson5 text mining la ultima palabra yesenia glez pearson
5 text mining la ultima palabra yesenia glez pearson
 
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
Text Mining: Segmentaciónd de Usuarios de Twitter. Lima Metropolitana.
 
Relación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y EstadísticaRelación Entre Big Data, Data Mining y Estadística
Relación Entre Big Data, Data Mining y Estadística
 
Data mining
Data miningData mining
Data mining
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 
Ventura
VenturaVentura
Ventura
 
Text mining
Text miningText mining
Text mining
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Minería de textos sacar más partido de las preguntas abiertas
Minería de textos   sacar más partido de las preguntas abiertasMinería de textos   sacar más partido de las preguntas abiertas
Minería de textos sacar más partido de las preguntas abiertas
 
Minería y visualización de texto
Minería y visualización de textoMinería y visualización de texto
Minería y visualización de texto
 
Minig text and audiovisual data
Minig text and audiovisual dataMinig text and audiovisual data
Minig text and audiovisual data
 
Curso Big Data. AplicaciónText mining con R by María Garcia y Francisco París
Curso Big Data. AplicaciónText mining con R by María Garcia y Francisco ParísCurso Big Data. AplicaciónText mining con R by María Garcia y Francisco París
Curso Big Data. AplicaciónText mining con R by María Garcia y Francisco París
 
Dell social media analysis jun jul copia
Dell social media analysis jun   jul copiaDell social media analysis jun   jul copia
Dell social media analysis jun jul copia
 
Seguimiento twitter de las elecciones generales 2015 de Andorra la Vella
Seguimiento twitter de las elecciones generales 2015 de Andorra la VellaSeguimiento twitter de las elecciones generales 2015 de Andorra la Vella
Seguimiento twitter de las elecciones generales 2015 de Andorra la Vella
 
Twiter trabajo
Twiter trabajoTwiter trabajo
Twiter trabajo
 
Metodologia para el analisis de redes sociales
Metodologia para el analisis de redes socialesMetodologia para el analisis de redes sociales
Metodologia para el analisis de redes sociales
 
Data Mining Curso, PeruStat - 2014-II Lima, Perú
Data Mining Curso, PeruStat  - 2014-II Lima, PerúData Mining Curso, PeruStat  - 2014-II Lima, Perú
Data Mining Curso, PeruStat - 2014-II Lima, Perú
 

Más de UNAM Facultad de Contaduría, Administración e Informática

Más de UNAM Facultad de Contaduría, Administración e Informática (20)

Bimbo Logística.pdf
Bimbo Logística.pdfBimbo Logística.pdf
Bimbo Logística.pdf
 
HISTORIA DEL CIELO DE CAMILO FLAMARION.pdf
HISTORIA DEL CIELO DE CAMILO FLAMARION.pdfHISTORIA DEL CIELO DE CAMILO FLAMARION.pdf
HISTORIA DEL CIELO DE CAMILO FLAMARION.pdf
 
Apuntes prospectiva
Apuntes prospectivaApuntes prospectiva
Apuntes prospectiva
 
Caso kit kat
Caso kit katCaso kit kat
Caso kit kat
 
Glosario clase mundial
Glosario clase mundialGlosario clase mundial
Glosario clase mundial
 
Clasificacion de-los-costos
Clasificacion de-los-costosClasificacion de-los-costos
Clasificacion de-los-costos
 
El cross docking como herramienta importante en la cadena de abastecimiento..
El cross   docking como herramienta importante en la cadena de abastecimiento..El cross   docking como herramienta importante en la cadena de abastecimiento..
El cross docking como herramienta importante en la cadena de abastecimiento..
 
Conceptosestrategicosyfinancierosparaelexito
ConceptosestrategicosyfinancierosparaelexitoConceptosestrategicosyfinancierosparaelexito
Conceptosestrategicosyfinancierosparaelexito
 
Admon de la demanda
Admon de la demandaAdmon de la demanda
Admon de la demanda
 
Prototipo de producto
Prototipo de productoPrototipo de producto
Prototipo de producto
 
Los 7 practica
Los 7 practicaLos 7 practica
Los 7 practica
 
Determinacion costos-productos-y-servicios-principales
Determinacion costos-productos-y-servicios-principalesDeterminacion costos-productos-y-servicios-principales
Determinacion costos-productos-y-servicios-principales
 
Admnnistracion de mercados
Admnnistracion de mercadosAdmnnistracion de mercados
Admnnistracion de mercados
 
Los_7_habitos_de_la_gente_altamente_eefectiva
  Los_7_habitos_de_la_gente_altamente_eefectiva  Los_7_habitos_de_la_gente_altamente_eefectiva
Los_7_habitos_de_la_gente_altamente_eefectiva
 
Teoria de inventarios
Teoria de inventariosTeoria de inventarios
Teoria de inventarios
 
Top down and bottom up
Top down and bottom upTop down and bottom up
Top down and bottom up
 
Clasificacion de-los-costos
Clasificacion de-los-costosClasificacion de-los-costos
Clasificacion de-los-costos
 
Glosario de terminos logisticos (1)
Glosario de terminos logisticos (1)Glosario de terminos logisticos (1)
Glosario de terminos logisticos (1)
 
Sistemay mercadosfinancieros
Sistemay mercadosfinancierosSistemay mercadosfinancieros
Sistemay mercadosfinancieros
 
Mba finanzas1 1-eoctablero financieroigt
Mba finanzas1 1-eoctablero financieroigtMba finanzas1 1-eoctablero financieroigt
Mba finanzas1 1-eoctablero financieroigt
 

Último

Día de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialDía de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialpatriciaines1993
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptxJunkotantik
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALEDUCCUniversidadCatl
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxdanalikcruz2000
 
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxPLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxJUANSIMONPACHIN
 
PPT_Formación integral y educación CRESE (1).pdf
PPT_Formación integral y educación CRESE (1).pdfPPT_Formación integral y educación CRESE (1).pdf
PPT_Formación integral y educación CRESE (1).pdfEDILIAGAMBOA
 
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxPresentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxYeseniaRivera50
 
Los Nueve Principios del Desempeño de la Sostenibilidad
Los Nueve Principios del Desempeño de la SostenibilidadLos Nueve Principios del Desempeño de la Sostenibilidad
Los Nueve Principios del Desempeño de la SostenibilidadJonathanCovena1
 
Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024IES Vicent Andres Estelles
 
periodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicasperiodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicas123yudy
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfsamyarrocha1
 
PROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docxPROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docxEribertoPerezRamirez
 
Técnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materialesTécnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materialesRaquel Martín Contreras
 
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdfBIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdfCESARMALAGA4
 
c3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptxc3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptxMartín Ramírez
 

Último (20)

Día de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundialDía de la Madre Tierra-1.pdf día mundial
Día de la Madre Tierra-1.pdf día mundial
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptx
 
DIA INTERNACIONAL DAS FLORESTAS .
DIA INTERNACIONAL DAS FLORESTAS         .DIA INTERNACIONAL DAS FLORESTAS         .
DIA INTERNACIONAL DAS FLORESTAS .
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
 
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docxPLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
PLANIFICACION ANUAL 2024 - INICIAL UNIDOCENTE.docx
 
PPT_Formación integral y educación CRESE (1).pdf
PPT_Formación integral y educación CRESE (1).pdfPPT_Formación integral y educación CRESE (1).pdf
PPT_Formación integral y educación CRESE (1).pdf
 
VISITA À PROTEÇÃO CIVIL _
VISITA À PROTEÇÃO CIVIL                  _VISITA À PROTEÇÃO CIVIL                  _
VISITA À PROTEÇÃO CIVIL _
 
La luz brilla en la oscuridad. Necesitamos luz
La luz brilla en la oscuridad. Necesitamos luzLa luz brilla en la oscuridad. Necesitamos luz
La luz brilla en la oscuridad. Necesitamos luz
 
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxPresentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
 
Los Nueve Principios del Desempeño de la Sostenibilidad
Los Nueve Principios del Desempeño de la SostenibilidadLos Nueve Principios del Desempeño de la Sostenibilidad
Los Nueve Principios del Desempeño de la Sostenibilidad
 
PPTX: La luz brilla en la oscuridad.pptx
PPTX: La luz brilla en la oscuridad.pptxPPTX: La luz brilla en la oscuridad.pptx
PPTX: La luz brilla en la oscuridad.pptx
 
Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024Metabolismo 3: Anabolismo y Fotosíntesis 2024
Metabolismo 3: Anabolismo y Fotosíntesis 2024
 
periodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicasperiodico mural y sus partes y caracteristicas
periodico mural y sus partes y caracteristicas
 
Aedes aegypti + Intro to Coquies EE.pptx
Aedes aegypti + Intro to Coquies EE.pptxAedes aegypti + Intro to Coquies EE.pptx
Aedes aegypti + Intro to Coquies EE.pptx
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdf
 
PROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docxPROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docx
 
Técnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materialesTécnicas de grabado y estampación : procesos y materiales
Técnicas de grabado y estampación : procesos y materiales
 
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdfBIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
 
c3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptxc3.hu3.p1.p3.El ser humano como ser histórico.pptx
c3.hu3.p1.p3.El ser humano como ser histórico.pptx
 

minería de textos

  • 1. Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9. Individuos/textos Codificación del corpus: tabla léxica Variable textual pal1 palt2 k ij La codificación transforma el corpus en una tabla que se puede analizar mediante métodos estadísticos Minería de textos y datos
  • 10. Utilizar la información cerrada Individuos Information a analizar: ¿cuál es la parte activa? ¿cuál es la parte suplementaria? Variables cuantitativas Variables textuales Variables cualitativas Tabla mixta Minería de textos y Estadística textual
  • 11.
  • 12. Representación gráfica : Análisis de correspondencias Tipología de documentos: Clasificación Tipología a partir de tablas múltipes: Análisis factorial múltiple y clasificación Minería de textos y Estadística textual
  • 13.
  • 14.
  • 15. Primer ejemplo: Evaluación de vinos mediante notas y comentarios
  • 16. Castilla y León 5 denominaciones: Bierzo, Cigales, Ribera del Duero, Rueda, Toro Minería de textos y Estadística textual
  • 17. ---- Note= 80 Valdelosfriales-2003 Joven típico, con notas de tempranillo y balsámicos; en boca amable y frutoso. ---- Note=91 Tares P3-2001 premium Mucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final. Minería de textos y Estadística textual Ejemplo: guía de vinos de Castilla y León
  • 18.
  • 19. Método de referencia: AC Métode de referencia: ACP Tabla a analizar Grupo textual J f columnas Grupo notas J c columnas Minería de textos y Estadística textual
  • 20. Tabla léxica activa Minería de textos y Estadística textual
  • 21. Nota y commentarios activos Minería de textos y Estadística textual
  • 22. Minería de textos y Estadística textual A PARTIR DE AQUÍ, SÓLO LOS VINOS TINTOS
  • 23. Nota y commentarios activos Minería de textos y Estadística textual Eje de calidad
  • 24. Minería de textos y Estadística textual - 1.0 - 0.5 0 0.5 1.0 - 0.75 0.75 1.50 2.25 tempranillo tiempo equilibrio intensidad estructura concentración n vino ciruela paladar aroma tinto cuerpo cuero madurez mineral estilo coco tacto vez potencial p ó lvora torrefacto cascajo roble consistencia crianza sequedad Ribera paso recuerdo acidez frutosidad expresi ó n sobremadurez capa tuestes gominola fondo tierra zumo ceniza grosella caf é hierba% bosque monte carne s í lex chocolate bouquet First Principal Plane NOUNS Axis 2 : 1.75% frutillos Axis 1: 3.52%
  • 25. Minería de textos y Estadística textual - 1.50 - 0.75 0.75 - 0.75 0 0.75 1.50 2.25 t í pico joven amable corto herb á ceo f á cil precioso tradicional frutal ligero limpio americano franco frutoso primer gran en é rgico salado denso impresionante graso granuloso noble magn í fico mojado arom á tico salino amargo largo rico vigoroso sabroso silvestre jugoso potente oscuro voluptuoso todo complejo concentrado integrado pulido lineal r ú stico vivo First Principal Plane ADJECTIVES Axis 2 : 1.75% Axis 1: 3.52% agradable medio accesible abierto ensamblado tostado
  • 26. Minería de textos y Estadística textual 82 highest marks en é rgico lowest marks Average mark : 85.16 corto coco p ó lvora voluptuoso magn í fico - 1,9 - 1,1 1,3 0,9 0,5 - 1,5 - 0,7 - 0,3 0,1 herb á ceo tradicional r ú stico joven roble lineal amable denso salado impresionante 83 86 consistencia frutal crianza algo limpio ligero beber evolucionar f á cil agradable sobremadurez sequedad medio tempranillo ligeramente americano capa tuestes cierto abierto alg ú n demasiado franco reducido discreto frutosidad ensamblado seco cl á sico dominar rojo t í pico expresi ó n compotado suave Ribera cesta toque vez graso torrefacto granuloso gran tiempo todo noble cascajo estilo concentrado necesitar potencial sabroso sorprende tacto complejo largo potente puro dejar mineral primer moderno carnoso amargo salino fino donde mucho ser bouquet s í lex intenso firme vino chocolate Mark 81 84 85 87 88 89 90
  • 27. Minería de textos y Estadística textual 82 highest marks en é rgico lowest marks Average mark : 85.16 corto coco p ó lvora voluptuoso magn í fico - 1,9 - 1,1 1,3 0,9 0,5 - 1,5 - 0,7 - 0,3 0,1 herb á ceo tradicional r ú stico joven roble lineal amable denso salado impresionante 83 86 consistencia frutal crianza algo limpio ligero beber evolucionar f á cil agradable sobremadurez sequedad medio tempranillo ligeramente americano capa tuestes cierto abierto alg ú n demasiado franco reducido discreto frutosidad ensamblado seco cl á sico dominar rojo t í pico expresi ó n compotado suave Ribera cesta toque vez graso torrefacto granuloso gran tiempo todo noble cascajo estilo concentrado necesitar potencial sabroso sorprende tacto complejo largo potente puro dejar mineral primer moderno carnoso amargo salino fino donde mucho ser bouquet s í lex intenso firme vino chocolate Mark 81 84 85 87 88 89 90 Criterio dominante: potencia del vino; las palabras denso, graso, concentrado Se oponen a ligero, fácil, Algunos defectos: sequedad, sobremadurez, evolucionado defectos importantes en el mundo del vino
  • 28. Minería de textos y Estadística textual Variables suplementarias
  • 29. Minería de textos y Estadística textual Variables suplementarias 1.5 3.0 4.5 1.5 - 3.0 - 1.5 - 1.5 83 81 82 84 85 88 90 91 92 93 94 97 95 79 80 78 86 87 Gran Reserva 50-99,9€ 30-49,9€ 89 15-19,9€ 20-24,9€ 25-29,9€ Tinto joven 0-4,9€ 5-9,9€ Tinto crianza 10-14,9€ Tinto reserva Tinto roble Axis2 Axis1 Vega Sicilia 'Único' (94) Viña Sastre Pesus(01) Jaros Chafandín (01) 100-300€ Astrales (02) Punta Esencia (01) Tares P3 (01) Termanthia (02) Gran Elías Mora (00) Bienvenida Sitio de El Palo (01) Bienvenida Sitio de El Palo (02) Numanthia (02) San Román (01) Valdetán (02) Torondos (02) Mesoneros de Castilla (03) Valdelosfrailes (03) Fuentenarro (02) Valdecuadrón (02) Gayubar (02) Viñatorondos (03) Viña Valdable (03) Marqués de Olivara (98) Rauda (01) El Marqués (02) Carramimbre (03) Viña Eremos (03) Valsotillo (01) Marqués de Peñamonte (01)
  • 30. Importancia relativa de los comentarios y de la nota Contribución de cada palabra al score global La nota aporta 51.7% de la varianza del score global y las palabras 48.3% Minería de textos y Estadística textual palabra nota
  • 31.
  • 32. ---- Wine 212 (mark= 85) Legaris-2001 Tuestes, gominolas y buenos balsámicos marcan la intensidad media frutal de este crianza. En boca aparece muy lineal, con consistencia media; el retrogusto frutal todavía tapado por una madera algo rústica. ---- Wine 30 (mark=91) Tares P3-2001 premium Mucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final. ---- Wine 314 (mark=97) Vega Sicilia 'Único-1994 Hay que realizar un ejercicio de disciplina gustativa de primer rango para describir este gran vino. el bouquet es fresco, bien armado de fruta roja que se ve potenciada por tintes de chocolates, tabacos, notas de sotobosque y una madera que se manifiesta pero que resulta difícil de localizar y menos de concretar. Tenemos el caso raro de un tinto que sale ileso del paso del tiempo sin lucir su armadura, que es la barrica. En boca joven, aunque ya tiene su cuerpo vigoroso y enérgico bastante ensamblado, con la excepción de algunos taninos saltamontes que quedan para domesticar. Largo y vibrante final que mezcla madurez con una notable finura fresca. Minería de textos y Estadística textual
  • 33. Presentación detallada de la metodología en: Bécue-Bertaut, M. & Pagès J. “ Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis. Application to survey data.” aceptado para publicación por Computational Statistics and Data Analysis Minería de textos y Estadística textual
  • 34. Segundo ejemplo: Los niños y la lectura
  • 35.
  • 36. ----A130 es un rollo porque hay muchas letras ++++ si no sabes leer no sabes escribir ----D214 como vivir otra clase de vida, aprendo, me divierto y me entrego, no sé como explicarlo, pero me gusta leer ++++ aprendes cosas nuevas Minería de textos y Estadística textual Ejemplos de respuestas
  • 37. Respuestas abiertas: ---- para mí, leer es es muy interesante porque te puedes ir al mundo de la fantasía. por ejemplo puedes viajar a la edad media o estar en la prehistoria ++++ Leer es importante por que sin la lectura no podría viajar ---- para mí, leer es aprender ++++ Leer es importante por que se aprenden cosas nuevas J127 Respuestas cerradas: leo bastante, leo muy fácilmente N314 Respuestas cerradas: leo bastante, leo muy fácilmente Respuestas abiertas: ABIERTO y CERRADO
  • 38. Preguntas cerradas categóricas Q1 Q2 Q3 I 1 I k 1 Pregunta abierta 1 Aprender Aventura … Pregunta abierta 2 Aprender Importante Ind1 Ind i Ind n 001 1000 0100 1 … 2 0 0 0 ……2 … En el ejemplo: tabla múltiple mixta Minería de textos y Estadística textual
  • 39. Primer plano factorial: Individuos Factor 1 Factor 2 J127 N314 Axis   1 =1.4; 2% Axis   2 =1.2; 1.7% Minería de textos y Estadística textual -2 0 2 4 6 -3.0 -1.5 0 1.5 3.0
  • 40. -1 1 2 3 -1.50 -0.75 0 0.75 1.50 eje 1 eje 2 Ieo poco Leo bastante Leo mucho Leo con dificultades Leo muy fácilmente aburrido aburrimiento aprender aprendes aprendo aventura aventuras diversion divertida divertido divertirme divierto enseña entrar entretenido entretenimiento fantasia imaginacion importante interesante mundo rollo saber aprende aventuras diviertes imaginación importante importantes sino NOTA GLOBAL: SUSPENSO NOTA GLOBAL: EXCELENTE PADRE.: SIN ESTUDIOS CLASE SOCIAL ELEVADA PADRE EST. SUP leo fácilmente (  1 =1.4, 2%) (  2 =1.2, 1.7%) Minería de textos y Estadística textual
  • 41. Análisis Cluster de los individuos a partir de sus coordenadas sobre los 7 primeros ejes Método jerárquico, con el criterio de Ward 7 clases (una residual cluster con 11 niños) Minería de textos y Estadística textual
  • 42.
  • 43. Minería de textos y Estadística textual Pregunta Coef. de Cramer En casa tenemos (cantidad de libros) Leer los libros escolares Leo (cantidad de lectura) Para mí, leer es (abierta) Leo (facilidad de lectura) Leer es importante porque (abierta) Los libros dados por el maestro Prefiero leer (forma de leer) Leo cuando (contexto de la lectura) En la escuela leemos (cantidad de lectura escolar) 0.52 0.44 0.41 0.38 0.35 0.27 0.26 0.20 0.20 0.14
  • 44. Si sólo se tiene en cuenta las preguntas cerradas, tomando las palabras y respuestas como ilustrativas Se obtiene… Minería de textos y Estadística textual
  • 45. Minería de textos y Estadística textual GRUPO 168 NIÑOS CERRADAS CATEGORIAS SOBREREPRESENTADAS LEO MUCHO (82%; 28%) LEO MUY FÁCILMENTE (93%; 58%) … PARA MI, LEER ES MEDIA EN LA MUESTRA 6.8 PALABRAS PALABRAS SOBRE-REPRESENTADAS NINGUNA MEDIA , 7.6 PALABRAS CREO QUE LEER ES IMPORTANTE PORQUE… MEDIA EN LA MUESTRA 7.4 PALABRAS PALABRAS SOBRE-REPRESENTADAS Aprende, cosas MEDIA 7.8 PALABRAS RESPUESTAS MODALES -Se aprende -Se aprende
  • 46. Minería de textos y Estadística textual Pregunta Coeficiente de Cramer Leo (cantidad de lectura) Leo con (facilidad de lectura) Leo cuando (contexto de lectura) Los libros dados por el maestro Leer los libros escolares En la escuela, leemos (cantidad) I prefer reading (manera de leer) At home, we have (cantidad de libros) For me, to read means (open-ended) Reading is important because (open-ended) 0,62 0.50 0.45 0.43 0.39 0.39 0.32 0.30 0.17 0.15
  • 47. Conclusión: textos e información paratextual Olvidaros Es práctico Todo es automático Minería de textos y Estadística textual
  • 48. Bibliografía Lebart, Salem, Bécue, 2000, Análisis estadístico de textos Editorial MILENIO, Lleida Minería de textos y Estadística textual Presentación detallada de la metodología en: Bécue-Bertaut, M. & Pagès J. “ Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis. Application to survey data.” aceptado para publicación por Computational Statistics and Data Analysis Sobre el estudio de los vinos: Bécue-Bertaut M., Pagès J., Alvarez-Esteban R., Vásquez Burguete J.L. Détermination d’une note globale, synthèse d’une évalautaion numérique et d’appréciations libres. Application aux études de marché. Actes des JADT2006. http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2006/tocJADT2006.htm