c3.hu3.p1.p3.El ser humano como ser histórico.pptx
minería de textos
1. Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya
2.
3.
4.
5.
6.
7.
8.
9. Individuos/textos Codificación del corpus: tabla léxica Variable textual pal1 palt2 k ij La codificación transforma el corpus en una tabla que se puede analizar mediante métodos estadísticos Minería de textos y datos
10. Utilizar la información cerrada Individuos Information a analizar: ¿cuál es la parte activa? ¿cuál es la parte suplementaria? Variables cuantitativas Variables textuales Variables cualitativas Tabla mixta Minería de textos y Estadística textual
11.
12. Representación gráfica : Análisis de correspondencias Tipología de documentos: Clasificación Tipología a partir de tablas múltipes: Análisis factorial múltiple y clasificación Minería de textos y Estadística textual
13.
14.
15. Primer ejemplo: Evaluación de vinos mediante notas y comentarios
16. Castilla y León 5 denominaciones: Bierzo, Cigales, Ribera del Duero, Rueda, Toro Minería de textos y Estadística textual
17. ---- Note= 80 Valdelosfriales-2003 Joven típico, con notas de tempranillo y balsámicos; en boca amable y frutoso. ---- Note=91 Tares P3-2001 premium Mucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final. Minería de textos y Estadística textual Ejemplo: guía de vinos de Castilla y León
18.
19. Método de referencia: AC Métode de referencia: ACP Tabla a analizar Grupo textual J f columnas Grupo notas J c columnas Minería de textos y Estadística textual
22. Minería de textos y Estadística textual A PARTIR DE AQUÍ, SÓLO LOS VINOS TINTOS
23. Nota y commentarios activos Minería de textos y Estadística textual Eje de calidad
24. Minería de textos y Estadística textual - 1.0 - 0.5 0 0.5 1.0 - 0.75 0.75 1.50 2.25 tempranillo tiempo equilibrio intensidad estructura concentración n vino ciruela paladar aroma tinto cuerpo cuero madurez mineral estilo coco tacto vez potencial p ó lvora torrefacto cascajo roble consistencia crianza sequedad Ribera paso recuerdo acidez frutosidad expresi ó n sobremadurez capa tuestes gominola fondo tierra zumo ceniza grosella caf é hierba% bosque monte carne s í lex chocolate bouquet First Principal Plane NOUNS Axis 2 : 1.75% frutillos Axis 1: 3.52%
25. Minería de textos y Estadística textual - 1.50 - 0.75 0.75 - 0.75 0 0.75 1.50 2.25 t í pico joven amable corto herb á ceo f á cil precioso tradicional frutal ligero limpio americano franco frutoso primer gran en é rgico salado denso impresionante graso granuloso noble magn í fico mojado arom á tico salino amargo largo rico vigoroso sabroso silvestre jugoso potente oscuro voluptuoso todo complejo concentrado integrado pulido lineal r ú stico vivo First Principal Plane ADJECTIVES Axis 2 : 1.75% Axis 1: 3.52% agradable medio accesible abierto ensamblado tostado
26. Minería de textos y Estadística textual 82 highest marks en é rgico lowest marks Average mark : 85.16 corto coco p ó lvora voluptuoso magn í fico - 1,9 - 1,1 1,3 0,9 0,5 - 1,5 - 0,7 - 0,3 0,1 herb á ceo tradicional r ú stico joven roble lineal amable denso salado impresionante 83 86 consistencia frutal crianza algo limpio ligero beber evolucionar f á cil agradable sobremadurez sequedad medio tempranillo ligeramente americano capa tuestes cierto abierto alg ú n demasiado franco reducido discreto frutosidad ensamblado seco cl á sico dominar rojo t í pico expresi ó n compotado suave Ribera cesta toque vez graso torrefacto granuloso gran tiempo todo noble cascajo estilo concentrado necesitar potencial sabroso sorprende tacto complejo largo potente puro dejar mineral primer moderno carnoso amargo salino fino donde mucho ser bouquet s í lex intenso firme vino chocolate Mark 81 84 85 87 88 89 90
27. Minería de textos y Estadística textual 82 highest marks en é rgico lowest marks Average mark : 85.16 corto coco p ó lvora voluptuoso magn í fico - 1,9 - 1,1 1,3 0,9 0,5 - 1,5 - 0,7 - 0,3 0,1 herb á ceo tradicional r ú stico joven roble lineal amable denso salado impresionante 83 86 consistencia frutal crianza algo limpio ligero beber evolucionar f á cil agradable sobremadurez sequedad medio tempranillo ligeramente americano capa tuestes cierto abierto alg ú n demasiado franco reducido discreto frutosidad ensamblado seco cl á sico dominar rojo t í pico expresi ó n compotado suave Ribera cesta toque vez graso torrefacto granuloso gran tiempo todo noble cascajo estilo concentrado necesitar potencial sabroso sorprende tacto complejo largo potente puro dejar mineral primer moderno carnoso amargo salino fino donde mucho ser bouquet s í lex intenso firme vino chocolate Mark 81 84 85 87 88 89 90 Criterio dominante: potencia del vino; las palabras denso, graso, concentrado Se oponen a ligero, fácil, Algunos defectos: sequedad, sobremadurez, evolucionado defectos importantes en el mundo del vino
29. Minería de textos y Estadística textual Variables suplementarias 1.5 3.0 4.5 1.5 - 3.0 - 1.5 - 1.5 83 81 82 84 85 88 90 91 92 93 94 97 95 79 80 78 86 87 Gran Reserva 50-99,9€ 30-49,9€ 89 15-19,9€ 20-24,9€ 25-29,9€ Tinto joven 0-4,9€ 5-9,9€ Tinto crianza 10-14,9€ Tinto reserva Tinto roble Axis2 Axis1 Vega Sicilia 'Único' (94) Viña Sastre Pesus(01) Jaros Chafandín (01) 100-300€ Astrales (02) Punta Esencia (01) Tares P3 (01) Termanthia (02) Gran Elías Mora (00) Bienvenida Sitio de El Palo (01) Bienvenida Sitio de El Palo (02) Numanthia (02) San Román (01) Valdetán (02) Torondos (02) Mesoneros de Castilla (03) Valdelosfrailes (03) Fuentenarro (02) Valdecuadrón (02) Gayubar (02) Viñatorondos (03) Viña Valdable (03) Marqués de Olivara (98) Rauda (01) El Marqués (02) Carramimbre (03) Viña Eremos (03) Valsotillo (01) Marqués de Peñamonte (01)
30. Importancia relativa de los comentarios y de la nota Contribución de cada palabra al score global La nota aporta 51.7% de la varianza del score global y las palabras 48.3% Minería de textos y Estadística textual palabra nota
31.
32. ---- Wine 212 (mark= 85) Legaris-2001 Tuestes, gominolas y buenos balsámicos marcan la intensidad media frutal de este crianza. En boca aparece muy lineal, con consistencia media; el retrogusto frutal todavía tapado por una madera algo rústica. ---- Wine 30 (mark=91) Tares P3-2001 premium Mucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final. ---- Wine 314 (mark=97) Vega Sicilia 'Único-1994 Hay que realizar un ejercicio de disciplina gustativa de primer rango para describir este gran vino. el bouquet es fresco, bien armado de fruta roja que se ve potenciada por tintes de chocolates, tabacos, notas de sotobosque y una madera que se manifiesta pero que resulta difícil de localizar y menos de concretar. Tenemos el caso raro de un tinto que sale ileso del paso del tiempo sin lucir su armadura, que es la barrica. En boca joven, aunque ya tiene su cuerpo vigoroso y enérgico bastante ensamblado, con la excepción de algunos taninos saltamontes que quedan para domesticar. Largo y vibrante final que mezcla madurez con una notable finura fresca. Minería de textos y Estadística textual
33. Presentación detallada de la metodología en: Bécue-Bertaut, M. & Pagès J. “ Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis. Application to survey data.” aceptado para publicación por Computational Statistics and Data Analysis Minería de textos y Estadística textual
36. ----A130 es un rollo porque hay muchas letras ++++ si no sabes leer no sabes escribir ----D214 como vivir otra clase de vida, aprendo, me divierto y me entrego, no sé como explicarlo, pero me gusta leer ++++ aprendes cosas nuevas Minería de textos y Estadística textual Ejemplos de respuestas
37. Respuestas abiertas: ---- para mí, leer es es muy interesante porque te puedes ir al mundo de la fantasía. por ejemplo puedes viajar a la edad media o estar en la prehistoria ++++ Leer es importante por que sin la lectura no podría viajar ---- para mí, leer es aprender ++++ Leer es importante por que se aprenden cosas nuevas J127 Respuestas cerradas: leo bastante, leo muy fácilmente N314 Respuestas cerradas: leo bastante, leo muy fácilmente Respuestas abiertas: ABIERTO y CERRADO
38. Preguntas cerradas categóricas Q1 Q2 Q3 I 1 I k 1 Pregunta abierta 1 Aprender Aventura … Pregunta abierta 2 Aprender Importante Ind1 Ind i Ind n 001 1000 0100 1 … 2 0 0 0 ……2 … En el ejemplo: tabla múltiple mixta Minería de textos y Estadística textual
39. Primer plano factorial: Individuos Factor 1 Factor 2 J127 N314 Axis 1 =1.4; 2% Axis 2 =1.2; 1.7% Minería de textos y Estadística textual -2 0 2 4 6 -3.0 -1.5 0 1.5 3.0
40. -1 1 2 3 -1.50 -0.75 0 0.75 1.50 eje 1 eje 2 Ieo poco Leo bastante Leo mucho Leo con dificultades Leo muy fácilmente aburrido aburrimiento aprender aprendes aprendo aventura aventuras diversion divertida divertido divertirme divierto enseña entrar entretenido entretenimiento fantasia imaginacion importante interesante mundo rollo saber aprende aventuras diviertes imaginación importante importantes sino NOTA GLOBAL: SUSPENSO NOTA GLOBAL: EXCELENTE PADRE.: SIN ESTUDIOS CLASE SOCIAL ELEVADA PADRE EST. SUP leo fácilmente ( 1 =1.4, 2%) ( 2 =1.2, 1.7%) Minería de textos y Estadística textual
41. Análisis Cluster de los individuos a partir de sus coordenadas sobre los 7 primeros ejes Método jerárquico, con el criterio de Ward 7 clases (una residual cluster con 11 niños) Minería de textos y Estadística textual
42.
43. Minería de textos y Estadística textual Pregunta Coef. de Cramer En casa tenemos (cantidad de libros) Leer los libros escolares Leo (cantidad de lectura) Para mí, leer es (abierta) Leo (facilidad de lectura) Leer es importante porque (abierta) Los libros dados por el maestro Prefiero leer (forma de leer) Leo cuando (contexto de la lectura) En la escuela leemos (cantidad de lectura escolar) 0.52 0.44 0.41 0.38 0.35 0.27 0.26 0.20 0.20 0.14
44. Si sólo se tiene en cuenta las preguntas cerradas, tomando las palabras y respuestas como ilustrativas Se obtiene… Minería de textos y Estadística textual
45. Minería de textos y Estadística textual GRUPO 168 NIÑOS CERRADAS CATEGORIAS SOBREREPRESENTADAS LEO MUCHO (82%; 28%) LEO MUY FÁCILMENTE (93%; 58%) … PARA MI, LEER ES MEDIA EN LA MUESTRA 6.8 PALABRAS PALABRAS SOBRE-REPRESENTADAS NINGUNA MEDIA , 7.6 PALABRAS CREO QUE LEER ES IMPORTANTE PORQUE… MEDIA EN LA MUESTRA 7.4 PALABRAS PALABRAS SOBRE-REPRESENTADAS Aprende, cosas MEDIA 7.8 PALABRAS RESPUESTAS MODALES -Se aprende -Se aprende
46. Minería de textos y Estadística textual Pregunta Coeficiente de Cramer Leo (cantidad de lectura) Leo con (facilidad de lectura) Leo cuando (contexto de lectura) Los libros dados por el maestro Leer los libros escolares En la escuela, leemos (cantidad) I prefer reading (manera de leer) At home, we have (cantidad de libros) For me, to read means (open-ended) Reading is important because (open-ended) 0,62 0.50 0.45 0.43 0.39 0.39 0.32 0.30 0.17 0.15
47. Conclusión: textos e información paratextual Olvidaros Es práctico Todo es automático Minería de textos y Estadística textual
48. Bibliografía Lebart, Salem, Bécue, 2000, Análisis estadístico de textos Editorial MILENIO, Lleida Minería de textos y Estadística textual Presentación detallada de la metodología en: Bécue-Bertaut, M. & Pagès J. “ Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis. Application to survey data.” aceptado para publicación por Computational Statistics and Data Analysis Sobre el estudio de los vinos: Bécue-Bertaut M., Pagès J., Alvarez-Esteban R., Vásquez Burguete J.L. Détermination d’une note globale, synthèse d’une évalautaion numérique et d’appréciations libres. Application aux études de marché. Actes des JADT2006. http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2006/tocJADT2006.htm