Text mining

706 visualizaciones

Publicado el

Presentación sobre minería de texto (text mining) para el curso de Minería de datos dictado en la Universidad Simón Bolívar en la Maestría de ciencias de la computación en caracas venezuela

Publicado en: Tecnología
0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
706
En SlideShare
0
De insertados
0
Número de insertados
13
Acciones
Compartido
0
Descargas
0
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

Text mining

  1. 1. Francisco Berrizbeitia Curso de Miinería de Datos Maestría en ciencias de la computación Universidad Simón Bolívar Noviembre 2013
  2. 2. ¿Por qué ? Hay una enorme cantidad de información en texto. Aparte de los libros, periódicos y enciclopedias en Internet se generan enormes cantidades de información textual.
  3. 3. Pasos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  4. 4. Pasos Obtención y agrupamiento del Texto Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  5. 5. Obtención de los datos Los textos se encuentran en documentos dispersos como páginas web, informes, actualizaciones de estatus, etc. El primer paso consisten en la obtención de estos datos y su agrupamiento para comenzar a trabajar
  6. 6. Pasos Pre Procesamiento Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  7. 7. Pre procesamiento Eliminación de ruido • • • • • • • • Texto deliberadamente equivocado SPAM Textos ambiguos Texto erróneo Palabras que no tienen poder discriminatorio (STOP WORDS) Ruido en el formato (tags, links) Multiplicidad de idiomas Sinónimos, palabras con varios significados Frases típicas
  8. 8. Pre procesamiento
  9. 9. Pre procesamiento
  10. 10. Pre procesamiento Convertir el documento en un vector de palabras. “Tokenization”
  11. 11. Pre procesamiento 1. Se puede importar los datos en CVS 2. Hay que eliminar los caracteres: ,;:”’%() 3. Aplicar primero el filtro NominalToString. 4. Aplicar el filtro StringToWordVector
  12. 12. Pasos Generación de atributos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  13. 13. Generación de atributos Representación del texto “Bag of Words”
  14. 14. Generación de atributos
  15. 15. Generación de atributos Dimensionalidad
  16. 16. Pasos Selección de atributos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  17. 17. Generación de atributos Selección de atributos ¿Cuáles palabras tienen la mejor capacidad discriminatoria? Se puede usar un clasificador
  18. 18. Generación de atributos Latent Semantic Analysis Es una teoría y un método para extraer y representar el significado de las palabras dentro de un contexto utilizando técnicas estadísticas sobre un cuerpo de texto grande. http://lsa.colorado.edu/whatis.html
  19. 19. Generación de atributos 1. Ir a Select Atributes 2. Seleccionar Latent Semantic analisys 3. Start 4. Guardar el nuevo data set
  20. 20. Pasos Minería de datos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  21. 21. Minería de datos Agrupamiento Clasificación Reglas de asociación
  22. 22. Agrupamiento 1. Ir a Clustering 2. Seleccionar el alogirmo de agrupamiento 3. Start 4. Clic derecho sobre el resultado y seleccionar visualize cluster assigments
  23. 23. Pasos Interpretar los resultados Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  24. 24. Interpretar los resultados Interpretar (Agrupamiento) Evaluar los resultados (Clasificación, reglas de asociación). Sacar conclusiones o iterar sobre los pasos anteriores
  25. 25. Francisco Berrizbeitia Curso de Miinería de Datos Maestría en ciencias de la computación Universidad Simón Bolívar Noviembre 2013

×