Francisco Berrizbeitia
Curso de Miinería de Datos
Maestría en ciencias de la computación
Universidad Simón Bolívar
Noviemb...
¿Por qué ?
Hay una enorme cantidad
de información en texto.
Aparte de los libros,
periódicos y enciclopedias
en Internet s...
Pasos

Interpretación y
evaluación

Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obte...
Pasos

Obtención y
agrupamiento del
Texto
Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación d...
Obtención de los datos
Los textos se encuentran en documentos
dispersos como páginas web, informes,
actualizaciones de est...
Pasos

Pre
Procesamiento
Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
p...
Pre procesamiento

Eliminación de ruido
•
•
•
•
•
•
•
•

Texto deliberadamente equivocado SPAM
Textos ambiguos
Texto errón...
Pre procesamiento
Pre procesamiento
Pre procesamiento
Convertir el documento en un vector de
palabras. “Tokenization”
Pre procesamiento

1. Se puede importar los
datos en CVS
2. Hay que eliminar los
caracteres: ,;:”’%()
3. Aplicar primero e...
Pasos

Generación de
atributos

Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributo...
Generación de atributos

Representación del texto
“Bag of Words”
Generación de atributos
Generación de atributos
Dimensionalidad
Pasos

Selección de
atributos

Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos...
Generación de atributos

Selección de atributos
¿Cuáles palabras tienen
la mejor capacidad
discriminatoria?

Se puede usar...
Generación de atributos

Latent Semantic Analysis
Es una teoría y un método
para extraer y representar
el significado de l...
Generación de atributos

1. Ir a Select Atributes
2. Seleccionar Latent
Semantic analisys
3. Start
4. Guardar el nuevo dat...
Pasos

Minería de datos

Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
p...
Minería de datos

Agrupamiento
Clasificación
Reglas de asociación
Agrupamiento

1. Ir a Clustering
2. Seleccionar el alogirmo
de agrupamiento
3. Start
4. Clic derecho sobre el
resultado y ...
Pasos

Interpretar los
resultados

Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atrib...
Interpretar los resultados

Interpretar (Agrupamiento)
Evaluar los resultados
(Clasificación, reglas de asociación).

Saca...
Francisco Berrizbeitia
Curso de Miinería de Datos
Maestría en ciencias de la computación
Universidad Simón Bolívar
Noviemb...
Próxima SlideShare
Cargando en…5
×

Text mining

674 visualizaciones

Publicado el

Presentación sobre minería de texto (text mining) para el curso de Minería de datos dictado en la Universidad Simón Bolívar en la Maestría de ciencias de la computación en caracas venezuela

Publicado en: Tecnología
0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
674
En SlideShare
0
De insertados
0
Número de insertados
13
Acciones
Compartido
0
Descargas
0
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

Text mining

  1. 1. Francisco Berrizbeitia Curso de Miinería de Datos Maestría en ciencias de la computación Universidad Simón Bolívar Noviembre 2013
  2. 2. ¿Por qué ? Hay una enorme cantidad de información en texto. Aparte de los libros, periódicos y enciclopedias en Internet se generan enormes cantidades de información textual.
  3. 3. Pasos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  4. 4. Pasos Obtención y agrupamiento del Texto Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  5. 5. Obtención de los datos Los textos se encuentran en documentos dispersos como páginas web, informes, actualizaciones de estatus, etc. El primer paso consisten en la obtención de estos datos y su agrupamiento para comenzar a trabajar
  6. 6. Pasos Pre Procesamiento Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  7. 7. Pre procesamiento Eliminación de ruido • • • • • • • • Texto deliberadamente equivocado SPAM Textos ambiguos Texto erróneo Palabras que no tienen poder discriminatorio (STOP WORDS) Ruido en el formato (tags, links) Multiplicidad de idiomas Sinónimos, palabras con varios significados Frases típicas
  8. 8. Pre procesamiento
  9. 9. Pre procesamiento
  10. 10. Pre procesamiento Convertir el documento en un vector de palabras. “Tokenization”
  11. 11. Pre procesamiento 1. Se puede importar los datos en CVS 2. Hay que eliminar los caracteres: ,;:”’%() 3. Aplicar primero el filtro NominalToString. 4. Aplicar el filtro StringToWordVector
  12. 12. Pasos Generación de atributos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  13. 13. Generación de atributos Representación del texto “Bag of Words”
  14. 14. Generación de atributos
  15. 15. Generación de atributos Dimensionalidad
  16. 16. Pasos Selección de atributos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  17. 17. Generación de atributos Selección de atributos ¿Cuáles palabras tienen la mejor capacidad discriminatoria? Se puede usar un clasificador
  18. 18. Generación de atributos Latent Semantic Analysis Es una teoría y un método para extraer y representar el significado de las palabras dentro de un contexto utilizando técnicas estadísticas sobre un cuerpo de texto grande. http://lsa.colorado.edu/whatis.html
  19. 19. Generación de atributos 1. Ir a Select Atributes 2. Seleccionar Latent Semantic analisys 3. Start 4. Guardar el nuevo data set
  20. 20. Pasos Minería de datos Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  21. 21. Minería de datos Agrupamiento Clasificación Reglas de asociación
  22. 22. Agrupamiento 1. Ir a Clustering 2. Seleccionar el alogirmo de agrupamiento 3. Start 4. Clic derecho sobre el resultado y seleccionar visualize cluster assigments
  23. 23. Pasos Interpretar los resultados Interpretación y evaluación Minería de datos Selección de atributos Generación de atributos Pre procesamiento Obtención y agrupamiento del Texto
  24. 24. Interpretar los resultados Interpretar (Agrupamiento) Evaluar los resultados (Clasificación, reglas de asociación). Sacar conclusiones o iterar sobre los pasos anteriores
  25. 25. Francisco Berrizbeitia Curso de Miinería de Datos Maestría en ciencias de la computación Universidad Simón Bolívar Noviembre 2013

×