Francisco Berrizbeitia
Curso de Miinería de Datos
Maestría en ciencias de la computación
Universidad Simón Bolívar
Noviembre 2013
¿Por qué ?
Hay una enorme cantidad
de información en texto.
Aparte de los libros,
periódicos y enciclopedias
en Internet se generan
enormes cantidades de
información textual.
Pasos

Interpretación y
evaluación

Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto
Pasos

Obtención y
agrupamiento del
Texto
Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto
Obtención de los datos
Los textos se encuentran en documentos
dispersos como páginas web, informes,
actualizaciones de estatus, etc.

El primer paso consisten en la obtención
de estos datos y su agrupamiento para
comenzar a trabajar
Pasos

Pre
Procesamiento
Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto
Pre procesamiento

Eliminación de ruido
•
•
•
•
•
•
•
•

Texto deliberadamente equivocado SPAM
Textos ambiguos
Texto erróneo
Palabras que no tienen poder discriminatorio
(STOP WORDS)
Ruido en el formato (tags, links)
Multiplicidad de idiomas
Sinónimos, palabras con varios significados
Frases típicas
Pre procesamiento
Pre procesamiento
Pre procesamiento
Convertir el documento en un vector de
palabras. “Tokenization”
Pre procesamiento

1. Se puede importar los
datos en CVS
2. Hay que eliminar los
caracteres: ,;:”’%()
3. Aplicar primero el filtro
NominalToString.
4. Aplicar el filtro
StringToWordVector
Pasos

Generación de
atributos

Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto
Generación de atributos

Representación del texto
“Bag of Words”
Generación de atributos
Generación de atributos
Dimensionalidad
Pasos

Selección de
atributos

Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto
Generación de atributos

Selección de atributos
¿Cuáles palabras tienen
la mejor capacidad
discriminatoria?

Se puede usar un
clasificador
Generación de atributos

Latent Semantic Analysis
Es una teoría y un método
para extraer y representar
el significado de las
palabras dentro de un
contexto utilizando técnicas
estadísticas sobre un
cuerpo de texto grande.

http://lsa.colorado.edu/whatis.html
Generación de atributos

1. Ir a Select Atributes
2. Seleccionar Latent
Semantic analisys
3. Start
4. Guardar el nuevo data
set
Pasos

Minería de datos

Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto
Minería de datos

Agrupamiento
Clasificación
Reglas de asociación
Agrupamiento

1. Ir a Clustering
2. Seleccionar el alogirmo
de agrupamiento
3. Start
4. Clic derecho sobre el
resultado y seleccionar
visualize cluster
assigments
Pasos

Interpretar los
resultados

Interpretación y
evaluación
Minería de
datos
Selección de
atributos
Generación de
atributos
Pre
procesamiento
Obtención y
agrupamiento
del Texto
Interpretar los resultados

Interpretar (Agrupamiento)
Evaluar los resultados
(Clasificación, reglas de asociación).

Sacar conclusiones o iterar sobre
los pasos anteriores
Francisco Berrizbeitia
Curso de Miinería de Datos
Maestría en ciencias de la computación
Universidad Simón Bolívar
Noviembre 2013

Text mining