Evaluación de diferentes estrategias de muestreo para tratar
el problema de la construcción del diccionario para un
clasif...
Queremos encontrar una manera automática de
clasificar Tuits
Machine Learning: Clasificadores automáticos
Agenda
• Bag Of Words
• El problema de la selección de atributos o generación del
diccionario
• Preprocesamiento:
– Elimin...
Bag of Words
El tratamiento de tuits en un contexto de
clasificación se realiza utilizando la técnica de
«Bag Of Words»
Bag of words
Selección de atributos
Uno de los problemas al trabajar con esta técnica es el que el
número de dimensiones puede llegar a...
Construcción del diccionario
Para atacar este problema primeros se eliminar las palabras
muy comunes que no aportaran ning...
Construcción del diccionario
Un segundo paso consiste el eliminar las terminaciones
(Stemming) tratando de encontrar las r...
Planteamiento del problema
Queremos responder las siguientes preguntas:
• ¿Cuántos tuits necesito para construir un diccio...
Método Utilizado
Para obtener el número
de tuits que requerimos
para el diccionario,
diseñamos e
implementamos el
siguient...
Método Utilizado
Una vez obtenido el número de tuits utilizando el algoritmo
anterior , generamos un diccionario utilizand...
Descripción de los datos
• Se recuperaron 6793 tuits, en idioma ingles, creados entre
el 18 y el 20 de Noviembre sobre los...
Descripción de los datos
• Sobre este conjunto de datos se realizo un MAS de 3000
elementos para asegurar la aleatoriedad ...
Resultados
Se corrió el algoritmo cuatro veces variando los parámetros
de ganancia de información y el umbral de parada.
5...
Resultados
Se genero un diccionario realizando un MAS de 234 tuits
sobre la población y se cuantifico la cobertura en 5 mu...
Resultados
Se genero otro diccionario realizando un muestreo
estratificado por temas de 234 tuits sobre la población y se
...
Resultados
Ambos diccionarios de comportan de manera muy similar
Resultados
La tasa de cobertura es ligeramente mejor para el diccionario
generado a través de un MAS
Conclusiones
• Al parecer es posible construir un diccionario con una
cobertura superior al 95% con unos 240 tuits generan...
Gracias
Francisco Berrizbeitia
Noviembre 2014
Próxima SlideShare
Cargando en…5
×

Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits

431 visualizaciones

Publicado el

Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits

Publicado en: Ciencias
0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
431
En SlideShare
0
De insertados
0
Número de insertados
19
Acciones
Compartido
0
Descargas
2
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción de un diccionario para un clasificador Naïve Bayes de tuits

  1. 1. Evaluación de diferentes estrategias de muestreo para tratar el problema de la construcción del diccionario para un clasificador Naïves Bayes de tuits. Francisco Berrizbeitia Noviembre 2014
  2. 2. Queremos encontrar una manera automática de clasificar Tuits Machine Learning: Clasificadores automáticos
  3. 3. Agenda • Bag Of Words • El problema de la selección de atributos o generación del diccionario • Preprocesamiento: – Eliminación de ruido – Eliminación de terminaciones • Descripción de los datos • Descripción de método propuesto • Resultados • Observaciones • Conclusiones
  4. 4. Bag of Words El tratamiento de tuits en un contexto de clasificación se realiza utilizando la técnica de «Bag Of Words»
  5. 5. Bag of words
  6. 6. Selección de atributos Uno de los problemas al trabajar con esta técnica es el que el número de dimensiones puede llegar a ser demasiado grande. Quisiéramos construir un diccionario con el menor número de palabras posibles que nos permita tener una cobertura de al menos 2 palabras para cada tuit
  7. 7. Construcción del diccionario Para atacar este problema primeros se eliminar las palabras muy comunes que no aportaran ningún valor discriminatorio (Stopwords). Obama administration would back sanctions against Venezuela: official - Reuters http:t.cor1diiCGDhn obama administration back sanctions venezuela official
  8. 8. Construcción del diccionario Un segundo paso consiste el eliminar las terminaciones (Stemming) tratando de encontrar las raíces de las palabras. Obama administration would back sanctions against Venezuela: official - Reuters http:t.cor1diiCGDhn obama administration back sanctions venezuela official obama administr back sanction venezuela offici Existen varia técnicas para hacer esto, nosotros utilizamos el algoritmo de Porter
  9. 9. Planteamiento del problema Queremos responder las siguientes preguntas: • ¿Cuántos tuits necesito para construir un diccionario que me garantice una buena cobertura? • ¿La calidad del diccionario en términos de cobertura variará si el conjunto de tuits para crear el diccionario se toma utilizando MAS o Estratificando por temas?
  10. 10. Método Utilizado Para obtener el número de tuits que requerimos para el diccionario, diseñamos e implementamos el siguiente algoritmo.
  11. 11. Método Utilizado Una vez obtenido el número de tuits utilizando el algoritmo anterior , generamos un diccionario utilizando MAS y uno realizando muestreo estratificado por temas. Para medir la calidad del diccionario se obtuvieron varias muestras de 100 mensajes (Utilizando MAS) y se cuantifico la cobertura sobre la muestra.
  12. 12. Descripción de los datos • Se recuperaron 6793 tuits, en idioma ingles, creados entre el 18 y el 20 de Noviembre sobre los siguientes temas • Obama: 1000 • ukraine: 681 • ISIS: 547 • New York: 1080 • Siria: 119 • FARC: 102 • Venezuela: 450 • London: 862 • gunman: 627 • ferguson: 754 • amnesty: 571
  13. 13. Descripción de los datos • Sobre este conjunto de datos se realizo un MAS de 3000 elementos para asegurar la aleatoriedad de la población • A los mensajes de esta nueva población se le aplicaron los procesos de reducción de ruido y stemming. • Todos los experimentos se hicieron sobre los mensajes sin Stop Words y Stemmed
  14. 14. Resultados Se corrió el algoritmo cuatro veces variando los parámetros de ganancia de información y el umbral de parada. 5 tuits seguidos aportaron menos de 2 palabras nuevas al diccionario
  15. 15. Resultados Se genero un diccionario realizando un MAS de 234 tuits sobre la población y se cuantifico la cobertura en 5 muestras independientes de la misma población.
  16. 16. Resultados Se genero otro diccionario realizando un muestreo estratificado por temas de 234 tuits sobre la población y se cuantifico la cobertura en 5 muestras independientes de la misma población. La cantidad de tuits a tomar por estrato se calculo de la siguiente manera: 1. Se calculo un peso para cada estrato dentro de la población dividiendo el número de tuits en el tema entre el total poblacional 2. La cantidad de tuits por estrato es el tamaño de la muetra por el peso del estrato.
  17. 17. Resultados Ambos diccionarios de comportan de manera muy similar
  18. 18. Resultados La tasa de cobertura es ligeramente mejor para el diccionario generado a través de un MAS
  19. 19. Conclusiones • Al parecer es posible construir un diccionario con una cobertura superior al 95% con unos 240 tuits generando un diccionario de cerca de 1100 entradas. • Estratificar por temas no aporta ninguna ganancia en la construcción del diccionario.
  20. 20. Gracias Francisco Berrizbeitia Noviembre 2014

×