BigData 101 / Cursillo (Parte4)

NATURAL LANGUAGE PROCESSING: asociado a extraer información valiosa desde
texto y multimedia
TEXT ANALYTICS: técnicas para extraer valor desde texto no estructurado:; Ejemplos:
• Categorización de documentos
SENTIMENT ANALYSIS: determinar emoción de individuos; ejemplos:
• Según un conjunto de tweets, saber el voto a favor o en contra de un candidato
• Reacciones frente a un producto nuevo
EJEMPLOS
Stemming Stopwords para español (http://www.benkhalifa.com/tm-wordcloud-R-
english-spanish.html)
3

TEXT ANALYTICS
También lo denominan text mining; son todas aquellas técnicas que manipulan texto
para obtener información; normalmnte el texto se encuentra de forma no-
estructurada.
TÉRMiNOS CLAVE
• Token/Térm: es una sola palabra
• Document: conjunto de palabras de longitud arbitraria
• Corpus: Colección de multiples documentos
-----
• Bag of Words: el set de palabras que conforman un documento
• TermFrequency (TF): una representación donde cada término aparece conjunto a
su frecuencia en el documento
• InverseDocumento Frequency (IDF): medir los términos que están esparcidos en el
corpus: un termino muy común tendrá menos relevancia
4

COSINE DISTANCE
Qué pasaría si en un documento por ejemplo, copio y pego el texto 2 veces y creo un
nuevo documento con ese resultado?, pues con el bag of words, esto computa una
relevancia mayor a las palabras que más se repiten. En el caso de comparación entre
documentos, la idea es que esta repetición no reste importancia a otras palabras.
Ahora voy a pensar a cada palabra como si fuera una especie de vector y la voy a
comparar con la distancia de otra palabra para ver si son similares.
2 vectores con la misma orientación tiene similaridad de 1, dado que el coseno entre
ellos es 1. Si están perpendiculares, su coseno es 0.
La misma idea aplica para poder comparar 2 documentos. 2 de ellos similares estarán
a una distancia más cercana que aquellos que no se parecen.
5

DATA REDUCTION
Son técnicas que permiten reducir el conjunto de datos a analizar tratando de causar
la minima perdida de información.
FEATURE SELECTION
Se refiere a no trabajar con el conjunto de datos completo, sino seleccionar una serie
de ellos para trabajar. La idea es tener una heurística a medida que ellos se adicionan
o se quitan. (ej: forward selection: iniciar sin atributos e ir adicionando uno a uno de
ellos)
DIMENSIONALITY REDUCTION
• En el caso de PCA, lo que se hace es tartar de ajustar el conjunto de datos de
forma tal que queden una serie de variables que puedan explicar la varianza de las
muestras, disminuyendo al mínimo la pérdida de información y logrando una
represetnación de los datos iniciales pero con un conjunto de variables mas
pequeño.
• La técnica matemática para llevar a cabo este proceso se llama SVD
(SingularValueDecomposition).
• La idea general de SVD es usar el dataset original X y descomponerlo en 3 matrices
10

U,V,D. Las columnas de U son ortogonales (son vectores), y D es uan matriz con
valores en la diagonal. Esa matriz normalmente está ordenada de forma tal que
los primeros vectores entregan mayor información que los siguientes.
• La idea del PCA es normalizar valores de la matriz X; esto es, sacar media y
desviación estándar de cada columna y sacar los z-values. Con ellos aplicar SVD.
• Para correr el algoritmo y al usar reglas matemáticas, es recomendable no tener
“missing-values”. En esos caso se pueden “imputar” valores (ej: la media de la
columna), o usar los k-nearest-neighborhoods (k vecinos mas cercanos) para
hacerlo.
10

TECNICAS ADICIONALES
CLASSIFICATION RULES: es una forma de clasificar, habiendo previamente extraido las
reglas que permiten realizar la separación de elemento de la población.
NGRAMS: algunas veces las palabras solas no tienen sentido, sino que palabras
alrededor les pueden poner un sentido; la idea es crear una especied e palabra
“virtual” que es el conjunto de las palabras entre sí que le dan sentido
NAMED ENTITY EXTRACTION: se nombra a las técnicas de parsing para seleccionar
determinadas palabras de interés dentro del corpus. Ya se tiene previamente un
diccionario de entidades de interés o se sabe cómo reconocer su tipo (persona,
grupo, lugar, empresa, zip-code, hecho-determinado siguiendo un patrón, tipos de
sentimiento manejados). Posteriormente se usan algoritmos de clasificación para
procesar el documento con base en la aparición de estas entidades.
OUTLIER DETECTION:
Identificar aquellos dato que peuden rellar a ser significativamente diferentes del
resto. Pueden clasificarse en:
• Globales: bajo cualquier condición es siempre un outlier; por ejempli una
transacción de fraude.
• Contextuales: cuando el dato es outlieer para un dataset especifico pero no para
12

otro; por ejemplo la estatura de una persona promedio en un equipo de la NBA
puede verse como outlier
• Colectivos: cada elemento pasa desapercibido, pero en total son inconsistentes;
por ejemplo cuando hay varios depósitos de lavado de dinero de cantidades
inicialmente menores
Técnicas de outliers existen de diversos tipos :
• Paramétrica: Usan una distribución estadística como referencia y los datos
normalizados (z) más o menos de 3 desviaciones estándar son considerados
outliers
• No paramétrica: es apoyarse del rango intercuartil (IQR) para considerar como
outlier a los datos que no se encuentran en este rango.
• Clustering/Unsupervised: la idea es aplicar una técnica de clustering para agrupar
los datos que pertenencen a determinados grupos. Mediante un factor (CBLOF), se
descartan aquelos bastante alejados de cada grupo para considerarlos outliers
• Clasificación/Supervised: Una técnica de clasificación puede servir para verificar
cuáles son miembros de clada clase y descargar los que se quedan por fuera de
todo grupo como outlier.
12

BigData 101 / Cursillo (Parte4)

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a BigData 101 / Cursillo (Parte4)

Similar a BigData 101 / Cursillo (Parte4) (20)

Más de andres hurtado

Más de andres hurtado (20)

Último

Último (13)

BigData 101 / Cursillo (Parte4)