SlideShare una empresa de Scribd logo
1 de 14
Descargar para leer sin conexión
1
2
NATURAL LANGUAGE PROCESSING: asociado a extraer información valiosa desde
texto y multimedia
TEXT ANALYTICS: técnicas para extraer valor desde texto no estructurado:; Ejemplos:
• Categorización de documentos
SENTIMENT ANALYSIS: determinar emoción de individuos; ejemplos:
• Según un conjunto de tweets, saber el voto a favor o en contra de un candidato
• Reacciones frente a un producto nuevo
EJEMPLOS
Stemming Stopwords para español (http://www.benkhalifa.com/tm-wordcloud-R-
english-spanish.html)
3
TEXT ANALYTICS
También lo denominan text mining; son todas aquellas técnicas que manipulan texto
para obtener información; normalmnte el texto se encuentra de forma no-
estructurada.
TÉRMiNOS CLAVE
• Token/Térm: es una sola palabra
• Document: conjunto de palabras de longitud arbitraria
• Corpus: Colección de multiples documentos
-----
• Bag of Words: el set de palabras que conforman un documento
• TermFrequency (TF): una representación donde cada término aparece conjunto a
su frecuencia en el documento
• InverseDocumento Frequency (IDF): medir los términos que están esparcidos en el
corpus: un termino muy común tendrá menos relevancia
4
COSINE DISTANCE
Qué pasaría si en un documento por ejemplo, copio y pego el texto 2 veces y creo un
nuevo documento con ese resultado?, pues con el bag of words, esto computa una
relevancia mayor a las palabras que más se repiten. En el caso de comparación entre
documentos, la idea es que esta repetición no reste importancia a otras palabras.
Ahora voy a pensar a cada palabra como si fuera una especie de vector y la voy a
comparar con la distancia de otra palabra para ver si son similares.
2 vectores con la misma orientación tiene similaridad de 1, dado que el coseno entre
ellos es 1. Si están perpendiculares, su coseno es 0.
La misma idea aplica para poder comparar 2 documentos. 2 de ellos similares estarán
a una distancia más cercana que aquellos que no se parecen.
5
6
7
8
9
DATA REDUCTION
Son técnicas que permiten reducir el conjunto de datos a analizar tratando de causar
la minima perdida de información.
FEATURE SELECTION
Se refiere a no trabajar con el conjunto de datos completo, sino seleccionar una serie
de ellos para trabajar. La idea es tener una heurística a medida que ellos se adicionan
o se quitan. (ej: forward selection: iniciar sin atributos e ir adicionando uno a uno de
ellos)
DIMENSIONALITY REDUCTION
• En el caso de PCA, lo que se hace es tartar de ajustar el conjunto de datos de
forma tal que queden una serie de variables que puedan explicar la varianza de las
muestras, disminuyendo al mínimo la pérdida de información y logrando una
represetnación de los datos iniciales pero con un conjunto de variables mas
pequeño.
• La técnica matemática para llevar a cabo este proceso se llama SVD
(SingularValueDecomposition).
• La idea general de SVD es usar el dataset original X y descomponerlo en 3 matrices
10
U,V,D. Las columnas de U son ortogonales (son vectores), y D es uan matriz con
valores en la diagonal. Esa matriz normalmente está ordenada de forma tal que
los primeros vectores entregan mayor información que los siguientes.
• La idea del PCA es normalizar valores de la matriz X; esto es, sacar media y
desviación estándar de cada columna y sacar los z-values. Con ellos aplicar SVD.
• Para correr el algoritmo y al usar reglas matemáticas, es recomendable no tener
“missing-values”. En esos caso se pueden “imputar” valores (ej: la media de la
columna), o usar los k-nearest-neighborhoods (k vecinos mas cercanos) para
hacerlo.
10
11
TECNICAS ADICIONALES
CLASSIFICATION RULES: es una forma de clasificar, habiendo previamente extraido las
reglas que permiten realizar la separación de elemento de la población.
NGRAMS: algunas veces las palabras solas no tienen sentido, sino que palabras
alrededor les pueden poner un sentido; la idea es crear una especied e palabra
“virtual” que es el conjunto de las palabras entre sí que le dan sentido
NAMED ENTITY EXTRACTION: se nombra a las técnicas de parsing para seleccionar
determinadas palabras de interés dentro del corpus. Ya se tiene previamente un
diccionario de entidades de interés o se sabe cómo reconocer su tipo (persona,
grupo, lugar, empresa, zip-code, hecho-determinado siguiendo un patrón, tipos de
sentimiento manejados). Posteriormente se usan algoritmos de clasificación para
procesar el documento con base en la aparición de estas entidades.
OUTLIER DETECTION:
Identificar aquellos dato que peuden rellar a ser significativamente diferentes del
resto. Pueden clasificarse en:
• Globales: bajo cualquier condición es siempre un outlier; por ejempli una
transacción de fraude.
• Contextuales: cuando el dato es outlieer para un dataset especifico pero no para
12
otro; por ejemplo la estatura de una persona promedio en un equipo de la NBA
puede verse como outlier
• Colectivos: cada elemento pasa desapercibido, pero en total son inconsistentes;
por ejemplo cuando hay varios depósitos de lavado de dinero de cantidades
inicialmente menores
Técnicas de outliers existen de diversos tipos :
• Paramétrica: Usan una distribución estadística como referencia y los datos
normalizados (z) más o menos de 3 desviaciones estándar son considerados
outliers
• No paramétrica: es apoyarse del rango intercuartil (IQR) para considerar como
outlier a los datos que no se encuentran en este rango.
• Clustering/Unsupervised: la idea es aplicar una técnica de clustering para agrupar
los datos que pertenencen a determinados grupos. Mediante un factor (CBLOF), se
descartan aquelos bastante alejados de cada grupo para considerarlos outliers
• Clasificación/Supervised: Una técnica de clasificación puede servir para verificar
cuáles son miembros de clada clase y descargar los que se quedan por fuera de
todo grupo como outlier.
12

Más contenido relacionado

La actualidad más candente (20)

Informe tecnico unidad 6
Informe tecnico unidad 6Informe tecnico unidad 6
Informe tecnico unidad 6
 
Milagro aponte-tarea3ppt
Milagro aponte-tarea3pptMilagro aponte-tarea3ppt
Milagro aponte-tarea3ppt
 
Mètodos de Ordenaciòn y bùsqueda
Mètodos de Ordenaciòn y bùsquedaMètodos de Ordenaciòn y bùsqueda
Mètodos de Ordenaciòn y bùsqueda
 
Estructura de datos power point
Estructura de datos power pointEstructura de datos power point
Estructura de datos power point
 
Busqueda
BusquedaBusqueda
Busqueda
 
Manual rcmdr
Manual rcmdrManual rcmdr
Manual rcmdr
 
Estructuras de datos i print
Estructuras de datos i printEstructuras de datos i print
Estructuras de datos i print
 
Busquedas binarias y secuenciales
Busquedas binarias y secuencialesBusquedas binarias y secuenciales
Busquedas binarias y secuenciales
 
Análisis estructurado
Análisis estructuradoAnálisis estructurado
Análisis estructurado
 
1.3 uso de tipos de datos abstractos
1.3 uso de tipos de datos abstractos1.3 uso de tipos de datos abstractos
1.3 uso de tipos de datos abstractos
 
Estructura de datos
Estructura de datosEstructura de datos
Estructura de datos
 
Estructura de datos
Estructura de datosEstructura de datos
Estructura de datos
 
Estructura de Datos
Estructura de DatosEstructura de Datos
Estructura de Datos
 
SPSS 4
SPSS 4SPSS 4
SPSS 4
 
Estructuras de datos fundamentales
Estructuras de datos  fundamentalesEstructuras de datos  fundamentales
Estructuras de datos fundamentales
 
Tipos de datos
Tipos de datosTipos de datos
Tipos de datos
 
Tipos de datos y variables
Tipos de datos y variablesTipos de datos y variables
Tipos de datos y variables
 
Abstracción de datos
Abstracción de datosAbstracción de datos
Abstracción de datos
 
Exposicion Busqueda
Exposicion BusquedaExposicion Busqueda
Exposicion Busqueda
 
Estructuras fundamentales
Estructuras fundamentalesEstructuras fundamentales
Estructuras fundamentales
 

Similar a BigData 101 / Cursillo (Parte4)

Acceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidorAcceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidorJomicast
 
analizis cuantitativo de datos
analizis cuantitativo de datosanalizis cuantitativo de datos
analizis cuantitativo de datosPonys Jsm
 
ESTRUCTURA DE DATOS Pilas y colas.pdf
ESTRUCTURA DE DATOS Pilas y colas.pdfESTRUCTURA DE DATOS Pilas y colas.pdf
ESTRUCTURA DE DATOS Pilas y colas.pdfKEVINDAVIDTOPONSALAZ
 
Minería de datos
Minería de datosMinería de datos
Minería de datosanag catal
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos SecuencialesMarilyn Jaramillo
 
Analisis de datos cuantitativos
Analisis de datos cuantitativosAnalisis de datos cuantitativos
Analisis de datos cuantitativosDila0887
 
Mineria de datos ensayo
Mineria de datos ensayoMineria de datos ensayo
Mineria de datos ensayocarimi
 
Análisis de datos
Análisis de datosAnálisis de datos
Análisis de datoscaceli
 
Campos daniel presentacion de base de datos
Campos daniel presentacion de base de datosCampos daniel presentacion de base de datos
Campos daniel presentacion de base de datosDaniel Campos
 
Optimización y diseño de base de datos relacionales
Optimización y diseño de base de datos relacionalesOptimización y diseño de base de datos relacionales
Optimización y diseño de base de datos relacionalesJunior Chiran
 
Estructura de datos y algoritmos
Estructura de datos y algoritmosEstructura de datos y algoritmos
Estructura de datos y algoritmosrenatodquintero
 
Modelo relacional
Modelo relacionalModelo relacional
Modelo relacionalSuarezJhon
 
Base de Datos. Modelo Relacional
Base de Datos. Modelo RelacionalBase de Datos. Modelo Relacional
Base de Datos. Modelo RelacionalHermes Sosa
 
Técnicas mineria de datos
Técnicas mineria de datosTécnicas mineria de datos
Técnicas mineria de datoslalopg
 
Analisis de la informacion
Analisis de la informacionAnalisis de la informacion
Analisis de la informacionKelly Cuervo
 

Similar a BigData 101 / Cursillo (Parte4) (20)

Acceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidorAcceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidor
 
analizis cuantitativo de datos
analizis cuantitativo de datosanalizis cuantitativo de datos
analizis cuantitativo de datos
 
ESTRUCTURA DE DATOS Pilas y colas.pdf
ESTRUCTURA DE DATOS Pilas y colas.pdfESTRUCTURA DE DATOS Pilas y colas.pdf
ESTRUCTURA DE DATOS Pilas y colas.pdf
 
Lectura unidad 9
Lectura unidad 9Lectura unidad 9
Lectura unidad 9
 
Clusters con r
Clusters con rClusters con r
Clusters con r
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Mineria De Datos Secuenciales
Mineria De Datos SecuencialesMineria De Datos Secuenciales
Mineria De Datos Secuenciales
 
J15 45 peset_fernanda
J15 45 peset_fernandaJ15 45 peset_fernanda
J15 45 peset_fernanda
 
Analisis de datos cuantitativos
Analisis de datos cuantitativosAnalisis de datos cuantitativos
Analisis de datos cuantitativos
 
Mineria de datos ensayo
Mineria de datos ensayoMineria de datos ensayo
Mineria de datos ensayo
 
Análisis de datos
Análisis de datosAnálisis de datos
Análisis de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Campos daniel presentacion de base de datos
Campos daniel presentacion de base de datosCampos daniel presentacion de base de datos
Campos daniel presentacion de base de datos
 
Bases de datos de informatica
Bases de datos de informaticaBases de datos de informatica
Bases de datos de informatica
 
Optimización y diseño de base de datos relacionales
Optimización y diseño de base de datos relacionalesOptimización y diseño de base de datos relacionales
Optimización y diseño de base de datos relacionales
 
Estructura de datos y algoritmos
Estructura de datos y algoritmosEstructura de datos y algoritmos
Estructura de datos y algoritmos
 
Modelo relacional
Modelo relacionalModelo relacional
Modelo relacional
 
Base de Datos. Modelo Relacional
Base de Datos. Modelo RelacionalBase de Datos. Modelo Relacional
Base de Datos. Modelo Relacional
 
Técnicas mineria de datos
Técnicas mineria de datosTécnicas mineria de datos
Técnicas mineria de datos
 
Analisis de la informacion
Analisis de la informacionAnalisis de la informacion
Analisis de la informacion
 

Más de andres hurtado

mintic_machinelearning101_coursera
mintic_machinelearning101_courseramintic_machinelearning101_coursera
mintic_machinelearning101_courseraandres hurtado
 
cia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aicia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aiandres hurtado
 
ComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoandres hurtado
 
BigData 101 / Cursillo (Parte5)
 BigData 101 / Cursillo (Parte5) BigData 101 / Cursillo (Parte5)
BigData 101 / Cursillo (Parte5)andres hurtado
 
BigData 101 / Cursillo (Parte3)
BigData 101 / Cursillo (Parte3)BigData 101 / Cursillo (Parte3)
BigData 101 / Cursillo (Parte3)andres hurtado
 
BigData 101 / Cursillo (Parte1)
BigData 101 / Cursillo (Parte1)BigData 101 / Cursillo (Parte1)
BigData 101 / Cursillo (Parte1)andres hurtado
 
BigData 101 / Cursillo (Parte0)
BigData 101 / Cursillo (Parte0)BigData 101 / Cursillo (Parte0)
BigData 101 / Cursillo (Parte0)andres hurtado
 
Enterprise Architect SparxSystems
Enterprise Architect SparxSystemsEnterprise Architect SparxSystems
Enterprise Architect SparxSystemsandres hurtado
 
ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)andres hurtado
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introductionandres hurtado
 
Personal Software Process / Sesion 06
Personal Software Process / Sesion 06Personal Software Process / Sesion 06
Personal Software Process / Sesion 06andres hurtado
 
Personal Software Process / Sesion 05
Personal Software Process / Sesion 05Personal Software Process / Sesion 05
Personal Software Process / Sesion 05andres hurtado
 
Personal Software Process / Sesion 04
Personal Software Process / Sesion 04Personal Software Process / Sesion 04
Personal Software Process / Sesion 04andres hurtado
 
Personal Software Process / Sesion 02
Personal Software Process / Sesion 02Personal Software Process / Sesion 02
Personal Software Process / Sesion 02andres hurtado
 
Personal Software Process / Sesion 01
Personal Software Process / Sesion 01Personal Software Process / Sesion 01
Personal Software Process / Sesion 01andres hurtado
 
Personal Software Process / Agenda
Personal Software Process / AgendaPersonal Software Process / Agenda
Personal Software Process / Agendaandres hurtado
 

Más de andres hurtado (20)

mintic_machinelearning101_coursera
mintic_machinelearning101_courseramintic_machinelearning101_coursera
mintic_machinelearning101_coursera
 
cia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware aicia2 charla arquitecturadesoftware ai
cia2 charla arquitecturadesoftware ai
 
estimacion
estimacionestimacion
estimacion
 
ComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologicoComputacionParaTodos / SocioTecnologico
ComputacionParaTodos / SocioTecnologico
 
Docker 101
Docker 101Docker 101
Docker 101
 
DevOps 101
DevOps 101DevOps 101
DevOps 101
 
Git 101
Git 101Git 101
Git 101
 
BigData 101 / Cursillo (Parte5)
 BigData 101 / Cursillo (Parte5) BigData 101 / Cursillo (Parte5)
BigData 101 / Cursillo (Parte5)
 
BigData 101 / Cursillo (Parte3)
BigData 101 / Cursillo (Parte3)BigData 101 / Cursillo (Parte3)
BigData 101 / Cursillo (Parte3)
 
BigData 101 / Cursillo (Parte1)
BigData 101 / Cursillo (Parte1)BigData 101 / Cursillo (Parte1)
BigData 101 / Cursillo (Parte1)
 
BigData 101 / Cursillo (Parte0)
BigData 101 / Cursillo (Parte0)BigData 101 / Cursillo (Parte0)
BigData 101 / Cursillo (Parte0)
 
Enterprise Architect SparxSystems
Enterprise Architect SparxSystemsEnterprise Architect SparxSystems
Enterprise Architect SparxSystems
 
ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)ITIL Workshop (2 horas introductorias)
ITIL Workshop (2 horas introductorias)
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introduction
 
Personal Software Process / Sesion 06
Personal Software Process / Sesion 06Personal Software Process / Sesion 06
Personal Software Process / Sesion 06
 
Personal Software Process / Sesion 05
Personal Software Process / Sesion 05Personal Software Process / Sesion 05
Personal Software Process / Sesion 05
 
Personal Software Process / Sesion 04
Personal Software Process / Sesion 04Personal Software Process / Sesion 04
Personal Software Process / Sesion 04
 
Personal Software Process / Sesion 02
Personal Software Process / Sesion 02Personal Software Process / Sesion 02
Personal Software Process / Sesion 02
 
Personal Software Process / Sesion 01
Personal Software Process / Sesion 01Personal Software Process / Sesion 01
Personal Software Process / Sesion 01
 
Personal Software Process / Agenda
Personal Software Process / AgendaPersonal Software Process / Agenda
Personal Software Process / Agenda
 

Último

pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 

Último (13)

pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 

BigData 101 / Cursillo (Parte4)

  • 1. 1
  • 2. 2
  • 3. NATURAL LANGUAGE PROCESSING: asociado a extraer información valiosa desde texto y multimedia TEXT ANALYTICS: técnicas para extraer valor desde texto no estructurado:; Ejemplos: • Categorización de documentos SENTIMENT ANALYSIS: determinar emoción de individuos; ejemplos: • Según un conjunto de tweets, saber el voto a favor o en contra de un candidato • Reacciones frente a un producto nuevo EJEMPLOS Stemming Stopwords para español (http://www.benkhalifa.com/tm-wordcloud-R- english-spanish.html) 3
  • 4. TEXT ANALYTICS También lo denominan text mining; son todas aquellas técnicas que manipulan texto para obtener información; normalmnte el texto se encuentra de forma no- estructurada. TÉRMiNOS CLAVE • Token/Térm: es una sola palabra • Document: conjunto de palabras de longitud arbitraria • Corpus: Colección de multiples documentos ----- • Bag of Words: el set de palabras que conforman un documento • TermFrequency (TF): una representación donde cada término aparece conjunto a su frecuencia en el documento • InverseDocumento Frequency (IDF): medir los términos que están esparcidos en el corpus: un termino muy común tendrá menos relevancia 4
  • 5. COSINE DISTANCE Qué pasaría si en un documento por ejemplo, copio y pego el texto 2 veces y creo un nuevo documento con ese resultado?, pues con el bag of words, esto computa una relevancia mayor a las palabras que más se repiten. En el caso de comparación entre documentos, la idea es que esta repetición no reste importancia a otras palabras. Ahora voy a pensar a cada palabra como si fuera una especie de vector y la voy a comparar con la distancia de otra palabra para ver si son similares. 2 vectores con la misma orientación tiene similaridad de 1, dado que el coseno entre ellos es 1. Si están perpendiculares, su coseno es 0. La misma idea aplica para poder comparar 2 documentos. 2 de ellos similares estarán a una distancia más cercana que aquellos que no se parecen. 5
  • 6. 6
  • 7. 7
  • 8. 8
  • 9. 9
  • 10. DATA REDUCTION Son técnicas que permiten reducir el conjunto de datos a analizar tratando de causar la minima perdida de información. FEATURE SELECTION Se refiere a no trabajar con el conjunto de datos completo, sino seleccionar una serie de ellos para trabajar. La idea es tener una heurística a medida que ellos se adicionan o se quitan. (ej: forward selection: iniciar sin atributos e ir adicionando uno a uno de ellos) DIMENSIONALITY REDUCTION • En el caso de PCA, lo que se hace es tartar de ajustar el conjunto de datos de forma tal que queden una serie de variables que puedan explicar la varianza de las muestras, disminuyendo al mínimo la pérdida de información y logrando una represetnación de los datos iniciales pero con un conjunto de variables mas pequeño. • La técnica matemática para llevar a cabo este proceso se llama SVD (SingularValueDecomposition). • La idea general de SVD es usar el dataset original X y descomponerlo en 3 matrices 10
  • 11. U,V,D. Las columnas de U son ortogonales (son vectores), y D es uan matriz con valores en la diagonal. Esa matriz normalmente está ordenada de forma tal que los primeros vectores entregan mayor información que los siguientes. • La idea del PCA es normalizar valores de la matriz X; esto es, sacar media y desviación estándar de cada columna y sacar los z-values. Con ellos aplicar SVD. • Para correr el algoritmo y al usar reglas matemáticas, es recomendable no tener “missing-values”. En esos caso se pueden “imputar” valores (ej: la media de la columna), o usar los k-nearest-neighborhoods (k vecinos mas cercanos) para hacerlo. 10
  • 12. 11
  • 13. TECNICAS ADICIONALES CLASSIFICATION RULES: es una forma de clasificar, habiendo previamente extraido las reglas que permiten realizar la separación de elemento de la población. NGRAMS: algunas veces las palabras solas no tienen sentido, sino que palabras alrededor les pueden poner un sentido; la idea es crear una especied e palabra “virtual” que es el conjunto de las palabras entre sí que le dan sentido NAMED ENTITY EXTRACTION: se nombra a las técnicas de parsing para seleccionar determinadas palabras de interés dentro del corpus. Ya se tiene previamente un diccionario de entidades de interés o se sabe cómo reconocer su tipo (persona, grupo, lugar, empresa, zip-code, hecho-determinado siguiendo un patrón, tipos de sentimiento manejados). Posteriormente se usan algoritmos de clasificación para procesar el documento con base en la aparición de estas entidades. OUTLIER DETECTION: Identificar aquellos dato que peuden rellar a ser significativamente diferentes del resto. Pueden clasificarse en: • Globales: bajo cualquier condición es siempre un outlier; por ejempli una transacción de fraude. • Contextuales: cuando el dato es outlieer para un dataset especifico pero no para 12
  • 14. otro; por ejemplo la estatura de una persona promedio en un equipo de la NBA puede verse como outlier • Colectivos: cada elemento pasa desapercibido, pero en total son inconsistentes; por ejemplo cuando hay varios depósitos de lavado de dinero de cantidades inicialmente menores Técnicas de outliers existen de diversos tipos : • Paramétrica: Usan una distribución estadística como referencia y los datos normalizados (z) más o menos de 3 desviaciones estándar son considerados outliers • No paramétrica: es apoyarse del rango intercuartil (IQR) para considerar como outlier a los datos que no se encuentran en este rango. • Clustering/Unsupervised: la idea es aplicar una técnica de clustering para agrupar los datos que pertenencen a determinados grupos. Mediante un factor (CBLOF), se descartan aquelos bastante alejados de cada grupo para considerarlos outliers • Clasificación/Supervised: Una técnica de clasificación puede servir para verificar cuáles son miembros de clada clase y descargar los que se quedan por fuera de todo grupo como outlier. 12