1. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
CURSO
BIG DATA
MANUEL M. DE LA HOZ D.
RAFAEL ALONSO ALVARADO
2. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA
A. Marco-Teórico - Qué es la Big
Data y la ciencia de los datos
3. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
Definición:
En términos generales podríamos referirnos como a la
tendencia en el avance de la tecnología que ha abierto las
puertas hacia un nuevo enfoque de entendimiento y toma de
decisiones, la cual es utilizada para describir enormes
cantidades de datos (estructurados, no estructurados y semi
estructurados) que tomaría demasiado tiempo y sería muy
costoso cargarlos a un base de datos relacional para su
análisis.
Sin embargo, Big Data no se refiere a alguna cantidad en
específico, ya que es usualmente utilizado cuando se habla en
términos de petabytes (1015) y exabytes (1018) de datos.
4. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
Características Principales:
Además del gran volumen de información, esta existe en una
gran variedad de datos que pueden ser representados de
diversas maneras en todo el mundo, por ejemplo de
dispositivos móviles, audio, video, sistemas GPS, incontables
sensores digitales en equipos industriales, automóviles,
medidores eléctricos, veletas, anemómetros, etc., los cuales
pueden medir y comunicar el posicionamiento, movimiento,
vibración, temperatura, humedad y hasta los cambios
químicos que sufre el aire, de tal forma que las aplicaciones
que analizan estos datos requieren que la velocidad de
respuesta sea lo demasiado rápida para lograr obtener la
información correcta en el momento preciso.
5. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
¿De dónde proviene toda esa información?
De acuerdo con un estudio realizado por Cisco[1], entre el
2011 y el 2016 la cantidad de tráfico de datos móviles crecerá
a una tasa anual de 78%, así como el número de dispositivos
móviles conectados a Internet excederá el número de
habitantes en el planeta. Las naciones unidas proyectan que
la población mundial alcanzará los 7.5 billones para el 2016
de tal modo que habrá cerca de 18.9 billones de dispositivos
conectados a la red a escala mundial, esto conllevaría a que
el tráfico global de datos móviles alcance 10.8 Exabytes
mensuales o 130 Exabytes anuales. Este volumen de tráfico
previsto para 2016 equivale a 33 billones de DVDs anuales o
813 cuatrillones de mensajes de texto.
6. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
¿De dónde proviene toda esa información?
No solamente de los seres, existe también la comunicación
denominada máquina a máquina (M2M machine-to-machine)
cuyo valor en la creación de grandes cantidades de datos
también es muy importante. Sensores digitales instalados en
contenedores para determinar la ruta generada durante una
entrega de algún paquete y que esta información sea enviada
a las compañías de transporte, sensores en medidores
eléctricos para determinar el consumo de energía a intervalos
regulares para que sea enviada esta información a las
compañías del sector energético. Se estima que hay más de
30 millones de sensores interconectados en distintos sectores
como automotriz, transporte, industrial, servicios, comercial,
etc. y se espera que este número crezca en un 30%
anualmente.
7. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
¿Qué tipos de datos debo explorar?
Figura 1. Tipos de datos de Big Data[2]
8. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
NoSQL: Bases de Datos no estructuradas
“not only SQL” – Es una categoría general de sistemas de
gestión de bases de datos que difiere de los RDBMS en
diferentes modos.
- No tienen eschemas, no permiten JOINs, no intentan
garantizar ACID y escalan horizontalmente.
- Tanto las bases de datos NoSQL como las relacionales son
tipos de Almacenamiento Estructurado
9. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
MapReduce
- Framework (modelo de programación) utilizado por
Google para dar soporte a la computación paralela sobre
grandes
colecciones
de
datos
en
grupos
de
computadoras y al commodity computing.
- El nombre del framework está inspirado en los nombres
de dos importantes métodos, macros o funciones en
programación funcional: Map y Reduce.
- Adoptado mundialmente como una implementación
opensouce denominada Hadoop, su desarrollo fue
liderado inicialmente por Yahoo y actualmente lo realiza
el proyecto Apache.
10. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
PLN – Procesamiento de Lenguaje Natural
- Subdisciplina de la inteligencia artificial y la rama
ingeniería de la lingüística computacional.
- Se ocupa de la formulación e investigación de
mecanismos eficaces computacionalmente para la
comunicación entre personas o entre personas y
máquinas por medio de lenguajes naturales.
- No trata de la comunicación por medio de lenguajes
naturales de una forma abstracta, sino de diseñar
mecanismos para comunicarse que sean eficaces
computacionalmente —que se puedan realizar por medio
de programas que ejecuten o simulen la comunicación—.
11. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
PLN – Procesamiento de Lenguaje Natural
- Los modelos aplicados se enfocan no sólo a la
comprensión del lenguaje de por sí, sino a aspectos
generales cognitivos humanos y a la organización de la
memoria. El lenguaje natural sirve sólo de medio para
estudiar estos fenómenos.
Componentes:
- Análisis morfológico.
- Análisis sintáctico.
- Análisis semántico.
- Análisis pragmático.
- Planificación y Generación de la frase.
12. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
Estadística
- Los modelos aplicados se enfocan no sólo a la
comprensión del lenguaje de por sí, sino a aspectos
generales cognitivos humanos y a la organización de la
memoria. El lenguaje natural sirve sólo de medio para
estudiar estos fenómenos.
Componentes:
- Análisis morfológico.
- Análisis sintáctico.
- Análisis semántico.
- Análisis pragmático.
- Planificación y Generación de la frase.
13. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos
Machine Learning
- Cualquier campo que necesita para interpretar y actuar
sobre los datos puede beneficiarse de las técnicas de
aprendizaje del ML.
- El aprendizaje automático se encuentra en la
intersección de las ciencias de la computación, ingeniería
y estadísticas y suele aparecer en otras disciplinas. Es
una herramienta que se puede aplicar a muchos
problemas.
- Utiliza diversos algoritmos como Python -
14. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
B. PROBLEMA A RESOLVER
Se propone reducir la pérdida de tiempo que significa
actualmente la búsqueda y consulta de jurisprudencias
en el campo del derecho penal, a través de un
algoritmo que clasifique dichos documentos de acuerdo
con la estructura del código penal colombiano
15. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
PROBLEMA A RESOLVER
Jurisprudencias
sin clasificar
Algoritmo
de
clasificación
Jurisprudencias
clasificadas
Consulta de
información
clasificada
16. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
¿CÓMO SE VA A LOGRAR?
Archivos BD
Aparato Judicial
•
Tokenizador: separa palabras
•
Divisor de oraciones
•
Verificador gramatical
•
Lematizador: entrega las palabras
en su forma original y coloca
etiquetas
•
Preprocesamiento y
generación de
archivos planos
Reconocimiento de nombres
Herramientas PLN
Patrones
lingüísticos
Extracción de
conceptos
compuestos y
simples
17. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
FUENTES DE INFORMACIÓN
Jurisprudencia de Sala Penal de la Corte
Jurisprudencia de Sala Civil de la Corte
Tribunales
Decretos
Circulares
Resoluciones
18. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
CRITERIOS PARA CLASIFICACIÓN
Tipos penales (delitos)
Verbos rectores
Agravantes
Calificantes
Legislación
Fecha de actualización de las BD fuente
19. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
ESTRUCTURA DEL CÓDIGO PENAL
COLOMBIANO
De carácter General
Título 5
Título 4
Título 3
Título 2
Título 1
Capitulo 1
Capitulo 1
Capitulo 1
Capitulo 1
Capitulo 1
Capitulo 2
Capitulo 2
Capitulo 3
Capitulo 3
Capitulo 4
Capitulo 4
Capitulo 5
Capitulo 5
Capitulo 6
Capitulo 7
Capitulo 2
LIBRO PRIMERO
Título 6
Capitulo 1
20. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
ESTRUCTURA DEL CÓDIGO PENAL
COLOMBIANO
De Carácter Especial
Título 13
Título 12
Título 11
Título 10
Título 9
Título 8
Título 7
Título 6
Título 5
Título 4
Título 3
Título 2
Título 1
Capitulo 1
Capitulo 1
Capitulo 1
Capitulo 1
Capitulo 1
Capitulo 1
Capitulo 1
Capitulo 1
Capitulo 1
Capitulo 1
Capitulo 1
Capitulo 1
Capitulo 1
Capitulo 2
Capitulo 2
Capitulo 2
Capitulo 2
Capitulo 2
Capitulo 2
Capitulo 2
Capitulo 2
Capitulo 2
Capitulo 2
Capitulo 3
Capitulo 3
Capitulo 3
Capitulo 3
Capitulo 3
Capitulo 3
Capitulo 3
Capitulo 3
Capitulo 3
Capitulo 4
Capitulo 4
Capitulo 4
Capitulo 4
Capitulo 4
Capitulo 4
Capitulo 4
Capitulo 5
Capitulo 5
Capitulo 5
Capitulo 5
Capitulo 5
Capitulo 6
Capitulo 6
Capitulo 6
Capitulo 6
Capitulo 7
Capitulo 7
Capitulo 8
Capitulo 7
Capitulo 8
Capitulo 9
Capitulo 10
Capitulo 2
LIBRO SEGUNDO
Título 14
Capitulo 1
27. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
MODELO A UTILIZAR
La clasificación en general, se puede se puede formalizar como la
tarea de aproximar una función objetivo desconocida Ф, que
describe cómo deben ser clasificados los documentos de acuerdo
con un experto
El Clasificador: Ф´:D × C →{V, F}
Donde: C = { c1, c2, …, c|c| } ; conjunto de clases posibles
D = { d1, d2, …, dj } ; conjunto de documentos
Si Φ´:dj × ci →V : entonces dj es llamado un ejemplo positivo de ci
Si Φ´:dj × ci →F : entonces dj es llamado un ejemplo negativo de ci
Dependiendo de la aplicación un dj pude pertenecer a más de un ci
28. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
MODELO A UTILIZAR
Un clasificador de textos para ci se genera automáticamente mediante un
proceso inductivo (aprendiz), el cual a partir de documentos clasificados en ci o ci
obtiene las características que debe tener un documento nuevo para pertenecer
a ci
29. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
SUPUESTOS PARA REPRESENTACIÓN DE UN
DOCUMENTO
• Ignorar la estructura del texto, no se intenta comprender
completamente el documento
• Se asume que los términos indexados son mutuamente
excluyentes:
unas
palabras
no
incrementan
la
probabilidad de aparición de otros en el texto (por
simplicidad)
• El texto se trata como una bolsa de palabras, no hay
orden entre ellas (por eficiencia)
• Omitir palabras frecuentes que no contienen información
semántica (palabras vacias)
• Se omiten palabras que aparecen una sola vez en toda la
colección
30. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
SUPUESTOS PARA REPRESENTACIÓN DE UN
DOCUMENTO
• Reducción del número de atributos de un texto a partir de la
ganancia de información (IG) que ofrecen:
P(ci ) = Probabilidad de ci
P(t) = Probabilidad de seleccionar un documento que contiene el término t
P(ci |t) = Probabilidad de que un documento pertenezca a ci dado que tiene el
término t
P(t) = Probabilidad de seleccionar un documento que no contiene el término t
P(ci |t) = Probabilidad de que un documento pertenezca a ci dado que no
contiene el término t
31. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
REPRESENTACIÓN DE UN DOCUMENTO
• Una vez realizado el cálculo del IG para cada término o
atributo, se define un umbral mínimo y todos aquellos términos
cuyo IG esté por debajo del umbral se descartan
términos o atributos
t1
t2
t3
t4
t5
Documentos
d1
11
11
11
11
11
d2
12
12
12
12
12
d3
13
13
13
13
13
j1
j2
j3
j4
j5
…
dj
…
…
…
…
…
tn
11
12
13
jn
32. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
Valores para los
:
• Binarios: 0 o 1, según el termino t se encuentre o no en
documento d
• Número de veces que aparece el termino t en el documento d
• Combinación de frecuencia del termino t tanto en el documento
d como en el resto de documentos
Donde:
N: tamaño de la colección, número total de documentos
ni: número de documentos don de aparece el término i-esimo
33. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
MÉTODO DE CLASIFICACIÓN
NAIVE BAYES
Probabilidad de que el documento dj pertenezca a la clase ci
P(ci ) = Probabilidad de la clase ci , documentos en ci sobre total documentos de
entrenamiento
P(wtj |ci ) = cantidad de veces que wtj aparece en ci
count(wtj ,ci ) = número de veces que wtj aparece en ci
34. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
PROCESO IMPLEMENTACIÓN MODELO
• Macro en word para convertir
(jurisprudencias) de .doc a .txt
los
archivos
• Python, AWK para limpiar los archivos y filtar
palabras eliminando palabras vacias (no contienen
información)
• Modelo MapReduce para determinar la frecuencia de
las palabras
35. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA
PROCESO IMPLEMENTACIÓN MODELO
• En linux, en el directorio dirjuris se copian los
archivos .txt convertidos
• Se crea un solo archivo con todas las palabra del
total de los archivos .txt, comando cat *.txt >
todo.txt
• Función de
comando:
mapeo
sobre
el
archivo
todo.txt
tr A-Z a-z < todo.txt | tr -cd 'a-zn '|awk -f contar.awk|awk '{
if(length($1) > 3 && $2 > 10) print $2 " " $1 }'|sort –nr
Se dejan palabras cuya frecuencia sea > 10 y cuya
longitud sea > 3