Trabajo final curso big data

UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

CURSO

BIG DATA

MANUEL M. DE LA HOZ D.
RAFAEL ALONSO ALVARADO


CURSO DE BIG DATA

A. Marco-Teórico - Qué es la Big
Data y la ciencia de los datos


CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

Definición:
En términos generales podríamos referirnos como a la
tendencia en el avance de la tecnología que ha abierto las
puertas hacia un nuevo enfoque de entendimiento y toma de
decisiones, la cual es utilizada para describir enormes
cantidades de datos (estructurados, no estructurados y semi
estructurados) que tomaría demasiado tiempo y sería muy
costoso cargarlos a un base de datos relacional para su
análisis.
Sin embargo, Big Data no se refiere a alguna cantidad en
específico, ya que es usualmente utilizado cuando se habla en
términos de petabytes (1015) y exabytes (1018) de datos.



Características Principales:
Además del gran volumen de información, esta existe en una
gran variedad de datos que pueden ser representados de
diversas maneras en todo el mundo, por ejemplo de
dispositivos móviles, audio, video, sistemas GPS, incontables
sensores digitales en equipos industriales, automóviles,
medidores eléctricos, veletas, anemómetros, etc., los cuales
pueden medir y comunicar el posicionamiento, movimiento,
vibración, temperatura, humedad y hasta los cambios
químicos que sufre el aire, de tal forma que las aplicaciones
que analizan estos datos requieren que la velocidad de
respuesta sea lo demasiado rápida para lograr obtener la
información correcta en el momento preciso.



¿De dónde proviene toda esa información?
De acuerdo con un estudio realizado por Cisco[1], entre el
2011 y el 2016 la cantidad de tráfico de datos móviles crecerá
a una tasa anual de 78%, así como el número de dispositivos
móviles conectados a Internet excederá el número de
habitantes en el planeta. Las naciones unidas proyectan que
la población mundial alcanzará los 7.5 billones para el 2016
de tal modo que habrá cerca de 18.9 billones de dispositivos
conectados a la red a escala mundial, esto conllevaría a que
el tráfico global de datos móviles alcance 10.8 Exabytes
mensuales o 130 Exabytes anuales. Este volumen de tráfico
previsto para 2016 equivale a 33 billones de DVDs anuales o
813 cuatrillones de mensajes de texto.



¿De dónde proviene toda esa información?
No solamente de los seres, existe también la comunicación
denominada máquina a máquina (M2M machine-to-machine)
cuyo valor en la creación de grandes cantidades de datos
también es muy importante. Sensores digitales instalados en
contenedores para determinar la ruta generada durante una
entrega de algún paquete y que esta información sea enviada
a las compañías de transporte, sensores en medidores
eléctricos para determinar el consumo de energía a intervalos
regulares para que sea enviada esta información a las
compañías del sector energético. Se estima que hay más de
30 millones de sensores interconectados en distintos sectores
como automotriz, transporte, industrial, servicios, comercial,
etc. y se espera que este número crezca en un 30%
anualmente.



¿Qué tipos de datos debo explorar?

Figura 1. Tipos de datos de Big Data[2]



NoSQL: Bases de Datos no estructuradas
“not only SQL” – Es una categoría general de sistemas de
gestión de bases de datos que difiere de los RDBMS en
diferentes modos.
- No tienen eschemas, no permiten JOINs, no intentan
garantizar ACID y escalan horizontalmente.
- Tanto las bases de datos NoSQL como las relacionales son
tipos de Almacenamiento Estructurado



MapReduce
- Framework (modelo de programación) utilizado por
Google para dar soporte a la computación paralela sobre
grandes
colecciones
de
datos
en
grupos
de
computadoras y al commodity computing.
- El nombre del framework está inspirado en los nombres
de dos importantes métodos, macros o funciones en
programación funcional: Map y Reduce.
- Adoptado mundialmente como una implementación
opensouce denominada Hadoop, su desarrollo fue
liderado inicialmente por Yahoo y actualmente lo realiza
el proyecto Apache.



PLN – Procesamiento de Lenguaje Natural
- Subdisciplina de la inteligencia artificial y la rama
ingeniería de la lingüística computacional.
- Se ocupa de la formulación e investigación de
mecanismos eficaces computacionalmente para la
comunicación entre personas o entre personas y
máquinas por medio de lenguajes naturales.
- No trata de la comunicación por medio de lenguajes
naturales de una forma abstracta, sino de diseñar
mecanismos para comunicarse que sean eficaces
computacionalmente —que se puedan realizar por medio
de programas que ejecuten o simulen la comunicación—.



PLN – Procesamiento de Lenguaje Natural
- Los modelos aplicados se enfocan no sólo a la
comprensión del lenguaje de por sí, sino a aspectos
generales cognitivos humanos y a la organización de la
memoria. El lenguaje natural sirve sólo de medio para
estudiar estos fenómenos.
Componentes:
- Análisis morfológico.
- Análisis sintáctico.
- Análisis semántico.
- Análisis pragmático.
- Planificación y Generación de la frase.



Estadística
- Los modelos aplicados se enfocan no sólo a la
comprensión del lenguaje de por sí, sino a aspectos
generales cognitivos humanos y a la organización de la
memoria. El lenguaje natural sirve sólo de medio para
estudiar estos fenómenos.
Componentes:
- Análisis morfológico.
- Análisis sintáctico.
- Análisis semántico.
- Análisis pragmático.
- Planificación y Generación de la frase.



Machine Learning
- Cualquier campo que necesita para interpretar y actuar
sobre los datos puede beneficiarse de las técnicas de
aprendizaje del ML.
- El aprendizaje automático se encuentra en la
intersección de las ciencias de la computación, ingeniería
y estadísticas y suele aparecer en otras disciplinas. Es
una herramienta que se puede aplicar a muchos
problemas.
- Utiliza diversos algoritmos como Python -

CURSO BIG DATA

B. PROBLEMA A RESOLVER
Se propone reducir la pérdida de tiempo que significa
actualmente la búsqueda y consulta de jurisprudencias
en el campo del derecho penal, a través de un
algoritmo que clasifique dichos documentos de acuerdo
con la estructura del código penal colombiano

CURSO BIG DATA

PROBLEMA A RESOLVER

Jurisprudencias
sin clasificar

Algoritmo
de
clasificación

Jurisprudencias
clasificadas

Consulta de
información
clasificada

CURSO BIG DATA

¿CÓMO SE VA A LOGRAR?
Archivos BD
Aparato Judicial

•

Tokenizador: separa palabras

•

Divisor de oraciones

•

Verificador gramatical

•

Lematizador: entrega las palabras
en su forma original y coloca
etiquetas

•

Preprocesamiento y
generación de
archivos planos

Reconocimiento de nombres

Herramientas PLN

Patrones
lingüísticos
Extracción de
conceptos
compuestos y
simples

CURSO BIG DATA

FUENTES DE INFORMACIÓN
Jurisprudencia de Sala Penal de la Corte
Jurisprudencia de Sala Civil de la Corte
Tribunales
Decretos
Circulares

Resoluciones

CURSO BIG DATA

CRITERIOS PARA CLASIFICACIÓN
Tipos penales (delitos)
Verbos rectores
Agravantes
Calificantes
Legislación
Fecha de actualización de las BD fuente

CURSO BIG DATA

ESTRUCTURA DEL CÓDIGO PENAL
COLOMBIANO
De carácter General
Título 5

Título 4

Título 3

Título 2

Título 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 2

Capitulo 2

Capitulo 3

Capitulo 3

Capitulo 4

Capitulo 4

Capitulo 5

Capitulo 5
Capitulo 6
Capitulo 7

Capitulo 2

LIBRO PRIMERO

Título 6
Capitulo 1

CURSO BIG DATA

ESTRUCTURA DEL CÓDIGO PENAL
COLOMBIANO
De Carácter Especial
Título 13

Título 12

Título 11

Título 10

Título 9

Título 8

Título 7

Título 6

Título 5

Título 4

Título 3

Título 2

Título 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 3

Capitulo 3

Capitulo 3

Capitulo 3

Capitulo 3

Capitulo 3

Capitulo 3

Capitulo 3

Capitulo 3

Capitulo 4

Capitulo 4

Capitulo 4

Capitulo 4

Capitulo 4

Capitulo 4

Capitulo 4

Capitulo 5

Capitulo 5

Capitulo 5

Capitulo 5

Capitulo 5

Capitulo 6

Capitulo 6

Capitulo 6

Capitulo 6

Capitulo 7

Capitulo 7

Capitulo 8

Capitulo 7
Capitulo 8
Capitulo 9
Capitulo 10

Capitulo 2

LIBRO SEGUNDO

Título 14
Capitulo 1

CURSO BIG DATA

CONJUNTO DE CLASES DE DOCUMENTOS

CURSO BIG DATA

CONJUNTO DE CLASES

CURSO BIG DATA

MODELO A UTILIZAR
La clasificación en general, se puede se puede formalizar como la
tarea de aproximar una función objetivo desconocida Ф, que
describe cómo deben ser clasificados los documentos de acuerdo
con un experto
El Clasificador: Ф´:D × C →{V, F}
Donde: C = { c1, c2, …, c|c| } ; conjunto de clases posibles
D = { d1, d2, …, dj } ; conjunto de documentos

Si Φ´:dj × ci →V : entonces dj es llamado un ejemplo positivo de ci
Si Φ´:dj × ci →F : entonces dj es llamado un ejemplo negativo de ci
Dependiendo de la aplicación un dj pude pertenecer a más de un ci

CURSO BIG DATA

MODELO A UTILIZAR
Un clasificador de textos para ci se genera automáticamente mediante un
proceso inductivo (aprendiz), el cual a partir de documentos clasificados en ci o ci
obtiene las características que debe tener un documento nuevo para pertenecer
a ci

CURSO BIG DATA

SUPUESTOS PARA REPRESENTACIÓN DE UN
DOCUMENTO
• Ignorar la estructura del texto, no se intenta comprender
completamente el documento

• Se asume que los términos indexados son mutuamente
excluyentes:
unas
palabras
no
incrementan
la
probabilidad de aparición de otros en el texto (por
simplicidad)
• El texto se trata como una bolsa de palabras, no hay
orden entre ellas (por eficiencia)
• Omitir palabras frecuentes que no contienen información
semántica (palabras vacias)
• Se omiten palabras que aparecen una sola vez en toda la
colección

CURSO BIG DATA

SUPUESTOS PARA REPRESENTACIÓN DE UN
DOCUMENTO
• Reducción del número de atributos de un texto a partir de la
ganancia de información (IG) que ofrecen:

P(ci ) = Probabilidad de ci
P(t) = Probabilidad de seleccionar un documento que contiene el término t
P(ci |t) = Probabilidad de que un documento pertenezca a ci dado que tiene el
término t
P(t) = Probabilidad de seleccionar un documento que no contiene el término t
P(ci |t) = Probabilidad de que un documento pertenezca a ci dado que no
contiene el término t

CURSO BIG DATA

REPRESENTACIÓN DE UN DOCUMENTO
• Una vez realizado el cálculo del IG para cada término o

atributo, se define un umbral mínimo y todos aquellos términos
cuyo IG esté por debajo del umbral se descartan

términos o atributos
t1

t2

t3

t4

t5

Documentos

d1

11

11

11

11

11

d2

12

12

12

12

12

d3

13

13

13

13

13

j1

j2

j3

j4

j5

…
dj

…

…
…
…
…

tn
11
12
13

jn

CURSO BIG DATA

Valores para los

:

• Binarios: 0 o 1, según el termino t se encuentre o no en
documento d
• Número de veces que aparece el termino t en el documento d
• Combinación de frecuencia del termino t tanto en el documento
d como en el resto de documentos
Donde:

N: tamaño de la colección, número total de documentos
ni: número de documentos don de aparece el término i-esimo

CURSO BIG DATA

MÉTODO DE CLASIFICACIÓN
NAIVE BAYES
Probabilidad de que el documento dj pertenezca a la clase ci

P(ci ) = Probabilidad de la clase ci , documentos en ci sobre total documentos de
entrenamiento
P(wtj |ci ) = cantidad de veces que wtj aparece en ci

count(wtj ,ci ) = número de veces que wtj aparece en ci

CURSO BIG DATA

PROCESO IMPLEMENTACIÓN MODELO
• Macro en word para convertir
(jurisprudencias) de .doc a .txt

los

archivos

• Python, AWK para limpiar los archivos y filtar
palabras eliminando palabras vacias (no contienen
información)

• Modelo MapReduce para determinar la frecuencia de
las palabras

CURSO BIG DATA

PROCESO IMPLEMENTACIÓN MODELO
• En linux, en el directorio dirjuris se copian los
archivos .txt convertidos
• Se crea un solo archivo con todas las palabra del
total de los archivos .txt, comando cat *.txt >
todo.txt
• Función de
comando:

mapeo

sobre

el

archivo

todo.txt

tr A-Z a-z < todo.txt | tr -cd 'a-zn '|awk -f contar.awk|awk '{
if(length($1) > 3 && $2 > 10) print $2 " " $1 }'|sort –nr
Se dejan palabras cuya frecuencia sea > 10 y cuya
longitud sea > 3

CURSO BIG DATA

GRACIAS

Trabajo final curso big data

Recomendados

Recomendados

Más contenido relacionado

Similar a Trabajo final curso big data

Similar a Trabajo final curso big data (20)

Último

Último (20)

Trabajo final curso big data