SlideShare una empresa de Scribd logo
1 de 36
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

CURSO

BIG DATA

MANUEL M. DE LA HOZ D.
RAFAEL ALONSO ALVARADO
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA

A. Marco-Teórico - Qué es la Big
Data y la ciencia de los datos
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

Definición:
En términos generales podríamos referirnos como a la
tendencia en el avance de la tecnología que ha abierto las
puertas hacia un nuevo enfoque de entendimiento y toma de
decisiones, la cual es utilizada para describir enormes
cantidades de datos (estructurados, no estructurados y semi
estructurados) que tomaría demasiado tiempo y sería muy
costoso cargarlos a un base de datos relacional para su
análisis.
Sin embargo, Big Data no se refiere a alguna cantidad en
específico, ya que es usualmente utilizado cuando se habla en
términos de petabytes (1015) y exabytes (1018) de datos.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

Características Principales:
Además del gran volumen de información, esta existe en una
gran variedad de datos que pueden ser representados de
diversas maneras en todo el mundo, por ejemplo de
dispositivos móviles, audio, video, sistemas GPS, incontables
sensores digitales en equipos industriales, automóviles,
medidores eléctricos, veletas, anemómetros, etc., los cuales
pueden medir y comunicar el posicionamiento, movimiento,
vibración, temperatura, humedad y hasta los cambios
químicos que sufre el aire, de tal forma que las aplicaciones
que analizan estos datos requieren que la velocidad de
respuesta sea lo demasiado rápida para lograr obtener la
información correcta en el momento preciso.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

¿De dónde proviene toda esa información?
De acuerdo con un estudio realizado por Cisco[1], entre el
2011 y el 2016 la cantidad de tráfico de datos móviles crecerá
a una tasa anual de 78%, así como el número de dispositivos
móviles conectados a Internet excederá el número de
habitantes en el planeta. Las naciones unidas proyectan que
la población mundial alcanzará los 7.5 billones para el 2016
de tal modo que habrá cerca de 18.9 billones de dispositivos
conectados a la red a escala mundial, esto conllevaría a que
el tráfico global de datos móviles alcance 10.8 Exabytes
mensuales o 130 Exabytes anuales. Este volumen de tráfico
previsto para 2016 equivale a 33 billones de DVDs anuales o
813 cuatrillones de mensajes de texto.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

¿De dónde proviene toda esa información?
No solamente de los seres, existe también la comunicación
denominada máquina a máquina (M2M machine-to-machine)
cuyo valor en la creación de grandes cantidades de datos
también es muy importante. Sensores digitales instalados en
contenedores para determinar la ruta generada durante una
entrega de algún paquete y que esta información sea enviada
a las compañías de transporte, sensores en medidores
eléctricos para determinar el consumo de energía a intervalos
regulares para que sea enviada esta información a las
compañías del sector energético. Se estima que hay más de
30 millones de sensores interconectados en distintos sectores
como automotriz, transporte, industrial, servicios, comercial,
etc. y se espera que este número crezca en un 30%
anualmente.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

¿Qué tipos de datos debo explorar?

Figura 1. Tipos de datos de Big Data[2]
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

NoSQL: Bases de Datos no estructuradas
“not only SQL” – Es una categoría general de sistemas de
gestión de bases de datos que difiere de los RDBMS en
diferentes modos.
- No tienen eschemas, no permiten JOINs, no intentan
garantizar ACID y escalan horizontalmente.
- Tanto las bases de datos NoSQL como las relacionales son
tipos de Almacenamiento Estructurado
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

MapReduce
- Framework (modelo de programación) utilizado por
Google para dar soporte a la computación paralela sobre
grandes
colecciones
de
datos
en
grupos
de
computadoras y al commodity computing.
- El nombre del framework está inspirado en los nombres
de dos importantes métodos, macros o funciones en
programación funcional: Map y Reduce.
- Adoptado mundialmente como una implementación
opensouce denominada Hadoop, su desarrollo fue
liderado inicialmente por Yahoo y actualmente lo realiza
el proyecto Apache.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

PLN – Procesamiento de Lenguaje Natural
- Subdisciplina de la inteligencia artificial y la rama
ingeniería de la lingüística computacional.
- Se ocupa de la formulación e investigación de
mecanismos eficaces computacionalmente para la
comunicación entre personas o entre personas y
máquinas por medio de lenguajes naturales.
- No trata de la comunicación por medio de lenguajes
naturales de una forma abstracta, sino de diseñar
mecanismos para comunicarse que sean eficaces
computacionalmente —que se puedan realizar por medio
de programas que ejecuten o simulen la comunicación—.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

PLN – Procesamiento de Lenguaje Natural
- Los modelos aplicados se enfocan no sólo a la
comprensión del lenguaje de por sí, sino a aspectos
generales cognitivos humanos y a la organización de la
memoria. El lenguaje natural sirve sólo de medio para
estudiar estos fenómenos.
Componentes:
- Análisis morfológico.
- Análisis sintáctico.
- Análisis semántico.
- Análisis pragmático.
- Planificación y Generación de la frase.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

Estadística
- Los modelos aplicados se enfocan no sólo a la
comprensión del lenguaje de por sí, sino a aspectos
generales cognitivos humanos y a la organización de la
memoria. El lenguaje natural sirve sólo de medio para
estudiar estos fenómenos.
Componentes:
- Análisis morfológico.
- Análisis sintáctico.
- Análisis semántico.
- Análisis pragmático.
- Planificación y Generación de la frase.
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA

CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos

Machine Learning
- Cualquier campo que necesita para interpretar y actuar
sobre los datos puede beneficiarse de las técnicas de
aprendizaje del ML.
- El aprendizaje automático se encuentra en la
intersección de las ciencias de la computación, ingeniería
y estadísticas y suele aparecer en otras disciplinas. Es
una herramienta que se puede aplicar a muchos
problemas.
- Utiliza diversos algoritmos como Python -
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

B. PROBLEMA A RESOLVER
Se propone reducir la pérdida de tiempo que significa
actualmente la búsqueda y consulta de jurisprudencias
en el campo del derecho penal, a través de un
algoritmo que clasifique dichos documentos de acuerdo
con la estructura del código penal colombiano
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

PROBLEMA A RESOLVER

Jurisprudencias
sin clasificar

Algoritmo
de
clasificación

Jurisprudencias
clasificadas

Consulta de
información
clasificada
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

¿CÓMO SE VA A LOGRAR?
Archivos BD
Aparato Judicial

•

Tokenizador: separa palabras

•

Divisor de oraciones

•

Verificador gramatical

•

Lematizador: entrega las palabras
en su forma original y coloca
etiquetas

•

Preprocesamiento y
generación de
archivos planos

Reconocimiento de nombres

Herramientas PLN

Patrones
lingüísticos
Extracción de
conceptos
compuestos y
simples
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

FUENTES DE INFORMACIÓN
Jurisprudencia de Sala Penal de la Corte
Jurisprudencia de Sala Civil de la Corte
Tribunales
Decretos
Circulares

Resoluciones
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

CRITERIOS PARA CLASIFICACIÓN
Tipos penales (delitos)
Verbos rectores
Agravantes
Calificantes
Legislación
Fecha de actualización de las BD fuente
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

ESTRUCTURA DEL CÓDIGO PENAL
COLOMBIANO
De carácter General
Título 5

Título 4

Título 3

Título 2

Título 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 2

Capitulo 2

Capitulo 3

Capitulo 3

Capitulo 4

Capitulo 4

Capitulo 5

Capitulo 5
Capitulo 6
Capitulo 7

Capitulo 2

LIBRO PRIMERO

Título 6
Capitulo 1
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

ESTRUCTURA DEL CÓDIGO PENAL
COLOMBIANO
De Carácter Especial
Título 13

Título 12

Título 11

Título 10

Título 9

Título 8

Título 7

Título 6

Título 5

Título 4

Título 3

Título 2

Título 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 1

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 2

Capitulo 3

Capitulo 3

Capitulo 3

Capitulo 3

Capitulo 3

Capitulo 3

Capitulo 3

Capitulo 3

Capitulo 3

Capitulo 4

Capitulo 4

Capitulo 4

Capitulo 4

Capitulo 4

Capitulo 4

Capitulo 4

Capitulo 5

Capitulo 5

Capitulo 5

Capitulo 5

Capitulo 5

Capitulo 6

Capitulo 6

Capitulo 6

Capitulo 6

Capitulo 7

Capitulo 7

Capitulo 8

Capitulo 7
Capitulo 8
Capitulo 9
Capitulo 10

Capitulo 2

LIBRO SEGUNDO

Título 14
Capitulo 1
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

CONJUNTO DE CLASES DE DOCUMENTOS
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

CONJUNTO DE CLASES
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

CONJUNTO DE CLASES
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

CONJUNTO DE CLASES
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

CONJUNTO DE CLASES
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

CONJUNTO DE CLASES
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

MODELO A UTILIZAR
La clasificación en general, se puede se puede formalizar como la
tarea de aproximar una función objetivo desconocida Ф, que
describe cómo deben ser clasificados los documentos de acuerdo
con un experto
El Clasificador: Ф´:D × C →{V, F}
Donde: C = { c1, c2, …, c|c| } ; conjunto de clases posibles
D = { d1, d2, …, dj } ; conjunto de documentos

Si Φ´:dj × ci →V : entonces dj es llamado un ejemplo positivo de ci
Si Φ´:dj × ci →F : entonces dj es llamado un ejemplo negativo de ci
Dependiendo de la aplicación un dj pude pertenecer a más de un ci
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

MODELO A UTILIZAR
Un clasificador de textos para ci se genera automáticamente mediante un
proceso inductivo (aprendiz), el cual a partir de documentos clasificados en ci o ci
obtiene las características que debe tener un documento nuevo para pertenecer
a ci
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

SUPUESTOS PARA REPRESENTACIÓN DE UN
DOCUMENTO
• Ignorar la estructura del texto, no se intenta comprender
completamente el documento

• Se asume que los términos indexados son mutuamente
excluyentes:
unas
palabras
no
incrementan
la
probabilidad de aparición de otros en el texto (por
simplicidad)
• El texto se trata como una bolsa de palabras, no hay
orden entre ellas (por eficiencia)
• Omitir palabras frecuentes que no contienen información
semántica (palabras vacias)
• Se omiten palabras que aparecen una sola vez en toda la
colección
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

SUPUESTOS PARA REPRESENTACIÓN DE UN
DOCUMENTO
• Reducción del número de atributos de un texto a partir de la
ganancia de información (IG) que ofrecen:

P(ci ) = Probabilidad de ci
P(t) = Probabilidad de seleccionar un documento que contiene el término t
P(ci |t) = Probabilidad de que un documento pertenezca a ci dado que tiene el
término t
P(t) = Probabilidad de seleccionar un documento que no contiene el término t
P(ci |t) = Probabilidad de que un documento pertenezca a ci dado que no
contiene el término t
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

REPRESENTACIÓN DE UN DOCUMENTO
• Una vez realizado el cálculo del IG para cada término o

atributo, se define un umbral mínimo y todos aquellos términos
cuyo IG esté por debajo del umbral se descartan

términos o atributos
t1

t2

t3

t4

t5

Documentos

d1

11

11

11

11

11

d2

12

12

12

12

12

d3

13

13

13

13

13

j1

j2

j3

j4

j5

…
dj

…

…
…
…
…

tn
11
12
13

jn
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

Valores para los

:

• Binarios: 0 o 1, según el termino t se encuentre o no en
documento d
• Número de veces que aparece el termino t en el documento d
• Combinación de frecuencia del termino t tanto en el documento
d como en el resto de documentos
Donde:

N: tamaño de la colección, número total de documentos
ni: número de documentos don de aparece el término i-esimo
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

MÉTODO DE CLASIFICACIÓN
NAIVE BAYES
Probabilidad de que el documento dj pertenezca a la clase ci

P(ci ) = Probabilidad de la clase ci , documentos en ci sobre total documentos de
entrenamiento
P(wtj |ci ) = cantidad de veces que wtj aparece en ci

count(wtj ,ci ) = número de veces que wtj aparece en ci
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

PROCESO IMPLEMENTACIÓN MODELO
• Macro en word para convertir
(jurisprudencias) de .doc a .txt

los

archivos

• Python, AWK para limpiar los archivos y filtar
palabras eliminando palabras vacias (no contienen
información)

• Modelo MapReduce para determinar la frecuencia de
las palabras
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

PROCESO IMPLEMENTACIÓN MODELO
• En linux, en el directorio dirjuris se copian los
archivos .txt convertidos
• Se crea un solo archivo con todas las palabra del
total de los archivos .txt, comando cat *.txt >
todo.txt
• Función de
comando:

mapeo

sobre

el

archivo

todo.txt

tr A-Z a-z < todo.txt | tr -cd 'a-zn '|awk -f contar.awk|awk '{
if(length($1) > 3 && $2 > 10) print $2 " " $1 }'|sort –nr
Se dejan palabras cuya frecuencia sea > 10 y cuya
longitud sea > 3
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS
MAESTRÍA DE TELEINFORMÁTICA
CURSO BIG DATA

GRACIAS

Más contenido relacionado

Similar a Trabajo final curso big data

UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdfUNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdflaubritez2001
 
PROYECCION BASES DE DATOS AL FUTURO
PROYECCION BASES DE DATOS AL FUTUROPROYECCION BASES DE DATOS AL FUTURO
PROYECCION BASES DE DATOS AL FUTUROdaayala
 
Portafolio computación aplicada I
Portafolio computación aplicada IPortafolio computación aplicada I
Portafolio computación aplicada IJorge Piedra Luna
 
Sistema de Información Territorial ER.ppt
Sistema de Información Territorial ER.pptSistema de Información Territorial ER.ppt
Sistema de Información Territorial ER.pptJosé Luis Zufiaurre
 
Máster Big Data y Business Analytics Universidad Complutense de Madrid
Máster Big Data y Business Analytics Universidad Complutense de MadridMáster Big Data y Business Analytics Universidad Complutense de Madrid
Máster Big Data y Business Analytics Universidad Complutense de MadridJose Carlos Soto Gómez
 
Afc module 1 translated
Afc module 1 translatedAfc module 1 translated
Afc module 1 translatedSoniaNaiba
 
Tecnologias informaticas
Tecnologias informaticas Tecnologias informaticas
Tecnologias informaticas Freddy Estevez
 
Nt c1 a9_2015_mendoza_analía
Nt c1 a9_2015_mendoza_analíaNt c1 a9_2015_mendoza_analía
Nt c1 a9_2015_mendoza_analíaAnalía Mendoza
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Ris Fernandez
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big DataDaniel Jiménez
 
Introducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdfIntroducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdfVernicaPaulinaChimbo
 
BIG DATA COMPLETO ISBN.pdf
BIG DATA COMPLETO ISBN.pdfBIG DATA COMPLETO ISBN.pdf
BIG DATA COMPLETO ISBN.pdfDr.Ing. Uriel
 
La apertura de datos públicos en el Ayuntamiento de Lorca: aspectos prácticos
La apertura de datos públicos en el Ayuntamiento de Lorca: aspectos prácticosLa apertura de datos públicos en el Ayuntamiento de Lorca: aspectos prácticos
La apertura de datos públicos en el Ayuntamiento de Lorca: aspectos prácticosAntonio Galindo Galindo
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big DataRafael Morales
 

Similar a Trabajo final curso big data (20)

Big data
Big dataBig data
Big data
 
UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdfUNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
 
Big Data, Big Picture
Big Data, Big PictureBig Data, Big Picture
Big Data, Big Picture
 
PROYECCION BASES DE DATOS AL FUTURO
PROYECCION BASES DE DATOS AL FUTUROPROYECCION BASES DE DATOS AL FUTURO
PROYECCION BASES DE DATOS AL FUTURO
 
Portafolio computación aplicada I
Portafolio computación aplicada IPortafolio computación aplicada I
Portafolio computación aplicada I
 
Sistema de Información Territorial ER.ppt
Sistema de Información Territorial ER.pptSistema de Información Territorial ER.ppt
Sistema de Información Territorial ER.ppt
 
Máster Big Data y Business Analytics Universidad Complutense de Madrid
Máster Big Data y Business Analytics Universidad Complutense de MadridMáster Big Data y Business Analytics Universidad Complutense de Madrid
Máster Big Data y Business Analytics Universidad Complutense de Madrid
 
Afc module 1 translated
Afc module 1 translatedAfc module 1 translated
Afc module 1 translated
 
Tecnologias informaticas
Tecnologias informaticas Tecnologias informaticas
Tecnologias informaticas
 
Nt c1 a9_2015_mendoza_analía
Nt c1 a9_2015_mendoza_analíaNt c1 a9_2015_mendoza_analía
Nt c1 a9_2015_mendoza_analía
 
big data
big  databig  data
big data
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Tenesaca jhonny bdii_t1
Tenesaca jhonny bdii_t1Tenesaca jhonny bdii_t1
Tenesaca jhonny bdii_t1
 
Introducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdfIntroducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdf
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Fundamentos.pptx
Fundamentos.pptxFundamentos.pptx
Fundamentos.pptx
 
BIG DATA COMPLETO ISBN.pdf
BIG DATA COMPLETO ISBN.pdfBIG DATA COMPLETO ISBN.pdf
BIG DATA COMPLETO ISBN.pdf
 
La apertura de datos públicos en el Ayuntamiento de Lorca: aspectos prácticos
La apertura de datos públicos en el Ayuntamiento de Lorca: aspectos prácticosLa apertura de datos públicos en el Ayuntamiento de Lorca: aspectos prácticos
La apertura de datos públicos en el Ayuntamiento de Lorca: aspectos prácticos
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 

Último

Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxFernando Solis
 
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJO
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJOACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJO
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJOBRIGIDATELLOLEONARDO
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxiemerc2024
 
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIAFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIIsauraImbrondone
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAJAVIER SOLIS NOYOLA
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOluismii249
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfAngélica Soledad Vega Ramírez
 
Infografía EE con pie del 2023 (3)-1.pdf
Infografía EE con pie del 2023 (3)-1.pdfInfografía EE con pie del 2023 (3)-1.pdf
Infografía EE con pie del 2023 (3)-1.pdfAlfaresbilingual
 
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdfMiNeyi1
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptAlberto Rubio
 
Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024Juan Martín Martín
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024IES Vicent Andres Estelles
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptxdeimerhdz21
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOluismii249
 
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAJAVIER SOLIS NOYOLA
 
Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024IES Vicent Andres Estelles
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxYadi Campos
 

Último (20)

Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024Interpretación de cortes geológicos 2024
Interpretación de cortes geológicos 2024
 
Concepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptxConcepto y definición de tipos de Datos Abstractos en c++.pptx
Concepto y definición de tipos de Datos Abstractos en c++.pptx
 
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJO
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJOACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJO
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJO
 
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docxPLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
PLAN DE REFUERZO ESCOLAR MERC 2024-2.docx
 
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA IIAFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
AFICHE EL MANIERISMO HISTORIA DE LA ARQUITECTURA II
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 4ºESO
 
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdfSELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
SELECCIÓN DE LA MUESTRA Y MUESTREO EN INVESTIGACIÓN CUALITATIVA.pdf
 
Infografía EE con pie del 2023 (3)-1.pdf
Infografía EE con pie del 2023 (3)-1.pdfInfografía EE con pie del 2023 (3)-1.pdf
Infografía EE con pie del 2023 (3)-1.pdf
 
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
6.-Como-Atraer-El-Amor-01-Lain-Garcia-Calvo.pdf
 
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).pptPINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
PINTURA DEL RENACIMIENTO EN ESPAÑA (SIGLO XVI).ppt
 
Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024
 
Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024Tema 17. Biología de los microorganismos 2024
Tema 17. Biología de los microorganismos 2024
 
Unidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la InvestigaciónUnidad 3 | Metodología de la Investigación
Unidad 3 | Metodología de la Investigación
 
INSTRUCCION PREPARATORIA DE TIRO .pptx
INSTRUCCION PREPARATORIA DE TIRO   .pptxINSTRUCCION PREPARATORIA DE TIRO   .pptx
INSTRUCCION PREPARATORIA DE TIRO .pptx
 
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESOPrueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
Prueba de evaluación Geografía e Historia Comunidad de Madrid 2º de la ESO
 
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLAACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
ACRÓNIMO DE PARÍS PARA SU OLIMPIADA 2024. Por JAVIER SOLIS NOYOLA
 
Supuestos_prácticos_funciones.docx
Supuestos_prácticos_funciones.docxSupuestos_prácticos_funciones.docx
Supuestos_prácticos_funciones.docx
 
Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024Tema 10. Dinámica y funciones de la Atmosfera 2024
Tema 10. Dinámica y funciones de la Atmosfera 2024
 
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptxSEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
SEXTO SEGUNDO PERIODO EMPRENDIMIENTO.pptx
 

Trabajo final curso big data

  • 1. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA CURSO BIG DATA MANUEL M. DE LA HOZ D. RAFAEL ALONSO ALVARADO
  • 2. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO DE BIG DATA A. Marco-Teórico - Qué es la Big Data y la ciencia de los datos
  • 3. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos Definición: En términos generales podríamos referirnos como a la tendencia en el avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semi estructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos relacional para su análisis. Sin embargo, Big Data no se refiere a alguna cantidad en específico, ya que es usualmente utilizado cuando se habla en términos de petabytes (1015) y exabytes (1018) de datos.
  • 4. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos Características Principales: Además del gran volumen de información, esta existe en una gran variedad de datos que pueden ser representados de diversas maneras en todo el mundo, por ejemplo de dispositivos móviles, audio, video, sistemas GPS, incontables sensores digitales en equipos industriales, automóviles, medidores eléctricos, veletas, anemómetros, etc., los cuales pueden medir y comunicar el posicionamiento, movimiento, vibración, temperatura, humedad y hasta los cambios químicos que sufre el aire, de tal forma que las aplicaciones que analizan estos datos requieren que la velocidad de respuesta sea lo demasiado rápida para lograr obtener la información correcta en el momento preciso.
  • 5. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos ¿De dónde proviene toda esa información? De acuerdo con un estudio realizado por Cisco[1], entre el 2011 y el 2016 la cantidad de tráfico de datos móviles crecerá a una tasa anual de 78%, así como el número de dispositivos móviles conectados a Internet excederá el número de habitantes en el planeta. Las naciones unidas proyectan que la población mundial alcanzará los 7.5 billones para el 2016 de tal modo que habrá cerca de 18.9 billones de dispositivos conectados a la red a escala mundial, esto conllevaría a que el tráfico global de datos móviles alcance 10.8 Exabytes mensuales o 130 Exabytes anuales. Este volumen de tráfico previsto para 2016 equivale a 33 billones de DVDs anuales o 813 cuatrillones de mensajes de texto.
  • 6. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos ¿De dónde proviene toda esa información? No solamente de los seres, existe también la comunicación denominada máquina a máquina (M2M machine-to-machine) cuyo valor en la creación de grandes cantidades de datos también es muy importante. Sensores digitales instalados en contenedores para determinar la ruta generada durante una entrega de algún paquete y que esta información sea enviada a las compañías de transporte, sensores en medidores eléctricos para determinar el consumo de energía a intervalos regulares para que sea enviada esta información a las compañías del sector energético. Se estima que hay más de 30 millones de sensores interconectados en distintos sectores como automotriz, transporte, industrial, servicios, comercial, etc. y se espera que este número crezca en un 30% anualmente.
  • 7. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos ¿Qué tipos de datos debo explorar? Figura 1. Tipos de datos de Big Data[2]
  • 8. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos NoSQL: Bases de Datos no estructuradas “not only SQL” – Es una categoría general de sistemas de gestión de bases de datos que difiere de los RDBMS en diferentes modos. - No tienen eschemas, no permiten JOINs, no intentan garantizar ACID y escalan horizontalmente. - Tanto las bases de datos NoSQL como las relacionales son tipos de Almacenamiento Estructurado
  • 9. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos MapReduce - Framework (modelo de programación) utilizado por Google para dar soporte a la computación paralela sobre grandes colecciones de datos en grupos de computadoras y al commodity computing. - El nombre del framework está inspirado en los nombres de dos importantes métodos, macros o funciones en programación funcional: Map y Reduce. - Adoptado mundialmente como una implementación opensouce denominada Hadoop, su desarrollo fue liderado inicialmente por Yahoo y actualmente lo realiza el proyecto Apache.
  • 10. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos PLN – Procesamiento de Lenguaje Natural - Subdisciplina de la inteligencia artificial y la rama ingeniería de la lingüística computacional. - Se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas o entre personas y máquinas por medio de lenguajes naturales. - No trata de la comunicación por medio de lenguajes naturales de una forma abstracta, sino de diseñar mecanismos para comunicarse que sean eficaces computacionalmente —que se puedan realizar por medio de programas que ejecuten o simulen la comunicación—.
  • 11. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos PLN – Procesamiento de Lenguaje Natural - Los modelos aplicados se enfocan no sólo a la comprensión del lenguaje de por sí, sino a aspectos generales cognitivos humanos y a la organización de la memoria. El lenguaje natural sirve sólo de medio para estudiar estos fenómenos. Componentes: - Análisis morfológico. - Análisis sintáctico. - Análisis semántico. - Análisis pragmático. - Planificación y Generación de la frase.
  • 12. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos Estadística - Los modelos aplicados se enfocan no sólo a la comprensión del lenguaje de por sí, sino a aspectos generales cognitivos humanos y a la organización de la memoria. El lenguaje natural sirve sólo de medio para estudiar estos fenómenos. Componentes: - Análisis morfológico. - Análisis sintáctico. - Análisis semántico. - Análisis pragmático. - Planificación y Generación de la frase.
  • 13. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO DE BIG DATA - Qué es la Big Data y la Ciencia de los Datos Machine Learning - Cualquier campo que necesita para interpretar y actuar sobre los datos puede beneficiarse de las técnicas de aprendizaje del ML. - El aprendizaje automático se encuentra en la intersección de las ciencias de la computación, ingeniería y estadísticas y suele aparecer en otras disciplinas. Es una herramienta que se puede aplicar a muchos problemas. - Utiliza diversos algoritmos como Python -
  • 14. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA B. PROBLEMA A RESOLVER Se propone reducir la pérdida de tiempo que significa actualmente la búsqueda y consulta de jurisprudencias en el campo del derecho penal, a través de un algoritmo que clasifique dichos documentos de acuerdo con la estructura del código penal colombiano
  • 15. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA PROBLEMA A RESOLVER Jurisprudencias sin clasificar Algoritmo de clasificación Jurisprudencias clasificadas Consulta de información clasificada
  • 16. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA ¿CÓMO SE VA A LOGRAR? Archivos BD Aparato Judicial • Tokenizador: separa palabras • Divisor de oraciones • Verificador gramatical • Lematizador: entrega las palabras en su forma original y coloca etiquetas • Preprocesamiento y generación de archivos planos Reconocimiento de nombres Herramientas PLN Patrones lingüísticos Extracción de conceptos compuestos y simples
  • 17. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA FUENTES DE INFORMACIÓN Jurisprudencia de Sala Penal de la Corte Jurisprudencia de Sala Civil de la Corte Tribunales Decretos Circulares Resoluciones
  • 18. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA CRITERIOS PARA CLASIFICACIÓN Tipos penales (delitos) Verbos rectores Agravantes Calificantes Legislación Fecha de actualización de las BD fuente
  • 19. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA ESTRUCTURA DEL CÓDIGO PENAL COLOMBIANO De carácter General Título 5 Título 4 Título 3 Título 2 Título 1 Capitulo 1 Capitulo 1 Capitulo 1 Capitulo 1 Capitulo 1 Capitulo 2 Capitulo 2 Capitulo 3 Capitulo 3 Capitulo 4 Capitulo 4 Capitulo 5 Capitulo 5 Capitulo 6 Capitulo 7 Capitulo 2 LIBRO PRIMERO Título 6 Capitulo 1
  • 20. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA ESTRUCTURA DEL CÓDIGO PENAL COLOMBIANO De Carácter Especial Título 13 Título 12 Título 11 Título 10 Título 9 Título 8 Título 7 Título 6 Título 5 Título 4 Título 3 Título 2 Título 1 Capitulo 1 Capitulo 1 Capitulo 1 Capitulo 1 Capitulo 1 Capitulo 1 Capitulo 1 Capitulo 1 Capitulo 1 Capitulo 1 Capitulo 1 Capitulo 1 Capitulo 1 Capitulo 2 Capitulo 2 Capitulo 2 Capitulo 2 Capitulo 2 Capitulo 2 Capitulo 2 Capitulo 2 Capitulo 2 Capitulo 2 Capitulo 3 Capitulo 3 Capitulo 3 Capitulo 3 Capitulo 3 Capitulo 3 Capitulo 3 Capitulo 3 Capitulo 3 Capitulo 4 Capitulo 4 Capitulo 4 Capitulo 4 Capitulo 4 Capitulo 4 Capitulo 4 Capitulo 5 Capitulo 5 Capitulo 5 Capitulo 5 Capitulo 5 Capitulo 6 Capitulo 6 Capitulo 6 Capitulo 6 Capitulo 7 Capitulo 7 Capitulo 8 Capitulo 7 Capitulo 8 Capitulo 9 Capitulo 10 Capitulo 2 LIBRO SEGUNDO Título 14 Capitulo 1
  • 21. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA CONJUNTO DE CLASES DE DOCUMENTOS
  • 22. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA CONJUNTO DE CLASES
  • 23. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA CONJUNTO DE CLASES
  • 24. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA CONJUNTO DE CLASES
  • 25. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA CONJUNTO DE CLASES
  • 26. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA CONJUNTO DE CLASES
  • 27. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA MODELO A UTILIZAR La clasificación en general, se puede se puede formalizar como la tarea de aproximar una función objetivo desconocida Ф, que describe cómo deben ser clasificados los documentos de acuerdo con un experto El Clasificador: Ф´:D × C →{V, F} Donde: C = { c1, c2, …, c|c| } ; conjunto de clases posibles D = { d1, d2, …, dj } ; conjunto de documentos Si Φ´:dj × ci →V : entonces dj es llamado un ejemplo positivo de ci Si Φ´:dj × ci →F : entonces dj es llamado un ejemplo negativo de ci Dependiendo de la aplicación un dj pude pertenecer a más de un ci
  • 28. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA MODELO A UTILIZAR Un clasificador de textos para ci se genera automáticamente mediante un proceso inductivo (aprendiz), el cual a partir de documentos clasificados en ci o ci obtiene las características que debe tener un documento nuevo para pertenecer a ci
  • 29. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA SUPUESTOS PARA REPRESENTACIÓN DE UN DOCUMENTO • Ignorar la estructura del texto, no se intenta comprender completamente el documento • Se asume que los términos indexados son mutuamente excluyentes: unas palabras no incrementan la probabilidad de aparición de otros en el texto (por simplicidad) • El texto se trata como una bolsa de palabras, no hay orden entre ellas (por eficiencia) • Omitir palabras frecuentes que no contienen información semántica (palabras vacias) • Se omiten palabras que aparecen una sola vez en toda la colección
  • 30. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA SUPUESTOS PARA REPRESENTACIÓN DE UN DOCUMENTO • Reducción del número de atributos de un texto a partir de la ganancia de información (IG) que ofrecen: P(ci ) = Probabilidad de ci P(t) = Probabilidad de seleccionar un documento que contiene el término t P(ci |t) = Probabilidad de que un documento pertenezca a ci dado que tiene el término t P(t) = Probabilidad de seleccionar un documento que no contiene el término t P(ci |t) = Probabilidad de que un documento pertenezca a ci dado que no contiene el término t
  • 31. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA REPRESENTACIÓN DE UN DOCUMENTO • Una vez realizado el cálculo del IG para cada término o atributo, se define un umbral mínimo y todos aquellos términos cuyo IG esté por debajo del umbral se descartan términos o atributos t1 t2 t3 t4 t5 Documentos d1 11 11 11 11 11 d2 12 12 12 12 12 d3 13 13 13 13 13 j1 j2 j3 j4 j5 … dj … … … … … tn 11 12 13 jn
  • 32. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA Valores para los : • Binarios: 0 o 1, según el termino t se encuentre o no en documento d • Número de veces que aparece el termino t en el documento d • Combinación de frecuencia del termino t tanto en el documento d como en el resto de documentos Donde: N: tamaño de la colección, número total de documentos ni: número de documentos don de aparece el término i-esimo
  • 33. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA MÉTODO DE CLASIFICACIÓN NAIVE BAYES Probabilidad de que el documento dj pertenezca a la clase ci P(ci ) = Probabilidad de la clase ci , documentos en ci sobre total documentos de entrenamiento P(wtj |ci ) = cantidad de veces que wtj aparece en ci count(wtj ,ci ) = número de veces que wtj aparece en ci
  • 34. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA PROCESO IMPLEMENTACIÓN MODELO • Macro en word para convertir (jurisprudencias) de .doc a .txt los archivos • Python, AWK para limpiar los archivos y filtar palabras eliminando palabras vacias (no contienen información) • Modelo MapReduce para determinar la frecuencia de las palabras
  • 35. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA PROCESO IMPLEMENTACIÓN MODELO • En linux, en el directorio dirjuris se copian los archivos .txt convertidos • Se crea un solo archivo con todas las palabra del total de los archivos .txt, comando cat *.txt > todo.txt • Función de comando: mapeo sobre el archivo todo.txt tr A-Z a-z < todo.txt | tr -cd 'a-zn '|awk -f contar.awk|awk '{ if(length($1) > 3 && $2 > 10) print $2 " " $1 }'|sort –nr Se dejan palabras cuya frecuencia sea > 10 y cuya longitud sea > 3
  • 36. UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS MAESTRÍA DE TELEINFORMÁTICA CURSO BIG DATA GRACIAS