BIG DATA
LABORATORIO #8 - MARÍA G. ATONAIDAN
2
¿QUÉ ES BIG DATA?
Es el análisis masivo de datos. Una cuantía de
datos, tan sumamente grande, que las
aplicaciones de software de procesamiento de
datos que tradicionalmente se venían usando
no son capaces de capturar, tratar y poner en
valor en un tiempo razonable.
Igualmente, el mismo término se refiere a las
nuevas tecnologías que hacen posible el
almacenamiento y procesamiento, además de
al uso que se hace de la información obtenida a
través de dichas tecnologías.
HISTORIA DEL BIG DATA
• Los primeros antecedentes de registro de
información con un fin de predicción, se
remontan a la época del Paleolítico, cuando
se hacían muescas en piedras o huesos para
llevar un registro de las actividades.
• A finales del XVII, John Graunt lleva a cabo el
primer experimento registrado de análisis de
datos estadísticos sobre defunciones con el
cual diseña un sistema de alerta temprana
de la terrible peste bubónica que asolaba
Europa.
• En 1928, Fritz Pfleumer, ingeniero germano-
austríaco, inventa cómo almacenar
información magnéticamente en cinta.
3
• En 1965 el gobierno de los Estados Unidos
planeó el primer “Data Center” del
mundo para almacenar en cinta
magnética 742 millones de declaraciones
de impuestos y 175 millones de huellas
dactilares.
• A finales de la década de los 80s empieza
a utilizarse el término Big Data tal y como
lo empleamos en la actualidad.
• En 1997 debuta el buscador de Google y
desde ese momento ya se convierte en el
motor de búsqueda de datos más
utilizado de internet.
4
HISTORIA DEL BIG DATA
TIPOS DE DATOS QUE PUEDE ALMACENAR UN BIG DATA
5
Se presentan en un formato
bien definido y que poseen
campos fijos. Son hojas de
calculo, archivos, bases de
datos tradicionales
provenientes de CRM, ERP, etc.
DATOS ESTRUCTURADOS
Son datos de tipo indefinido
almacenados principalmente
como documentos u objetos
sin estructura fija ni bajo
ningún patrón concreto. Son
archivos de audio, video,
fotografía, etc.
DATOS NO
ESTRUCTURADOS
No tienen formato definido
pero si contienen etiquetas u
otros marcadores con el fin de
clasificar los elementos de
estos. Se encuentran los textos
con etiquetas XML y HTML.
DATOS SEMI
ESTRUCTURADOS
CLASIFICACIÓN DEL BIG DATA
Son datos obtenidos de la web y
redes sociales, como Twitter o
Facebook.
6
Son los datos que son generados por
instrumentos, como sensores o
medidores, y son enviados a través
de cualquier tipo de conexión a uno
o varios dispositivos que, a su vez,
traducen los en información
significativa, palpable, aprehensible
y entendible para el ser humano.
WEBY SOCIAL MEDIA MACHINETO MACHINE
Los datos que se pueden analizar mediante Big Data se pueden clasificar así:
Son datos generados por algún tipo
de transacción, como facturaciones,
interacciones bancarias, adquisición
de bienes, etc.
7
Son datos que las personas generan,
como documentos, correos
electrónicos, imágenes, videos,
audios, etc.
BIGTRANSACTION DATA HUMAN GENERATED
CLASIFICACIÓN DEL BIG DATA
Los datos que se pueden analizar mediante Big Data se pueden clasificar así:
BIOMETRICS
Son datos que incluyen información
biométrica, como huellas digitales,
escaneos de retina, reconocimiento
facial, etc.
LAS SIETEV DE BIG DATA
8
VOLUMEN
Los datos provienen de
diferentes tipos de fuentes,
esto hace que exista una
diversidad en el formato y
tipología en ellos. Los datos
podrán ser estructurados,
semi-estructurados o
desestructurados, y sus
fuentes podrán provenir de
text and imagen files, web
data, tweets, sensor data,
audio, video, entre otros.
VELOCIDAD
Se refiere a las formas, tipos
y fuentes en las que se
registran los datos. Estos
datos pueden ser datos
estructurados y fáciles de
gestionar como son las
bases de datos, o datos no
estructurados, entre los que
se incluyen documentos de
texto, correos electrónicos,
datos de sensores, audios,
etc.
VARIEDAD
Cantidad de datos que son
generados cada segundo,
minuto y días en nuestro
entorno. Es la característica
más asociada al Big Data,
ya que hace referencia a las
cantidades masivas de
datos que se almacenan
con la finalidad de procesar
dicha información,
transformando los datos en
acciones.
LAS SIETEV DE BIG DATA
9
Se busca promover la
búsqueda de la veracidad de
los datos para la obtención de
información confiable. A los
datos veraces se les puede
sacar un mayor provecho por
el grado de calidad que
presentan.
VERACIDAD
Hace referencia a
la rentabilidad
resultante de la gestión
de los datos. La clave
del Big Data no es la
cantidad ingente de
información, sino el uso
y/o manejo que se haga
de ella.
VALOR
Hace referencia a la
variabilidad en el significado,
en el léxico. Esto es relevante
a la hora de llevar a cabo
análisis de percepciones. Los
algoritmos deben ser capaces
de comprender el contexto y
descifrar el significado exacto
de cada palabra en su
respectivo entorno.
VARIABILIDAD
Es lograr que toda la
cantidad de datos
recolectados y analizados
sean comprensibles y
sencillos de leer. Sin una
visualización adecuada, no
se puede sacar el máximo
rendimiento y
aprovechamiento de los
datos en bruto.
VISUALIZACIÓN
BENEFICIOS DEL BIG DATA PARA LA EMPRESA
Puede mejorar sustancialmente la toma de decisiones
dentro de una compañía reduciendo al mínimo los riesgos.
Así, algunas organizaciones ya están optimizando sus
decisiones mediante el análisis de datos de clientes,
empleados, o incluso sensores incorporados en los
productos.
10
MEJORA EN LATOMA DE
DECISIONES
Implementar mejoras tecnológicas para la
empresa que posibilitan la adquisición de
datos y permiten descubrir las necesidades y
puntos de mejora en la compañía.
MEJORAA LA HORA DE
DESCUBRIR NECESIDADES
PARA LA EMPRESA
BENEFICIOS DEL BIG DATA PARA LA EMPRESA
Las empresas que digitalicen los datos y
habiliten herramientas para facilitar la
búsqueda de información crearán una
dinámica de trabajo más rápida y eficaz.
11
MEJORA DE LA ACCESIBILIDADY LA
FLUIDEZ DE LA INFORMACIÓN
DENTRO DE LA PROPIA EMPRESA
Permite actualizar, optimizar y afinar inventarios en
función de la demanda en tiempo real. El data mining
o extracción de datos posibilita el análisis del
comportamiento de los clientes, fijar los precios en
consecuencia u ofrecer los incentivos adecuados para
atraer a los clientes. Es posible realizarlo mediante la
digitalización de elementos como los almacenes o las
cajas registradoras.
VENTAJASCOMPETITIVAS EN
LA GRAN DISTRIBUCIÓN
BENEFICIOS DEL BIG DATA PARA LA EMPRESA
El análisis del Big Data puede acelerar la
velocidad con que se desarrolla un
producto. También permite compartir
datos de forma rápida y realizar
simulaciones de producto.
12
MEJORA DE LA EFICIENCIAY
LOS COSTES
Las empresas pueden orientar sus servicios y
satisfacer las necesidades de sus consumidores de
forma específica. La personalización de productos
y servicios es una de las tendencias que pisa más
fuerte actualmente.
SEGMENTACIÓN DE LOS CLIENTES
PARA PERSONALIZARACCIONES
IMPORTANCIA PARA LAS
EMPRESAS
13
El análisis de Big Data ayuda a las empresas a utilizar de la
manera más beneficiosa sus datos para identificar nuevas
oportunidades. Esto conduce a movimientos de negocios
más inteligentes, operaciones más eficientes, mayores
ganancias y clientes más felices. Big Data permite a las
empresas conseguir valor de las siguientes formas:
• Mejor y más rápida toma de decisiones: Con la
velocidad combinada con la capacidad de analizar
nuevas fuentes de datos, las empresas pueden analizar
la información inmediatamente y tomar decisiones
basadas en lo que han aprendido.
• Reducción de coste: Las grandes tecnologías de datos
aportan importantes ventajas en términos de costes
cuando se trata de almacenar grandes cantidades de
datos, además de identificar maneras más eficientes de
hacer negocios.
• Nuevos productos y servicios: Con la capacidad de
medir las necesidades de los clientes y la satisfacción a
través de análisis viene el poder de dar a los clientes lo
que quieren. Con la analítica de Big Data, más empresas
están creando nuevos productos para satisfacer las
necesidades de los clientes.

Lab #8

  • 1.
    BIG DATA LABORATORIO #8- MARÍA G. ATONAIDAN
  • 2.
    2 ¿QUÉ ES BIGDATA? Es el análisis masivo de datos. Una cuantía de datos, tan sumamente grande, que las aplicaciones de software de procesamiento de datos que tradicionalmente se venían usando no son capaces de capturar, tratar y poner en valor en un tiempo razonable. Igualmente, el mismo término se refiere a las nuevas tecnologías que hacen posible el almacenamiento y procesamiento, además de al uso que se hace de la información obtenida a través de dichas tecnologías.
  • 3.
    HISTORIA DEL BIGDATA • Los primeros antecedentes de registro de información con un fin de predicción, se remontan a la época del Paleolítico, cuando se hacían muescas en piedras o huesos para llevar un registro de las actividades. • A finales del XVII, John Graunt lleva a cabo el primer experimento registrado de análisis de datos estadísticos sobre defunciones con el cual diseña un sistema de alerta temprana de la terrible peste bubónica que asolaba Europa. • En 1928, Fritz Pfleumer, ingeniero germano- austríaco, inventa cómo almacenar información magnéticamente en cinta. 3
  • 4.
    • En 1965el gobierno de los Estados Unidos planeó el primer “Data Center” del mundo para almacenar en cinta magnética 742 millones de declaraciones de impuestos y 175 millones de huellas dactilares. • A finales de la década de los 80s empieza a utilizarse el término Big Data tal y como lo empleamos en la actualidad. • En 1997 debuta el buscador de Google y desde ese momento ya se convierte en el motor de búsqueda de datos más utilizado de internet. 4 HISTORIA DEL BIG DATA
  • 5.
    TIPOS DE DATOSQUE PUEDE ALMACENAR UN BIG DATA 5 Se presentan en un formato bien definido y que poseen campos fijos. Son hojas de calculo, archivos, bases de datos tradicionales provenientes de CRM, ERP, etc. DATOS ESTRUCTURADOS Son datos de tipo indefinido almacenados principalmente como documentos u objetos sin estructura fija ni bajo ningún patrón concreto. Son archivos de audio, video, fotografía, etc. DATOS NO ESTRUCTURADOS No tienen formato definido pero si contienen etiquetas u otros marcadores con el fin de clasificar los elementos de estos. Se encuentran los textos con etiquetas XML y HTML. DATOS SEMI ESTRUCTURADOS
  • 6.
    CLASIFICACIÓN DEL BIGDATA Son datos obtenidos de la web y redes sociales, como Twitter o Facebook. 6 Son los datos que son generados por instrumentos, como sensores o medidores, y son enviados a través de cualquier tipo de conexión a uno o varios dispositivos que, a su vez, traducen los en información significativa, palpable, aprehensible y entendible para el ser humano. WEBY SOCIAL MEDIA MACHINETO MACHINE Los datos que se pueden analizar mediante Big Data se pueden clasificar así:
  • 7.
    Son datos generadospor algún tipo de transacción, como facturaciones, interacciones bancarias, adquisición de bienes, etc. 7 Son datos que las personas generan, como documentos, correos electrónicos, imágenes, videos, audios, etc. BIGTRANSACTION DATA HUMAN GENERATED CLASIFICACIÓN DEL BIG DATA Los datos que se pueden analizar mediante Big Data se pueden clasificar así: BIOMETRICS Son datos que incluyen información biométrica, como huellas digitales, escaneos de retina, reconocimiento facial, etc.
  • 8.
    LAS SIETEV DEBIG DATA 8 VOLUMEN Los datos provienen de diferentes tipos de fuentes, esto hace que exista una diversidad en el formato y tipología en ellos. Los datos podrán ser estructurados, semi-estructurados o desestructurados, y sus fuentes podrán provenir de text and imagen files, web data, tweets, sensor data, audio, video, entre otros. VELOCIDAD Se refiere a las formas, tipos y fuentes en las que se registran los datos. Estos datos pueden ser datos estructurados y fáciles de gestionar como son las bases de datos, o datos no estructurados, entre los que se incluyen documentos de texto, correos electrónicos, datos de sensores, audios, etc. VARIEDAD Cantidad de datos que son generados cada segundo, minuto y días en nuestro entorno. Es la característica más asociada al Big Data, ya que hace referencia a las cantidades masivas de datos que se almacenan con la finalidad de procesar dicha información, transformando los datos en acciones.
  • 9.
    LAS SIETEV DEBIG DATA 9 Se busca promover la búsqueda de la veracidad de los datos para la obtención de información confiable. A los datos veraces se les puede sacar un mayor provecho por el grado de calidad que presentan. VERACIDAD Hace referencia a la rentabilidad resultante de la gestión de los datos. La clave del Big Data no es la cantidad ingente de información, sino el uso y/o manejo que se haga de ella. VALOR Hace referencia a la variabilidad en el significado, en el léxico. Esto es relevante a la hora de llevar a cabo análisis de percepciones. Los algoritmos deben ser capaces de comprender el contexto y descifrar el significado exacto de cada palabra en su respectivo entorno. VARIABILIDAD Es lograr que toda la cantidad de datos recolectados y analizados sean comprensibles y sencillos de leer. Sin una visualización adecuada, no se puede sacar el máximo rendimiento y aprovechamiento de los datos en bruto. VISUALIZACIÓN
  • 10.
    BENEFICIOS DEL BIGDATA PARA LA EMPRESA Puede mejorar sustancialmente la toma de decisiones dentro de una compañía reduciendo al mínimo los riesgos. Así, algunas organizaciones ya están optimizando sus decisiones mediante el análisis de datos de clientes, empleados, o incluso sensores incorporados en los productos. 10 MEJORA EN LATOMA DE DECISIONES Implementar mejoras tecnológicas para la empresa que posibilitan la adquisición de datos y permiten descubrir las necesidades y puntos de mejora en la compañía. MEJORAA LA HORA DE DESCUBRIR NECESIDADES PARA LA EMPRESA
  • 11.
    BENEFICIOS DEL BIGDATA PARA LA EMPRESA Las empresas que digitalicen los datos y habiliten herramientas para facilitar la búsqueda de información crearán una dinámica de trabajo más rápida y eficaz. 11 MEJORA DE LA ACCESIBILIDADY LA FLUIDEZ DE LA INFORMACIÓN DENTRO DE LA PROPIA EMPRESA Permite actualizar, optimizar y afinar inventarios en función de la demanda en tiempo real. El data mining o extracción de datos posibilita el análisis del comportamiento de los clientes, fijar los precios en consecuencia u ofrecer los incentivos adecuados para atraer a los clientes. Es posible realizarlo mediante la digitalización de elementos como los almacenes o las cajas registradoras. VENTAJASCOMPETITIVAS EN LA GRAN DISTRIBUCIÓN
  • 12.
    BENEFICIOS DEL BIGDATA PARA LA EMPRESA El análisis del Big Data puede acelerar la velocidad con que se desarrolla un producto. También permite compartir datos de forma rápida y realizar simulaciones de producto. 12 MEJORA DE LA EFICIENCIAY LOS COSTES Las empresas pueden orientar sus servicios y satisfacer las necesidades de sus consumidores de forma específica. La personalización de productos y servicios es una de las tendencias que pisa más fuerte actualmente. SEGMENTACIÓN DE LOS CLIENTES PARA PERSONALIZARACCIONES
  • 13.
    IMPORTANCIA PARA LAS EMPRESAS 13 Elanálisis de Big Data ayuda a las empresas a utilizar de la manera más beneficiosa sus datos para identificar nuevas oportunidades. Esto conduce a movimientos de negocios más inteligentes, operaciones más eficientes, mayores ganancias y clientes más felices. Big Data permite a las empresas conseguir valor de las siguientes formas: • Mejor y más rápida toma de decisiones: Con la velocidad combinada con la capacidad de analizar nuevas fuentes de datos, las empresas pueden analizar la información inmediatamente y tomar decisiones basadas en lo que han aprendido. • Reducción de coste: Las grandes tecnologías de datos aportan importantes ventajas en términos de costes cuando se trata de almacenar grandes cantidades de datos, además de identificar maneras más eficientes de hacer negocios. • Nuevos productos y servicios: Con la capacidad de medir las necesidades de los clientes y la satisfacción a través de análisis viene el poder de dar a los clientes lo que quieren. Con la analítica de Big Data, más empresas están creando nuevos productos para satisfacer las necesidades de los clientes.