SlideShare una empresa de Scribd logo
1 de 62
SJM Computación 4.0 1
Por: Enmer Leandro R.
INTRODUCCIÓN
Actualmente, en muchas empresas uno de los activos más valiosos que tienen es la información
que poseen, ya que como dice la famosa cita de Francis Bacon «la información es poder» y las
empresas son cada vez más conscientes de este hecho.
La llegada de Internet y la enorme cantidad de dispositivos que están continuamente
conectados a la red ha ayudado a aumentar de modo exponencial el volumen de información
que los usuarios generamos y esa información es realmente “el activo” del siglo XXI.
Todo ese enorme volumen de información que generamos cada día es almacenada, analizada y
procesada para que en función de los resultados se puedan obtener conclusiones que permitan
tomar decisiones para minimizar costes, maximizar producción, ajustar horarios, gestionar
pedidos, rutas de envío, etc. en base a los datos obtenidos en la fase de análisis de datos, esto
se conoce como Big Data.
Big Data nació con el objetivo de cubrir unas necesidades no satisfechas por las tecnologías
existentes, como es el almacenamiento y tratamiento de grandes volúmenes de datos
SJM Computación 4.0 2
DEFINICIÓN
En la actualidad tenemos:
1. Gran cantidad de datos acumulados que hacía inviable su procesamiento en un único ordenador
2. Imposible analizar con las técnicas tradiciones de Base de Datos
3. Imposible almacenarlas siguiendo el modelo clásico de Base de Datos
4. Heterogeneidad de datos. Necesidad de insertar, consultar y procesar datos en diferentes estructuras
5. Necesidad de procesar rápidamente los datos.
El Big Data (datos masivos, macrodatos) es el análisis masivo de datos, una cantidad de datos,
tan sumamente grande, que las aplicaciones de software de procesamiento de datos que
tradicionalmente se venían usando no son capaces de capturar, tratar y poner en valor en un
tiempo razonable; Por ende, los procedimientos usados para encontrar patrones repetitivos
dentro de esos datos son más sofisticados y requieren software especializado.
El uso moderno del término "big data" tiende a referirse al análisis del comportamiento del
usuario, extrayendo valor de los datos almacenados, y formulando predicciones a través de los
patrones observados. La disciplina dedicada a los datos masivos se enmarca en el sector de
las tecnologías de la información y la comunicación
SJM Computación 4.0 3
CARACTERÍSTICAS: conformado por 5 V
El volumen se refiere a la cantidad de datos que son generados cada segundo, minuto y días en
nuestro entorno. Es la característica más asociada al Big Data, ya que hace referencia a las
cantidades masivas de datos que se almacenan con la finalidad de procesar dicha información,
transformando los datos en acciones.
El volumen significa gran tamaño. Así en el año 2020 se esperan que en el mundo se almacenen
35 Zettabytes. Los datos crecen, habiendo pasado ya por la era del Petabyte y posteriormente
Exabyte, hasta llegar a hoy.
Cada vez estamos más conectados al mundo 2.0 por lo que generamos más y más datos. Para
algunas empresas, el estar en el mundo digital es algo obligatorio, por lo que la cantidad de
datos generados es aún mayor. Por ejemplo, una empresa que vende sus productos únicamente
a través de un canal online, le convendría implantar tecnología Big Data para procesar toda
aquella información que recoge su página web rastreando todas las acciones que lleva a cabo el
cliente; conocer donde cliquea más veces, cuántas veces ha pasado por el carrito de la compra,
cuáles son los productos más vistos, las páginas más visitadas, etc.
1.- VOLUMEN
SJM Computación 4.0 4
Son 5 características principales del Big Data:
Diferencia entre la "b" minúscula y la "B" mayúscula. La "b" siempre significa "bit", mientras que la "B"
siempre significa "Byte". Esto es sumamente importante saberlo, y muchos escritores de columnas que
no conocen esta diferencia a veces no hacen esta distinción teniendo eso como resultado que lo que
publican es en realidad 8 veces mayor o 8 veces menor a la realidad (debido a que 8 bits son 1 Byte)
VOLUMEN - Equivalencias
SJM Computación 4.0 5
2.- VARIEDAD
La variedad se refiere a las formas, tipos y fuentes en las que se registran los datos. Estos datos
pueden ser datos estructurados y fáciles de gestionar como son las bases de datos, o datos no
estructurados, entre los que se incluyen documentos de texto, correos electrónicos, datos de
sensores, audios, vídeos o imágenes que tenemos en nuestro dispositivo móvil, hasta
publicaciones en nuestros perfiles de redes sociales, artículos que leemos en blogs, las
secuencias de click que hacemos en una misma página, formularios de registro e infinidad de
acciones más que realizamos desde nuestro Smartphone, Tablet y ordenador.
Estos últimos datos requieren de una herramienta específica, debido a que el tratamiento de la
información es totalmente diferente con respecto a los datos estructurados. Para ello, las
empresas necesitan integrar, observar y procesar datos que son recogidos a través de múltiples
fuentes de información con herramientas cualificadas.
Los macrodatos usan textos, imágenes, audio y vídeo.
El tipo y naturaleza de los datos permite ayudar a las personas a analizar los datos y usar los
resultados de forma eficaz.
SJM Computación 4.0 6
3.- VELOCIDAD
Velocidad se refiere a la rapidez con que los datos se reciben, se procesan y se toman
decisiones a partir de ellos. A la mayoría de los sistemas tradicionales les es imposible analizar
de forma inmediata los grandes volúmenes de datos que les llegan, sin embargo, incorporar el
concepto de tiempo real es imprescindible para sistemas de detección del fraude o la
realización de oferta personalizadas a los clientes.
Nuestro concepto de inmediatez ha cambiado en los últimos tiempos y se busca información
que llegue prácticamente al instante. Noticias que no llegan al día de antigüedad, en simple
cuestión de horas y, en ocasiones, minutos, pueden haber perdido interés. Así, la velocidad de
análisis requerida por la sociedad actual es una de las características fundamentales que tienen
los datos a gran escala, donde los datos en constante movimiento procesados a tiempo real
cobran protagonismo, ejecutando algoritmos cada vez más complejos en menos tiempo.
SJM Computación 4.0 7
4.- VERACIDAD
Cuando hablamos de veracidad nos referimos a la incertidumbre de los datos, es decir, al grado
de fiabilidad de la información recibida.
Es necesario invertir tiempo para conseguir datos de calidad, aplicando soluciones y métodos
que puedan eliminar datos imprevisibles que puedan surgir como datos económicos,
comportamientos de los consumidores que puedan influir en las decisiones de compra.
La necesidad de explorar y planificar la incertidumbre es un reto para el Big Data que está a la
orden del día en las compañías dedicadas al análisis de datos.
La calidad de los datos capturados puede variar mucho y así afectar a los resultados del análisis.
saber la fiabilidad de la información recogida es importante para obtener unos datos de calidad
e, incluso, dependiendo de las aplicaciones que se le vaya a dar a misma, se convierte en
fundamental. Es un factor que puede influir mucho en conseguir una ventaja competitiva en la
explotación del Big Data.
SJM Computación 4.0 8
5.- VALOR
El dato no es valor. Tampoco tienes valor por el mero hecho de recopilar gran cantidad de
información. El valor se obtiene de datos que se transforman en información; esta a su vez se
convierte en conocimiento, y este en acción o en decisión. El valor de los datos está en que
sean accionables, es decir, que los responsable de la empresas puedan tomar una decisión (la
mejor decisión) en base a estos datos.
No todos los datos de los que partimos se convierten en acción o decisión. Para ello, es
necesario tener tecnologías aplicadas. Por ejemplo, una publicación en una red social, que
gracias al uso de tecnologías de procesamiento de lenguaje natural, puede medir el sentimiento
positivo o negativo, con la ayuda de un algoritmo de análisis de redes sociales o herramientas
que permitan obtener de esto información.
Los datos generados deben ser útiles, accionables y tener valor.
SJM Computación 4.0 9
1.- Velocidad en la toma de decisiones:
La información es fundamental como base para la correcta toma de decisiones, y mucho más
cuando podemos manejar de forma dinámica toda la información que nos proporciona el Big
Data. Podremos asumir decisiones inteligentes y veloces que ayuden a favorecer a nuestro
negocio, puesto que éstas se han basado en un fundamento férreo. Es posible realizar de
manera fluida un análisis de oportunidad antes de poner cualquier producto o servicio en el
mercado.
2.- Planes estratégicos Inteligentes de Marketing:
A través de los datos que nos proporciona el Big Data, a día de hoy es posible analizar y predecir
el comportamiento que un usuario tendrá en la red, conocer qué piensan los clientes sobre una
marca o un producto, y cuáles son sus necesidades reales sobre la adquisición de productos o
servicios. Se pueden analizar parámetros relativos al perfil específico de cada usuario, sus
preferencias, sus tendencias o su vinculación a la marca, de forma que nos sea posible elaborar
campañas dirigidas de marketing con un nivel alto de personalización.
VENTAJAS DEL BIG DATA
SJM Computación 4.0 10
VENTAJAS DEL BIG DATA (continuación)
3.- Mejora en la eficiencia…. y en costes:
El correcto manejo del Big Data puede impulsar rápidamente la velocidad a la que evoluciona
un producto o servicio, debido a que disponemos de multitud de datos con la información que
nos da el mercado. De esta manera los plazos para el desarrollo de un producto o servicio se
acortan en el tiempo, así como los costes asociados al proceso que se derivan del desarrollo del
mismo.
4.- Vinculación de clientes:
Cada día captar nuevos clientes es más complicado, y a su vez, esta adquisición de nuevos
usuarios es más costosa que fidelizar a los que ya tenemos en el fondo de comercio. Es esencial
utilizar correctamente los datos de los que disponemos para dar a nuestros clientes lo que
desean de una forma personalizada, y para ello es fundamental el Big Data. Por lo tanto,
conocer a través de los datos el nivel de satisfacción de nuestros clientes, sus necesidades,
etcétera, es uno de los puntos base para tener a los clientes fidelizados.
SJM Computación 4.0 11
VENTAJAS DEL BIG DATA (continuación)
5.- Variables del entorno:
Un punto importante a tener en cuenta en la utilización del Big Data es la agregación de datos del entorno
que afectan al proceso principal. Estas variables no están dirigidas netamente al análisis de un cliente ni a
su comportamiento directo por sus acciones en online, sino que responden al ecosistema que puede
afectar a un cliente en el momento de la decisión de compra. Introducir en la fórmula de análisis datos
provenientes de fuentes externas como pueden ser la meteorología, las estaciones del año, o la zona en la
cual vive el usuario hace que el cálculo aplicado gane puntos de eficiencia, dirigiendo mejor nuestros
productos y servicios no solo a comunidades específicas sino a temporadas concretas.
6.- Feedback y retroalimentación:
Una de las aplicaciones de mayor relevancia en la utilización del Big Data es la posibilidad de analizar los
resultados de las acciones realizadas en tiempo real, lo que permite ver cuáles son los aspectos que más
éxito han podido tener, o corregir rápidamente las posibles desviaciones en las estrategias diseñadas. El
constante análisis del feedback de las acciones realizadas con una tecnología dinámica y veloz permite no
tener costes extra innecesarios a la hora de proseguir con nuestras estrategias de comercialización.
Pocos son los que dudan de que estamos en la era del Big Data, siendo uno de los elementos más
competitivos y que más valor añadido aporta a las empresas en el momento de definición sus estrategias.
SJM Computación 4.0 12
Datos estructurados: datos que tienen bien definidos su longitud y su formato, como las
fechas, los números o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son
las bases de datos relacionales y los almacenes de datos.
Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen de un
formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar
su información a tipos básicos de datos. Algunos ejemplos son los PDF, documentos
multimedia, correos electrónicos o documentos de texto.
Datos semiestructurados: datos que no se limitan a campos determinados, pero que contiene
marcadores para separar los diferentes elementos. Es una información poco regular como para
ser gestionada de una forma estándar. Estos datos poseen sus
propios metadatos semiestructurados​ que describen los objetos y las relaciones entre ellos, y
pueden acabar siendo aceptados por convención. Como ejemplos tenemos los archivos
tipo hojas de cálculo, HTML, XML o JSON.
TIPOS DE DATOS EN BIG DATA
SJM Computación 4.0 13
SJM Computación 4.0 14
GENERACIÓN DE DATOS EN BIG DATA
SJM Computación 4.0 15
GENERACIÓN DE DATOS EN BIG DATA
1.- Generados por las propias personas.
El hecho de enviar correos electrónicos o
mensajes por WhatsApp, publicar un estado
en Facebook, publicar relaciones laborales
en Linkedin, tuitear contenidos o responder a
una encuesta por la calle son cosas que
hacemos a diario y que crean nuevos datos
y metadatos que pueden ser analizados. Se
estima que cada minuto al día se envían más
de 200 millones de correos electrónicos, se
comparten más de 700 000 piezas de
contenido en Facebook, se realizan dos
millones de búsquedas en Google o se editan 48 horas de vídeo en YouTube. Por otro lado, las
trazas de utilización en un sistema ERP, incluir registros en una base de datos o introducir
información en una hoja de cálculo son otras formas de generar estos datos.
SJM Computación 4.0 16
GENERACIÓN DE DATOS EN BIG DATA
2.- Obtenidas a partir de transacciones.
La facturación, tarjetas de fidelización,
las llamadas telefónicas, las conexiones
torres de telefonía, los accesos a wifis
públicas, el pago con tarjetas de crédito o
las transacciones entre cuentas bancarias
generan información que tratada puede
ser datos relevantes. Por ejemplo
transacciones bancarias: Lo que el
usuario conoce como un ingreso de X
euros, el sistema lo capturará como una
acción llevada a cabo en una fecha y
momento determinado, en un lugar
concreto, entre unos usuarios
registrados, y con ciertos metadatos.
SJM Computación 4.0 17
GENERACIÓN DE DATOS EN BIG DATA
3.- Mercadotecnia electrónica y web.
Se genera una gran cantidad de datos
cuando se navega por internet. Con
la web 2.0 se ha roto
el paradigma webmaster-contenido-lector y
los mismos usuarios se convierten en
creadores de contenido gracias a su
interacción con el sitio. Existen muchas
herramientas de seguimiento utilizadas en
su mayoría con fines
de mercadotecnia y análisis de negocio. Los
movimientos de ratón quedan grabados
en mapas de calor y queda registro de
cuánto pasamos en cada página y cuándo
las visitamos.
SJM Computación 4.0 18
GENERACIÓN DE DATOS EN BIG DATA
4.- Obtenidos a partir de las interacciones
máquina a máquina (M2M).
Son datos obtenidos a partir de la recogida
de métricas obtenidas desde dispositivos
(medidores, sensores de temperatura, de
luz, de altura, de presión, de sonido…) que
transforman las magnitudes físicas o
químicas y las convierten en datos. Existen
desde hace décadas, pero la llegada de las
comunicaciones inalámbricas
(wifi, Bluetooth, RFID, etc.) ha revolucionado
el mundo de los sensores. Algunos ejemplos son los GPS en la automoción, los sensores de
signos vitales (muy útil para seguros de vida), pulseras en los festivales​, monitorizadores del
funcionamiento y conducción de autoḿoviles (se obtiene información muy útil para la
aseguradoras)​, los smartphone (son sensores de localización).
SJM Computación 4.0 19
GENERACIÓN DE DATOS EN BIG DATA
5.- Datos biométricos recolectados.
En general provienen de servicios
de seguridad, defensa y servicios de
inteligencia. Son cantidades de
datos generados por lectores
biométricos como escáneres de
retina, escáneres de huellas
digitales, o lectores de cadenas
de ADN. El propósito de estos datos
es proporcionar mecanismos de
seguridad y suelen estar
custodiados
por los ministerios de defensa y departamentos de inteligencia. Un ejemplo de aplicación es el
cruce de ADN entre una muestra de un crimen y una muestra en nuestra base de datos.
SJM Computación 4.0 20
TRANSFORMACIÓN DE DATOS EN BIG DATA
Una vez encontradas las fuentes de los
datos necesarios, muy posiblemente
dispongamos de un sinfín de tablas de
origen que no estarán relacionadas. El
siguiente objetivo es hacer que los datos
se recojan en un mismo lugar y darles un
formato adecuado.
Aquí entran en juego las
plataformas extraer, transformar y
cargar (ETL). Su propósito es extraer los
datos de las diferentes fuentes y sistemas,
para después hacer transformaciones
(conversiones de datos, limpieza de datos sucios, cambios de formato, etc.) y finalmente cargar
los datos en la base de datos o almacén de datos especificada. Un ejemplo de plataforma ETL
es el Pentaho Data Integration, más concretamente su aplicación Spoon.
SJM Computación 4.0 21
ALMACENAMIENTO DE DATOS NoSQL
El término NoSQL se refiere a Not Only SQL (no solo SQL) - SQL (Structured Query Language =
lenguaje de consulta estructurada es un lenguaje de dominio específico utilizado en
programación, diseñado para administrar, y recuperar información de sistemas de gestión de
bases de datos relacionales). y son sistemas de almacenamiento que no cumplen con el
esquema entidad-relación. Proveen un sistema de almacenamiento mucho más flexible y
concurrente y permiten manipular grandes cantidades de información de manera mucho más
rápida que las bases de datos relacionales.
Distinguimos cuatro grandes grupos de bases de datos NoSQL:
1.- Almacenamiento clave-valor (key-value):
Los datos se almacenan de forma similar a los mapas o diccionarios de datos, donde se accede
al dato a partir de una clave única. Los valores (datos) son aislados e independientes entre ellos,
y no son interpretados por el sistema. Pueden ser variables simples como enteros o caracteres,
u objetos. Por otro lado, este sistema de almacenamiento carece de una estructura de datos
clara y establecida, por lo que no requiere un formateo de los datos muy estricto.
Son útiles para operaciones simples basadas en las claves. Un ejemplo es el aumento de
velocidad de carga de un sitio web que puede utilizar diferentes perfiles de usuario, teniendo
SJM Computación 4.0 22
ALMACENAMIENTO NoSQL
mapeados los archivos que hay que incluir según el id de usuario y que han sido calculados con
anterioridad. Apache Cassandra es la tecnología de almacenamiento clave-valor más reconocida
por los usuarios.
2.- Almacenamiento documental:
Las bases de datos documentales guardan un gran parecido con las bases de datos Clave-Valor,
diferenciándose en el dato que guardan. Si en el anterior no se requería una estructura de
datos concreta, en este caso guardamos datos semiestructurados. Estos datos pasan a llamarse
documentos, y pueden estar formateados en XML, JSON, Binary JSON o el que acepte la
misma base de datos. Todos los documentos tienen una clave única con la que pueden ser
accedidos e identificados explícitamente, por lo que pueden ser interpretados y lanzar queries
sobre ellos. Un ejemplo que aclare cómo se usa lo encontramos en un blog: se almacena el
autor, la fecha, el título, el resumen y el contenido del post.
CouchDB o MongoDB son quizá las más conocidas. Hay que hacer mención especial
a MapReduce, una tecnología de Google inicialmente diseñada para su algoritmo PageRank, que
permite seleccionar un subconjunto de datos, agruparlos o reducirlos y cargarlos en otra
colección, y a Hadoop que es una tecnología de Apache diseñada para almacenar y procesar
grandes cantidades de datos.
SJM Computación 4.0 23
ALMACENAMIENTO NoSQL
3.- Almacenamiento en grafo:
Las bases de datos en grafo rompen con la idea de tablas y se basan en la teoría de grafos,
donde se establece que la información son los nodos y las relaciones entre la información son
las aristas,​ algo similar al modelo relacional. Su mayor uso se contempla en casos de relacionar
grandes cantidades de datos que pueden ser muy variables. Por ejemplo, los nodos pueden
contener objetos, variables y atributos diferentes en unos y otros. Las operaciones de join se
sustituyen por recorridos a través del grafo, y se guarda una lista de adyacencias entre los
nodos. Encontramos un ejemplo en las redes sociales: en Facebook cada nodo se considera
un usuario, que puede tener aristas de amistad con otros usuarios, o aristas de publicación
con nodos de contenidos. Soluciones como Neo4J y GraphDB son las más conocidas dentro de
las bases de datos en grafo.
4.- Almacenamiento orientado a columnas:
Este almacenamiento es parecido al documental. Su modelo de datos es definido como «un
mapa de datos multidimensional poco denso, distribuido y persistente». Se orienta a almacenar
datos con tendencia a escalar horizontalmente, por lo que permite guardar
diferentes atributos y objetos bajo una misma clave.
SJM Computación 4.0 24
ALMACENAMIENTO NoSQL
A diferencia del documental y el clave-valor, en este caso se pueden almacenar
varios atributos y objetos, pero no serán interpretables directamente por el sistema. Permite
agrupar columnas en familias y guardar la información cronológicamente, mejorando el
rendimiento. Esta tecnología se acostumbra a usar en casos con 100 o más atributos por clave.
Su precursor es BigTable de Google, pero han aparecido nuevas soluciones como HBase o
HyperTable.
SJM Computación 4.0 25
ANÁLISIS DE DATOS
El análisis permite mirar los datos y explicar lo que esta pasando. Teniendo los datos necesarios
almacenados según diferentes tecnologías de almacenamiento, nos daremos cuenta que
necesitaremos diferentes técnicas de análisis de datos como las siguientes:
a.-Asociación: permite encontrar relaciones entre diferentes variables. Bajo la premisa de
causalidad, se pretende encontrar una predicción en el comportamiento de otras variables.
Estas relaciones pueden ser los sistemas de ventas cruzadas en los comercios electrónicos.
b.- Minería de datos (data mining): tiene como objetivo encontrar comportamientos
predictivos. Engloba el conjunto de técnicas que combina métodos estadísticos y de aprendizaje
automático con almacenamiento en bases de datos. Está estrechamente relacionada con
los modelos utilizados para descubrir patrones en grandes cantidades de datos.
c.- Agrupación (clustering): el análisis de clústeres es un tipo de minería de datos que divide
grandes grupos de individuos en grupos más pequeños de los cuales no conocíamos su parecido
antes del análisis. El propósito es encontrar similitudes entre estos grupos, y el descubrimiento
de nuevos, conociendo cuáles son las cualidades que lo definen. Es una metodología apropiada
para encontrar relaciones entre resultados y hacer una evaluación preliminar de la estructura
de los datos analizados. Existen diferentes técnicas y algoritmos de clusterización.
SJM Computación 4.0 26
ANÁLISIS DE DATOS
d.- Análisis de texto (text analytics): gran parte de los datos generados por las personas son
textos, como correos, búsquedas web o contenidos. Esta metodología permite extraer
información de estos datos y así modelar temas y asuntos o predecir palabras.
SJM Computación 4.0 27
VISUALIZACIÓN DE DATOS
La mente agradece mucho más una
presentación bien estructurada de resultados
estadísticos en gráficos o mapas en vez de en
tablas con números y conclusiones.
Mondrian es una plataforma que permite
visualizar la información a través de los análisis
llevados a cabo sobre los datos que
disponemos. Con esta plataforma se intenta
llegar a un público más concreto, y una
utilidad más acotada como un cuadro de
mando integral de una organización. En los
últimos años se han generalizado otras
plataformas como Tableau, Power BI y Qlik.
Por otro lado, las infografías se han vuelto un fenómeno viral, donde se recogen los resultados
de los diferentes análisis sobre nuestros datos, y son un material atractivo, entretenido y
simplificado para audiencias masivas.
SJM Computación 4.0 28
VISUALIZACIÓN DE DATOS
SJM Computación 4.0 29
EL CICLO DEL BIG DATA
EL CICLO DE GESTIÓN DE INFORMACIÓN EN 4 FASES
1.-
2.-
SJM Computación 4.0 30
EL CICLO DE GESTIÓN DE INFORMACIÓN EN 4 FASES (cont.)
3.-
4.-
SJM Computación 4.0 31
HERRAMIENTAS DEL BIG DATA (software)
SJM Computación 4.0 32
Existen muchísimas herramientas para el manejo de BIG DATA.
Trataremos las principales herramientas:
1.- MAPREDUCE
2.- HADOOP
3.- APACHE SPARK
4.- APACHE STORM
5.- APACHE HIVE
6.- MONGO DB
7.-PYTHON
8.- CASSANDRA
MapReduce es un framework creado por Google, y pensado para realizar operaciones de forma paralela
sobre grandes colecciones de datos. Este framework está compuesto de dos funciones principales: la
función Map y la función Reduce. De ahí ese nombre tan original. La función Map se encarga, de forma
paralela, de mapear los datos de origen. Para cada dato de origen, se genera una dupla clave-valor, las
cuales son unidas en una lista que se pasa a la función Reduce. Después, la función Reduce, trata cada
elemento de la lista de pares y realiza operaciones sobre ella para devolver un dato concreto.
MAPREDUCE
SJM Computación 4.0 33
Hadoop es un sistema de código abierto que se utiliza para almacenar, procesar y analizar grandes
volúmenes de datos. Sus ventajas son muchas:
- Aísla a los desarrolladores de todas las dificultades presentes en la programación paralela.
- Cuenta con un ecosistema que sirve de gran ayuda al usuario, ya que permite distribuir el fichero en
nodos, que no son otra cosa que ordenadores con commodity-hardware.
- Es capaz de ejecutar procesos en paralelo en todo momento.
- Dispone de módulos de control para la monitorización de los datos.
- Presenta una opción que permite realizar consultas.
- También potencia la aparición de distintos add- ons, que facilitan el trabajo, manipulación y seguimiento
de toda la información que en él se almacena.
Esta solución, que posteriormente se denominará Hadoop, se basa en un gran número de pequeños
ordenadores, cada uno de los cuales se encarga de procesar una porción de información. La grandiosidad
del sistema es que, a pesar de que cada uno de ellos funciona de forma independiente y autónoma,
todos actúan en conjunto, como si fueran un solo ordenador de dimensiones increíbles.
HADOOP
SJM Computación 4.0 34
Hadoop proporciona un almacenamiento masivo para cualquier tipo de datos, un enorme poder de
procesamiento y la capacidad de manejar tareas o trabajos prácticamente ilimitados.
Hadoop es importante porque tiene:
Capacidad para almacenar y procesar grandes cantidades de cualquier tipo de datos rápidamente. Con
volúmenes y variedad de datos en constante aumento, especialmente de lo que se refiere a medios de
comunicación social y del Internet de las Cosas, esto es una consideración clave.
Poder de procesamiento. El modelo de computación distribuida de Hadoop procesa rápidamente Big Data.
Cuantos más nodos de computación se utilizan, más poder de procesamiento tendrás.
Tolerancia a fallos. Los datos y el procesamiento de aplicaciones están protegidos contra fallos de hardware.
Si un nodo disminuye, los trabajos se redirigen automáticamente a otros nodos para asegurarse de que la
computación distribuida no falla. Se almacenan automáticamente varias copias de todos los datos.
Flexibilidad. A diferencia de las bases de datos relacionales tradicionales, no es necesario preprocesar los
datos antes de almacenarlos. Puedes almacenar tantos datos como desees y decidir cómo utilizarlos más
tarde. Esto incluye datos no estructurados como texto imágenes y vídeo.
Bajo coste. Es de código abierto, gratuito y utiliza hardware básico para almacenar grandes cantidades de
datos.
Escalabilidad. Puedes hacer crecer fácilmente el sistema para manejar más datos simplemente añadiendo
nodos. Se requiere poca administración.
HADOOP (continuación)
SJM Computación 4.0 35
APACHE SPARK
Apache Spark fue creado en la Universidad de Berkeley (California) y es considerado el primer software
de código abierto que hace la programación distribuida accesible a los científicos de datos. Al igual que
Hadoop, Spark pertenece a Apache Software Foundation.
Según explica IBM, Apache Spark es una infraestructura de informática de clúster de código abierto con
proceso en memoria para agilizar las aplicaciones de analítica hasta 100 veces más comparado con las
tecnologías actuales del mercado. Apache Spark puede reducir la complejidad de la interacción de los
datos, aumentar la velocidad de proceso y mejorar las aplicaciones de misión crítica con amplia
información útil.
Muchos especialistas en Big Data opinan que Spark es una herramienta más avanzada que Hadoop. De
hecho, en 2014, Spark batió el Récord Mundial al clasificar 100 terabytes de datos en tan solo 23 minutos,
superando así la marca de Hadoop, que se situaba en los 71 minutos. El motor de procesamiento Spark se
ha creado para ofrecer velocidad, facilidad de uso y análisis sofisticados.
SJM Computación 4.0 36
APACHE STORM
Apache Storm es un sistema de cálculo de código abierto, distribuido y con tolerancia a errores que
permite procesar datos en tiempo real con Hadoop. Las soluciones de Storm pueden proporcionar
también procesamiento de datos garantizado, con la posibilidad de reproducir los datos que no se han
procesado correctamente la primera vez.
Apache Storm es una herramienta de Big Data open-source que puede ser usada con cualquier lenguaje
de programación. Procesa en tiempo real y de forma sencilla grandes cantidades de datos, el sistema crea
topologías de los macrodatos para transformarlos y analizarlos de forma continua mientras flujos de
información entran al sistema constantemente.
Se puede utilizar en varios lenguajes de programación. Storm está desarrollado en Clojure, un dialecto
de Lisp que se ejecuta en Máquina Virtual Java (JVM, en sus siglas en inglés). Su gran fortaleza es que
ofrece compatibilidad con componentes y aplicaciones escritos en varios lenguajes como Java, C#, Python,
Scala, Perl o PHP.
- Es escalable.
- Tolerante a fallos.
- Fácil de instalar y operar.
SJM Computación 4.0 37
Apache Hive es un sistema de almacén de datos para Hadoop, que permite realizar resúmenes de datos,
consultas y análisis de datos mediante HiveQL (una lenguaje de consultas similar a SQL). Hive se puede
usar para explorar los datos de forma interactiva o para crear trabajos de procesamiento por lotes
reutilizables.
Hive permite proyectar la estructura del proyecto en datos que en gran medida no están estructurados.
Después de definir la estructura, puede usar Hive para consultar esos datos sin conocimiento de Java o
MapReduce
Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para
proporcionar agrupación, consulta, y análisis de datos. Inicialmente desarrollado por Facebook, Apache
Hive es ahora utilizada y desarrollado por otras empresas como Netflix y la Financial Industry Regulatory
Authority (FINRA). Amazon mantiene una derivación de software de Apache Hive incluida en Amazon
Elastic MapReduce en sus servicios Amazon Web Services.
APACHE HIVE
SJM Computación 4.0 38
MONGO DB
Mongo DB se trata de una base de datos NoSQL optimizada para trabajar con
grupos de datos que que varían con frecuencia, o que son semiestructurados o
inestructurados. Se emplea para almacenar datos de aplicaciones móviles y de
sistemas de gestión de contenidos, entre otros. Es empleada por compañías
como Bosch y Telefónica.
MongoDB nos proporciona las ventajas de una base de datos NoSQL, como la
flexibilidad de la estructura de datos, la escalabilidad y el rendimiento sin
abandonar conceptos que han hecho a las bases de datos relacionales lo que
son hoy en dia, como consistencia de datos y la integración con otras
herramientas de desarrollo.
Por estas características, MongoDB es una herramienta que cae como anillo al
dedo para el desarrollo de aplicaciones como redes sociales, aplicaciones
móviles, CMS, entre otras, que debido a lo antes mencionado, requieren de
una base de datos que ofrezca alto rendimiento y flexibilidad, a la vez que
mantiene consistencia y seguridad en los datos.
MongoDB es una herramienta muy fácil de aprender, bastante útil y
sumamente divertida.
SJM Computación 4.0 39
Python cuenta con la ventaja de que sólo hay que tener unos conocimientos mínimos de informática para
poder usarla, lo hace que tenga una gran comunidad de usuarios con la opción de crear sus propias
librerías. El inconveniente de esta herramienta de Big Data es la velocidad, ya que es notablemente más
lenta que sus competidoras.
Python es un lenguaje de programación multiparadigma. Esto significa que más que forzar a los
programadores a adoptar un estilo particular de programación, permite varios estilos: programación
orientada a objetos, programación imperativa y programación funcional. Otros paradigmas están
soportados mediante el uso de extensiones.
Python usa tipado dinámico y conteo de referencias para la administración de memoria.
Una característica importante de Python es la resolución dinámica de nombres; es decir, lo que enlaza un
método y un nombre de variable durante la ejecución del programa (también llamado enlace dinámico de
métodos)
PYTHON
SJM Computación 4.0 40
Apache Cassandra es una base de datos NoSQL desarrollada en un principio por Facebook. Es la mejor
opción si lo que necesitas es escalabilidad y alta disponibilidad sin comprometer el rendimiento. Netflix y
Reddit son usuarios de esta herramienta.
Lanzado por Facebook, y con contribuciones recibidas por Google, Apache Cassandra es un sistema de
código abierto proyectado para administrar gran volumen de datos en tiempo real, permitiendo
repuestas inmediatas y soporte antes fallas. En otras palabras, funciona como un banco de datos
distribuidos y es una de las opciones actuales para soluciones NoSQL (no solamente SQL) o para datos no
relacionales.
En cuanto al almacenamiento de datos, Cassandra es esencialmente un híbrido entre valor-llave (dato
tabular) y banco de datos creados en columnas, con distribución de contenido por nombre, valor y
tiempo, pudiendo tener buen balance y distribución de carga.
APACHE CASSANDRA
SJM Computación 4.0 41
SJM Computación 4.0 42
SEGURIDAD EN BIG DATA
Requisitos de seguridad
A la hora de construir una Big Data, se debe tener en cuenta algunos requisitos de seguridad
como lo es:
1.- El acceso y autorización granular a los datos
La granulación quiere decir que los datos, a los cuales se tendrá acceso y autorización, son de
alto nivel, o sea, al estar ya agrupados, otorgarán una función más precisa y oportuna para el
que los utilizará, que cuando se tienen datos separados. En este punto también va incluido la
gobernabilidad de datos que se debe tener, a saber, gobernabilidad de datos se refiere a que los
datos deben estar autorizados, organizados y con los permisos de usuario necesarios en una
base de datos, con el menor número posible de errores, manteniendo al mismo tiempo la
privacidad y la seguridad. Para tener un efectivo gobierno de datos, deberán existir controles
granulares, que se pueden lograr a través de las expresiones de control de acceso; estas
expresiones usan agrupación y lógica booleana para controlar el acceso y autorización de datos
flexibles, con permisos basados en roles y configuración de visibilidad. Se pueden tener
diferentes niveles de acceso, para dar una seguridad más integrada.
SJM Computación 4.0 43
SEGURIDAD EN BIG DATA
2.- Seguridad perimetral, protección de datos y autenticación integrada.
La seguridad perimetral se define como aquellos elementos y sistemas que permiten proteger
unos perímetros en instalaciones sensibles de ser atacados los sistemas informáticos por
intrusos. Se trata de una primera línea de defensa que reduce muchísimo el riesgo de que se
roben los datos o incluso desaparezcan.
La seguridad perimetral que protege los sistemas debe cumplir cuatro funciones básicas:
a) Resistir a los ataques externos. b) Identificar los ataques sufridos y alertar de ellos. c) Aislar y
segmentar los distintos servicios y sistemas en función de su exposición a ataques. d) Filtrar y
bloquear el tráfico, permitiendo únicamente aquel que sea absolutamente necesario.
Algunas herramientas que se pueden utilizar para la seguridad perimetral son: los Firewalls, pues
definen, mediante una política de acceso, qué tipo de tráfico se permite o se deniega en la red;
los sistemas de detección y prevención de intrusos, que son dispositivos que monitorizan y
generan alarmas cuando hay alertas de seguridad; los Honeypots, que se trata de una trampa
para atraer y analizar ataques de bots y hackers; y los antispam, que filtran el contenido
malicioso que entra a nuestra red. La gobernabilidad no ocurre sin una seguridad en el punto
final de la cadena.
SJM Computación 4.0 44
SEGURIDAD EN BIG DATA
SJM Computación 4.0 45
SEGURIDAD EN BIG DATA
Es importante construir un buen perímetro y colocar un cortafuego alrededor de los datos,
integrados con los sistemas y estándares de autenticación existentes. Cuando se trata de
autenticación, es importante que las empresas se sincronicen con sistemas probados. Con la
autenticación, se trata de ver cómo integrarse con LDAP [Lightweight Directory Access
Protocol], Active Directory y otros servicios de directorio. También se puede dar soporte a
herramientas como Kerberos para soporte de autenticación. Pero lo importante es no crear una
infraestructura separada, sino integrarla en la estructura existente.
3.- Encriptación de Datos
El siguiente paso después de proteger el perímetro y autenticar todo el acceso granular de datos
que se está otorgando, es asegurarse de que los archivos y la información personalmente
identificable estén encriptados de extremo a extremo. Es necesario encriptar esos datos de
forma que, independientemente de quién tenga acceso a él, puedan ejecutar los análisis que
necesiten sin exponer ninguno de esos datos. La encriptación es un procedimiento mediante el
cual los archivos, o cualquier otro tipo de documento, se vuelve completamente ilegibles gracias
a un algoritmo que desordena sus componentes. Así, cualquier persona que no disponga de las
claves correctas no podrá acceder a la información que contiene.
SJM Computación 4.0 46
SEGURIDAD EN BIG DATA
4.- Constante Auditoría y Análisis
La auditoría es un proceso implementado por los auditores de sistemas con el fin de auditar los
accesos a los datos, por lo general, siguiendo bien una metodología basada en una lista que
contempla los puntos que quieren comprobar o mediante la evaluación de riesgos potenciales.
En concreto, se realiza un examen de los accesos a los datos almacenados en las bases de datos
con el fin de poder medir, monitorear y tener constancia de los accesos a la información
almacenada en las mismas. Ese nivel de visibilidad y responsabilidad en cada paso del proceso
es lo que permite “gobernar" los datos en lugar de simplemente establecer políticas y controles
de acceso y esperar lo mejor. También es cómo las empresas pueden mantener sus estrategias
actualizadas en un entorno en el que la forma en que vemos los datos y las tecnologías que
utilizamos para administrarlos y analizarlos están cambiando cada día.
El fin que persigue, de uno u otro modo, es la seguridad corporativa. Una auditoría de base de
datos, por lo tanto, facilita herramientas eficaces para conocer de forma exacta cuál es la
relación de los usuarios a la hora de acceder a las bases de datos, incluyendo las actuaciones
que deriven en una generación, modificación o eliminación de datos.
SJM Computación 4.0 47
APLICACIONES DE BIG DATA
El uso de Big Data ha sido utilizado por la industria
de los medios, las empresas y los gobiernos para
dirigirse con mayor precisión a su público y
aumentar la eficiencia de sus mensajes.
El big data ha aumentado la demanda de
especialistas en administración de la información
tanto que Software AG, Oracle
Corporation, IBM, Microsoft, SAP, EMC, HP y Dell h
an gastado más de $ 15 mil millones en firmas de
software especializadas en administración y
análisis de datos.
Si bien muchos proveedores ofrecen soluciones
estándar para big data, los expertos recomiendan
el desarrollo de soluciones internas personalizadas
para resolver el problema de la compañía si la
empresa cuenta con capacidades técnicas
suficientes.
SJM Computación 4.0 48
1.- Gobierno
El uso y la adopción de big data dentro de los procesos gubernamentales permite eficiencias en
términos de costo, productividad e innovación, pero no viene sin sus defectos76. El análisis de
datos a menudo requiere que varias partes del gobierno (central y local) trabajen en colaboración
y creen procesos nuevos para lograr el resultado deseado.
Los datos masivos se usan habitualmente para influenciar el proceso democrático. Los
representantes del pueblo pueden ver todo lo que hacen los ciudadanos, y los ciudadanos pueden
dictar la vida pública de los representantes mediante tuits y otros métodos de extender ideas en la
sociedad. Las campañas presidenciales de Obama y Trump los usaron de manera generalizada y
hay expertos que advierten de que hay que «reinventar la democracia representativa. Si no, es
posible que se convierta en una dictadura de la información»​.
El Banco Interamericano de Desarrollo (BID) ha desarrollado estudios en América Latina en los que
presenta distintos casos del uso de Macrodatos en el diseño e implementación de políticas
públicas. Destacando intervenciones en temas de movilidad urbana, ciudades inteligentes y
seguridad, entre otras temáticas. Las recomendaciones de los mismos han girado en torno a cómo
construir instituciones públicas que logren, mediante el uso de datos masivos, a ser más
transparentes y ayuden a tomar mejores decisiones.
APLICACIONES DE BIG DATA
SJM Computación 4.0 49
APLICACIONES DE BIG DATA
2.- Desarrollo internacional
La investigación sobre el uso efectivo de las tecnologías de información y comunicación para el
desarrollo (también conocido como ICT4D) sugiere que la tecnología de big data puede hacer
contribuciones importantes pero también presentar desafíos únicos para el desarrollo
internacional. Los avances en el análisis de big data ofrecen oportunidades rentables para
mejorar la toma de decisiones en áreas de desarrollo críticas como la atención médica, el
empleo, la productividad económica, la delincuencia, la seguridad y el manejo de recursos y
desastres naturales. Además, los datos generados por el usuario ofrecen nuevas oportunidades
para ofrecer una voz inaudita. Sin embargo, los desafíos de larga data para las regiones en
desarrollo, como la infraestructura tecnológica inadecuada y la escasez de recursos económicos
y humanos exacerban las preocupaciones existentes con los grandes datos, como la privacidad,
la metodología imperfecta y los problemas de interoperabilidad.
3.- Industria
El big data proporciona una infraestructura para la transparencia en la industria manufacturera,
que es la capacidad de desentrañar incertidumbres como el rendimiento y la disponibilidad de
componentes inconsistentes.
SJM Computación 4.0 50
APLICACIONES DE BIG DATA
La fabricación predictiva como un enfoque aplicable para el tiempo de inactividad y la
transparencia cercanos a cero requiere una gran cantidad de datos y herramientas de
predicción avanzadas para un proceso sistemático de datos en información útil. Un marco
conceptual de fabricación predictiva comienza con la adquisición de datos donde se encuentran
disponibles diferentes tipos de datos sensoriales, tales como acústica, vibración, presión,
corriente, voltaje y datos de controlador. Una gran cantidad de datos sensoriales, además de los
datos históricos, construyen los grandes datos en la fabricación. Los big data generados actúan
como la entrada en herramientas predictivas y estrategias preventivas como Pronósticos y
Gestión de Salud (PHM).
4.- Medios
Los profesionales en medios y publicidad abordan los grandes datos como muchos puntos de
información procesables sobre millones de personas. La industria parece alejarse del enfoque
tradicional de utilizar entornos de medios específicos, como periódicos, revistas o programas de
televisión, y en su lugar aprovecha a los consumidores con tecnologías que llegan a las personas
objetivo en momentos óptimos en ubicaciones óptimas. El objetivo final es servir o transmitir,
un mensaje o contenido que (estadísticamente hablando) esté en línea con la mentalidad del
consumidor.
SJM Computación 4.0 51
APLICACIONES DE BIG DATA
Por ejemplo, los entornos de publicación adaptan cada vez más los mensajes (anuncios
publicitarios) y el contenido (artículos) para atraer a los consumidores que han sido recolectados
exclusivamente a través de diversas actividades de extracción de datos.
-Orientación de los consumidores (para publicidad de los vendedores)
-Minería de datos
-Periodismo de datos: los editores y los periodistas usan herramientas de Big Data para
proporcionar información e infografías únicas e innovadoras.
5.- Seguros
Los proveedores de seguro médico recopilan datos sobre "determinantes sociales", como el
consumo de alimentos y televisión, el estado civil, el tamaño de la vestimenta y los hábitos de
compra, desde los cuales hacen predicciones sobre los costos de salud para detectar problemas
de salud en sus clientes. Es controvertido si estas predicciones se están utilizando actualmente
para fijar precios.
6.- Deportes
En un ámbito donde se mueve tanto dinero, suelen utilizar las nuevas tecnologías antes que los
usuarios de base.
SJM Computación 4.0 52
APLICACIONES DE BIG DATA
Nos encontramos por ejemplo que el análisis de los partidos constituye una parte fundamental
en el entrenamiento de los profesionales, y la toma de decisiones de los entrenadores.
Amisco es un sistema aplicado por los más importantes equipos de las
ligas Española, Francesa, Alemana e Inglesa desde el 2001. Consta de 8 cámaras y diversos
ordenadores instalados en los estadios, que registran los movimientos de los jugadores a razón
de 25 registros por segundo, y luego envían los datos a una central donde hacen un análisis
masivo de los datos. La información que se devuelve como resultado incluye una reproducción
del partido en dos dimensiones, los datos técnicos y estadísticas, y un resumen de los datos
físicos de cada jugador, permitiendo seleccionar varias dimensiones y visualizaciones diferentes
de datos.
7.- Finanzas
El crecimiento de datos en el mundo financiero obliga al uso del big data para el procesamiento
rápido de datos, gestión de la omnicanalidad, segmentación avanzada de clientes, creación de
estrategias de precios dinámicos, gestión de riesgos, prevención de fraudes, apoyo en la toma de
decisiones, detectar tendencias de consumo, definir nuevas formas de hacer mejor las cosas,
detectar alertas y otro tipo de eventos complejos, hacer un seguimiento avanzado de la
competencia.
SJM Computación 4.0 53
APLICACIONES DE BIG DATA
8.- Marketing y ventas
El big data cada vez se utiliza más para segmentación avanzada de los consumidores,
automatizar la personalización de los productos, adaptar las comunicaciones al momento del
ciclo de venta, captar nuevas oportunidades de venta, apoyo en la toma de decisiones a tiempo
real, gestión de crisis.
La aplicación que se le da a Big Data en el área de ventas puede variar un poco según el enfoque
que cada compañía le quiera da, aunque sin duda alguna, en todas las compañías el Big Data
hará que sus aproximaciones sean más precisas y directas y por lo tanto ganar en efectividad y
potencialidad.
Algunas de las tendencias que está generando el Big Data son las de ser más precisos en el
control del gasto en marketing y las de ser más eficientes en ventas.
9.- Investigación
La búsqueda encriptada y la formación de clúster en big data se demostraron en marzo de 2014
en la Sociedad Estadounidense de Educación en Ingeniería. Gautam Siwach participó en abordar
los desafíos de Big Data por el Laboratorio de Ciencias de la Computación e Inteligencia
Artificial del MIT y Amir Esmailpour, en el Grupo de Investigación de UNH, investigó las
características clave de Big Data como la formación de clusters y sus interconexiones.
SJM Computación 4.0 54
APLICACIONES DE BIG DATA
Se centraron en la seguridad de los macrodatos y la orientación del término hacia la presencia
de diferentes tipos de datos en forma cifrada en la interfaz de la nube al proporcionar las
definiciones sin procesar y los ejemplos de tiempo real dentro de la tecnología. Además,
propusieron un enfoque para identificar la técnica de codificación para avanzar hacia una
búsqueda acelerada sobre texto encriptado que conduzca a las mejoras de seguridad en big
data.
Los grandes conjuntos de datos vienen con desafíos algorítmicos que anteriormente no existían.
Por lo tanto, existe una necesidad de cambiar fundamentalmente las formas de procesamiento.
Los talleres sobre algoritmos para conjuntos de datos masivos modernos (MMDS) reúnen a
científicos informáticos, estadísticos, matemáticos y profesionales del análisis de datos para
analizar los desafíos algorítmicos del big data.
10.- Muestreo de big data
Una pregunta de investigación importante que se puede hacer sobre los conjuntos de datos
grandes es si necesita ver los datos completos para sacar ciertas conclusiones sobre las
propiedades de los datos o si una muestra es lo suficientemente buena. El nombre big data
contiene un término relacionado con el tamaño, y esta es una característica importante de big
data.
SJM Computación 4.0 55
APLICACIONES DE BIG DATA
Pero el muestreo (estadísticas) permite la selección de puntos de datos correctos dentro del
conjunto de datos más grande para estimar las características de toda la población. Por ejemplo,
hay alrededor de 600 millones de tweets producidos todos los días. ¿Es necesario mirarlos a
todos para determinar los temas que se discuten durante el día? ¿Es necesario mirar todos los
tweets para determinar el sentimiento sobre cada uno de los temas? En la fabricación de
diferentes tipos de datos sensoriales, como acústica, vibración, presión, corriente, voltaje y
datos del controlador están disponibles en intervalos de tiempo cortos. Para predecir el tiempo
de inactividad, puede que no sea necesario examinar todos los datos, pero una muestra puede
ser suficiente. Big data se puede desglosar por varias categorías de puntos de datos, como datos
demográficos, psicográficos, de comportamiento y transaccionales. Se han realizado algunos
trabajos en algoritmos de muestreo para big data. Se ha desarrollado una formulación teórica
para el muestreo de datos de Twitter.
11.- Salud y medicina
La información genética no es la única que ha sufrido una explosión en los últimos años.
También podemos destacar el enorme crecimiento en el uso de wearables, dispositivos digitales
que llevamos encima todo el día.
SJM Computación 4.0 56
APLICACIONES DE BIG DATA
Estos dispositivos pueden ser usados para tomar medidas sobre datos biométricos de los
pacientes y de esta manera recopilar datos a lo largo del tiempo. La novedad es que esta
información puede ser analizada en tiempo real por los médicos y especialistas, de esta forma se
puede realizar un seguimiento como nunca visto hasta ahora del paciente.
En el 2012, en la Feria de Ciencias de Google, Brittany Wenger, estudiante de 18 años, presentó
el proyecto de diseño de un software para ayudar al diagnóstico temprano del cáncer de mama.
Denominó a la plataforma Cloud4cancer, que utiliza una red de inteligencia artificial y las bases
de datos de los hospitales para diferenciar una muestra de un tejido benigno de una de un
tumor maligno. El sistema inteligente diseñado por Wenger distingue en segundos los dos tipo
de tumores, ingresando a la plataforma las características observadas. Es posible que este
sistema se aplique más adelante a otros padecimientos, como la leucemia.
12.- Defensa y seguridad
Para incrementar la seguridad frente a los ataques de las propias organizaciones, ya sean
empresas en el entorno económico o los propios ministerios de defensa en el entorno
de ciberataques, se contempla la utilidad de las tecnologías de big data en escenarios como la
vigilancia y seguridad de fronteras, lucha contra el terrorismo y crimen organizado, contra el
fraude, planes de seguridad ciudadana o planeamiento táctico de misiones e inteligencia militar.
CASOS PRÁCTICOS DE APLICACIÓN Y ÉXITO EMPRESARIAL
AMAZON.- La compañía de referencia a nivel mundial, en lo que a comercio electrónico
se refiere, basa buena parte de su éxito en conocer de antemano lo que necesitan sus
clientes. Así, es muy probable que si entras en la página de esta empresa, te sugiera
artículos que van a ser de gran interés para ti. ¿Cómo? A través de la inteligencia de datos
analizan muchos factores de carácter individual del usuario como sus hábitos de compra o
intereses y otros más generales como tendencias del momento o pautas de conducta de
otros usuarios que adquirieron productos similares. Juntan todo en la coctelera del Big
Data y ofrecen una serie de productos sugeridos o relacionados con compras que el cliente
ya ha hecho o se ha planteado hacer.
NIKE.- Los dispositivos electrónicos de su línea NikePlus (relojes inteligentes, pulsómetros,
dispositivos con sensores que conectan sus zapatillas con un teléfono…) recogen
cantidades masivas de información de millones de usuarios. Información que sirve a la
empresa de ropa deportiva estadounidense para buscar la fidelización de los usuarios a
través de retos y objetivos que apelan a la capacidad de superación de estos, creando un
vínculo con la marca más allá de la simple venta de material deportivo.
SJM Computación 4.0 57
SPOTIFY.- Bajar hasta los datos individualizados más llamativos para lanzar con
ellos una campaña global masiva. Eso hizo en Reino Unido la compañía sueca
Spotify, que ofrece reproducción de música vía streaming. Su plan consistió en
buscar la complicidad del gran público. Y lo consiguieron mostrando curiosidades o
rarezas del comportamiento de algunos de sus usuarios que habían detectado a
través de los macrodatos. Así, en grandes carteles publicitarios, colocaron anuncios
como estos:
«Queridas 3.749 personas que reprodujeron “It’s the end of the world as we know
it” el día del Brexit, estamos con vosotros»
«Querida persona en el Theater District que escuchó la banda sonora de Hamilton
5.376 veces este año, ¿puedes conseguirnos tickets?
«Querida persona que reprodujo “Sorry” 42 veces en el Día de San Valentín, ¿qué
hiciste?»
SJM Computación 4.0 58
T-MOBILE.- Esta empresa de telecomunicaciones alemana es un ejemplo de uso
de los datos masivos como mejor arma de retención de clientes. Analizando a
fondo las conversaciones, reclamaciones y descontentos que sus clientes dejaban
en redes sociales, crearon soluciones específicas para cada uno de ellos y
consiguieron reducir la fuga de clientes a otras empresas en un 50%, con lo que el
retorno de la inversión realizada en Big Data fue compensado con creces.
NETFLIX.- Uno de los grandes factores del éxito de la popular empresa
estadounidense Netflix, es su magistral uso de los macrodatos para crear nuevos
contenidos para sus usuarios, cuyos hábitos de consumo y preferencias son
observados al detalle para descubrir qué es lo que van a querer ver a
continuación en base a patrones predictivos. Así crearon, por ejemplo, la serie
House of Cards: observaron que a muchos de sus usuarios les gustaban
contenidos que incluyeran poder, política, drama y sensualidad entre sus
características principales. Y también que les gustaba como actor Kevin Spacey.
Así, dieron con la fórmula y mezclaron en la trama todos estos ingredientes
poniendo a protagonizar a Spacey la misma. Igual proceso para Stranger Things y
otros grandes éxitos de audiencia.
SJM Computación 4.0 59
REVISTA ESPAÑOLA: BIG DATA MAGAZINE
https://bigdatamagazine.es/bigdata-magazine-no1-especial-bigdata-en-banca-y-logistica
SJM Computación 4.0 60
SJM Computación 4.0 61
La naturaleza de la información hoy es diferente a la información en el pasado. Debido a la abundacia
de sensores, micrófonos, cámaras, escáneres médicos, imágenes, etc. en nuestras vidas, los datos
generados a partir de estos elementos serán dentro de poco el segmento más grande de toda la
información disponible. .
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado
años en descubrir por si mismos sin el uso de estas herramientas, debido a la velocidad del análisis, es
posible que el analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y
retrabajar el procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando
de llegar.
La capacidad de recoger datos, comprenderlos, procesarlos, extraer su valor, visualizarlos,
comunicarlos serán todas habilidades importantes en las próximas décadas. Ahora disponemos de
datos gratuitos y omnipresentes. Lo que aún falta es la capacidad de comprender estos datos y
extraer su valor. En un futuro cercano se notará cada vez más la necesidad de un analista de datos,
una nueva figura profesional de la sociedad de la información. Un científico que no sólo tendrá que
ser capaz de “rebuscar” entre los datos, sino que también deberá contar con competencias en varias
disciplinas (derecho, sociología, psicología) y un buenos conocimientos de cultura popular,
habilidades comerciales y creatividad para aplicar BIG DATA.
CONCLUSIONES
WEBGRAFIA
https://www.youtube.com/watch?v=2buYs2GVpGE
https://es.slideshare.net/AldoRamiro/big-data-65019368
https://www.osi.es/es/actualidad/blog/2016/06/14/big-data-como-afecta-los-usuarios
https://www.google.com.pe/search?safe=active&hl=es-
419&biw=1366&bih=657&tbm=isch&sa=1&ei=UwgmXeOcMc_x5gKPz6fQBQ&q=velocidad+en+big+data&oq=velocidad+en+big+data&gs
_l=img.3..0i24.1276310.1283039..1285294...0.0..0.153.1992.0j14......0....1..gws-wiz-
img.......0i8i7i30.PV8fq0rWNRA#imgrc=tJS2yYwzBkeJKM:
https://es.wikipedia.org/wiki/Macrodatos
https://www.bit.es/knowledge-center/que-es-big-data-introduccion-a-big-data/
https://www.eleconomista.es/tecnologia/noticias/5578707/02/14/La-moda-del-Big-Data-En-que-consiste-en-realidad.html
https://www.masterbigdataucm.com/que-es-big-data/
https://www.nextibs.com/principales-herramientas-de-big-data-utilizan-actualidad/
https://www.psafe.com/es/blog/que-es-apache-cassandra/
https://www.icemd.com/digital-knowledge/articulos/las-ventajas-del-big-data/
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html
https://www.deustoformacion.com/blog/gestion-empresas/impacto-big-data-ventas
VISITA:
SJM Computación 4.0 62

Más contenido relacionado

La actualidad más candente

Data set module 1 - spanish
Data set   module 1 - spanishData set   module 1 - spanish
Data set module 1 - spanishData-Set
 
Qué es el Big Data?
Qué es el Big Data?Qué es el Big Data?
Qué es el Big Data?Carla Buj
 
Data set module 5 - spanish
Data set   module 5 - spanishData set   module 5 - spanish
Data set module 5 - spanishData-Set
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big DataDavid Alayón
 
Big data o datos masivos en investigación en odontología
Big data o datos masivos en investigación en odontologíaBig data o datos masivos en investigación en odontología
Big data o datos masivos en investigación en odontologíaJuan Carlos Munévar
 
Big Data para Dummies
Big Data para DummiesBig Data para Dummies
Big Data para DummiesStratebi
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivassgcuadrado
 
CRM y Big Data: el nuevo cliente vitaminado
CRM y Big Data: el nuevo cliente vitaminadoCRM y Big Data: el nuevo cliente vitaminado
CRM y Big Data: el nuevo cliente vitaminadoAndres Karp
 
1 big data y redes sociales
1 big data y redes sociales1 big data y redes sociales
1 big data y redes sociales.. ..
 
Dirigiendo y gestionando proyectos Big Data
Dirigiendo y gestionando proyectos Big DataDirigiendo y gestionando proyectos Big Data
Dirigiendo y gestionando proyectos Big DataEmilio del Prado
 
Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Fernando Santamaría
 

La actualidad más candente (20)

Big data
Big data Big data
Big data
 
Data set module 1 - spanish
Data set   module 1 - spanishData set   module 1 - spanish
Data set module 1 - spanish
 
Qué es el Big Data?
Qué es el Big Data?Qué es el Big Data?
Qué es el Big Data?
 
Data set module 5 - spanish
Data set   module 5 - spanishData set   module 5 - spanish
Data set module 5 - spanish
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Big data o datos masivos en investigación en odontología
Big data o datos masivos en investigación en odontologíaBig data o datos masivos en investigación en odontología
Big data o datos masivos en investigación en odontología
 
Tendencias en Big Data (2015-2016)
Tendencias en Big Data (2015-2016)Tendencias en Big Data (2015-2016)
Tendencias en Big Data (2015-2016)
 
Big Data para Dummies
Big Data para DummiesBig Data para Dummies
Big Data para Dummies
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Big Data y Redes Sociales: Ejemplos y casos de éxito
Big Data y Redes Sociales: Ejemplos y casos de éxitoBig Data y Redes Sociales: Ejemplos y casos de éxito
Big Data y Redes Sociales: Ejemplos y casos de éxito
 
Tema1
Tema1Tema1
Tema1
 
CRM y Big Data: el nuevo cliente vitaminado
CRM y Big Data: el nuevo cliente vitaminadoCRM y Big Data: el nuevo cliente vitaminado
CRM y Big Data: el nuevo cliente vitaminado
 
Iniciación al BiG Data - español
Iniciación al BiG Data - españolIniciación al BiG Data - español
Iniciación al BiG Data - español
 
1 big data y redes sociales
1 big data y redes sociales1 big data y redes sociales
1 big data y redes sociales
 
Big Data
Big DataBig Data
Big Data
 
Big data centrologic 2016
Big data centrologic 2016Big data centrologic 2016
Big data centrologic 2016
 
Dirigiendo y gestionando proyectos Big Data
Dirigiendo y gestionando proyectos Big DataDirigiendo y gestionando proyectos Big Data
Dirigiendo y gestionando proyectos Big Data
 
Big data
Big dataBig data
Big data
 
Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)
 

Similar a BIG DATA (20)

Big data
Big dataBig data
Big data
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
Lab #8
Lab #8   Lab #8
Lab #8
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Big data
Big dataBig data
Big data
 
Introduccion a Big Data stack
Introduccion a Big Data stackIntroduccion a Big Data stack
Introduccion a Big Data stack
 
Trabajo de-big-data
Trabajo de-big-dataTrabajo de-big-data
Trabajo de-big-data
 
Entregable final
Entregable finalEntregable final
Entregable final
 
Big data con SQL Server 2014
Big data con SQL Server 2014Big data con SQL Server 2014
Big data con SQL Server 2014
 
Big data
Big dataBig data
Big data
 
La importancia del big data
La importancia del big dataLa importancia del big data
La importancia del big data
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
 
Big data
Big dataBig data
Big data
 
Data
DataData
Data
 
Nt_c2_2015_a9_castro_valeria
Nt_c2_2015_a9_castro_valeriaNt_c2_2015_a9_castro_valeria
Nt_c2_2015_a9_castro_valeria
 
BIG DATA GRUPO #7
BIG DATA GRUPO #7 BIG DATA GRUPO #7
BIG DATA GRUPO #7
 
Del dato a la toma de decisiones, pasando por el conocimiento
Del dato a la toma de decisiones, pasando por el conocimientoDel dato a la toma de decisiones, pasando por el conocimiento
Del dato a la toma de decisiones, pasando por el conocimiento
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx
 
Entregable final analitica de datos
Entregable final analitica de datosEntregable final analitica de datos
Entregable final analitica de datos
 
TRABAJO DE INVESTIGACION
TRABAJO DE INVESTIGACIONTRABAJO DE INVESTIGACION
TRABAJO DE INVESTIGACION
 

Más de Enmer Genaro Leandro Ricra (20)

DRAG YOUR GAN.pptx
DRAG YOUR GAN.pptxDRAG YOUR GAN.pptx
DRAG YOUR GAN.pptx
 
TECNOLOGÍA BEACON
TECNOLOGÍA  BEACONTECNOLOGÍA  BEACON
TECNOLOGÍA BEACON
 
TECNOLOGIA BIOMETRICA
TECNOLOGIA BIOMETRICATECNOLOGIA BIOMETRICA
TECNOLOGIA BIOMETRICA
 
SERVIDORES DE INTERNET
SERVIDORES DE INTERNETSERVIDORES DE INTERNET
SERVIDORES DE INTERNET
 
PODCAST
PODCASTPODCAST
PODCAST
 
TECNOLOGIA DE TELEVISORES
TECNOLOGIA DE TELEVISORESTECNOLOGIA DE TELEVISORES
TECNOLOGIA DE TELEVISORES
 
RPA AUTOMATIZACIÓN ROBÓTICA DE PROCESOS
RPA  AUTOMATIZACIÓN ROBÓTICA DE PROCESOSRPA  AUTOMATIZACIÓN ROBÓTICA DE PROCESOS
RPA AUTOMATIZACIÓN ROBÓTICA DE PROCESOS
 
STREAMING
STREAMINGSTREAMING
STREAMING
 
CPD CENTRO DE PROCESAMIENTO DE DATOS DATA CENTER
CPD CENTRO DE PROCESAMIENTO DE DATOS  DATA CENTERCPD CENTRO DE PROCESAMIENTO DE DATOS  DATA CENTER
CPD CENTRO DE PROCESAMIENTO DE DATOS DATA CENTER
 
COMPUTACION EN LA NUBE
COMPUTACION EN LA NUBECOMPUTACION EN LA NUBE
COMPUTACION EN LA NUBE
 
RED DE COMPUTADORAS
RED DE COMPUTADORASRED DE COMPUTADORAS
RED DE COMPUTADORAS
 
NFT (Token No Fungible)
NFT (Token No Fungible)NFT (Token No Fungible)
NFT (Token No Fungible)
 
INTERNET POR SATELITE
INTERNET POR SATELITEINTERNET POR SATELITE
INTERNET POR SATELITE
 
INTERNET2
INTERNET2INTERNET2
INTERNET2
 
SPLINTERNET
SPLINTERNETSPLINTERNET
SPLINTERNET
 
RUNET (Internet Ruso)
RUNET (Internet Ruso)RUNET (Internet Ruso)
RUNET (Internet Ruso)
 
WEARABLES
WEARABLESWEARABLES
WEARABLES
 
INTERNET
INTERNETINTERNET
INTERNET
 
CODIGO QR
CODIGO  QRCODIGO  QR
CODIGO QR
 
Sistema de posicionamiento global gps
Sistema de posicionamiento global gpsSistema de posicionamiento global gps
Sistema de posicionamiento global gps
 

Último

5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdfOswaldoGonzalezCruz
 
BROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtwe
BROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtweBROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtwe
BROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtwealekzHuri
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzprofefilete
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPELaura Chacón
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFAROJosé Luis Palma
 
Informatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosInformatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosCesarFernandez937857
 
Flores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaFlores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaJuan Carlos Fonseca Mata
 
Marketing y servicios 2ºBTP Cocina DGETP
Marketing y servicios 2ºBTP Cocina DGETPMarketing y servicios 2ºBTP Cocina DGETP
Marketing y servicios 2ºBTP Cocina DGETPANEP - DETP
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptxJunkotantik
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para eventoDiegoMtsS
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxjosetrinidadchavez
 
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxPresentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxYeseniaRivera50
 
codigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinacodigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinavergarakarina022
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadAlejandrino Halire Ccahuana
 

Último (20)

Defendamos la verdad. La defensa es importante.
Defendamos la verdad. La defensa es importante.Defendamos la verdad. La defensa es importante.
Defendamos la verdad. La defensa es importante.
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
 
BROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtwe
BROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtweBROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtwe
BROCHURE EXCEL 2024 FII.pdfwrfertetwetewtewtwtwtwtwtwtwtewtewtewtwtwtwtwe
 
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyzel CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
el CTE 6 DOCENTES 2 2023-2024abcdefghijoklmnñopqrstuvwxyz
 
Plan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPEPlan Año Escolar Año Escolar 2023-2024. MPPE
Plan Año Escolar Año Escolar 2023-2024. MPPE
 
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARONARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
NARRACIONES SOBRE LA VIDA DEL GENERAL ELOY ALFARO
 
Sesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdfSesión de clase: Defendamos la verdad.pdf
Sesión de clase: Defendamos la verdad.pdf
 
Earth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversaryEarth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversary
 
Informatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos BásicosInformatica Generalidades - Conceptos Básicos
Informatica Generalidades - Conceptos Básicos
 
Flores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - BotánicaFlores Nacionales de América Latina - Botánica
Flores Nacionales de América Latina - Botánica
 
Marketing y servicios 2ºBTP Cocina DGETP
Marketing y servicios 2ºBTP Cocina DGETPMarketing y servicios 2ºBTP Cocina DGETP
Marketing y servicios 2ºBTP Cocina DGETP
 
La Función tecnológica del tutor.pptx
La  Función  tecnológica  del tutor.pptxLa  Función  tecnológica  del tutor.pptx
La Función tecnológica del tutor.pptx
 
Power Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptxPower Point: "Defendamos la verdad".pptx
Power Point: "Defendamos la verdad".pptx
 
programa dia de las madres 10 de mayo para evento
programa dia de las madres 10 de mayo  para eventoprograma dia de las madres 10 de mayo  para evento
programa dia de las madres 10 de mayo para evento
 
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptxOLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
OLIMPIADA DEL CONOCIMIENTO INFANTIL 2024.pptx
 
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptxPresentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
Presentación de Estrategias de Enseñanza-Aprendizaje Virtual.pptx
 
Unidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDIUnidad 4 | Teorías de las Comunicación | MCDI
Unidad 4 | Teorías de las Comunicación | MCDI
 
codigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karinacodigos HTML para blogs y paginas web Karina
codigos HTML para blogs y paginas web Karina
 
La Trampa De La Felicidad. Russ-Harris.pdf
La Trampa De La Felicidad. Russ-Harris.pdfLa Trampa De La Felicidad. Russ-Harris.pdf
La Trampa De La Felicidad. Russ-Harris.pdf
 
Lecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdadLecciones 04 Esc. Sabática. Defendamos la verdad
Lecciones 04 Esc. Sabática. Defendamos la verdad
 

BIG DATA

  • 1. SJM Computación 4.0 1 Por: Enmer Leandro R.
  • 2. INTRODUCCIÓN Actualmente, en muchas empresas uno de los activos más valiosos que tienen es la información que poseen, ya que como dice la famosa cita de Francis Bacon «la información es poder» y las empresas son cada vez más conscientes de este hecho. La llegada de Internet y la enorme cantidad de dispositivos que están continuamente conectados a la red ha ayudado a aumentar de modo exponencial el volumen de información que los usuarios generamos y esa información es realmente “el activo” del siglo XXI. Todo ese enorme volumen de información que generamos cada día es almacenada, analizada y procesada para que en función de los resultados se puedan obtener conclusiones que permitan tomar decisiones para minimizar costes, maximizar producción, ajustar horarios, gestionar pedidos, rutas de envío, etc. en base a los datos obtenidos en la fase de análisis de datos, esto se conoce como Big Data. Big Data nació con el objetivo de cubrir unas necesidades no satisfechas por las tecnologías existentes, como es el almacenamiento y tratamiento de grandes volúmenes de datos SJM Computación 4.0 2
  • 3. DEFINICIÓN En la actualidad tenemos: 1. Gran cantidad de datos acumulados que hacía inviable su procesamiento en un único ordenador 2. Imposible analizar con las técnicas tradiciones de Base de Datos 3. Imposible almacenarlas siguiendo el modelo clásico de Base de Datos 4. Heterogeneidad de datos. Necesidad de insertar, consultar y procesar datos en diferentes estructuras 5. Necesidad de procesar rápidamente los datos. El Big Data (datos masivos, macrodatos) es el análisis masivo de datos, una cantidad de datos, tan sumamente grande, que las aplicaciones de software de procesamiento de datos que tradicionalmente se venían usando no son capaces de capturar, tratar y poner en valor en un tiempo razonable; Por ende, los procedimientos usados para encontrar patrones repetitivos dentro de esos datos son más sofisticados y requieren software especializado. El uso moderno del término "big data" tiende a referirse al análisis del comportamiento del usuario, extrayendo valor de los datos almacenados, y formulando predicciones a través de los patrones observados. La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación SJM Computación 4.0 3
  • 4. CARACTERÍSTICAS: conformado por 5 V El volumen se refiere a la cantidad de datos que son generados cada segundo, minuto y días en nuestro entorno. Es la característica más asociada al Big Data, ya que hace referencia a las cantidades masivas de datos que se almacenan con la finalidad de procesar dicha información, transformando los datos en acciones. El volumen significa gran tamaño. Así en el año 2020 se esperan que en el mundo se almacenen 35 Zettabytes. Los datos crecen, habiendo pasado ya por la era del Petabyte y posteriormente Exabyte, hasta llegar a hoy. Cada vez estamos más conectados al mundo 2.0 por lo que generamos más y más datos. Para algunas empresas, el estar en el mundo digital es algo obligatorio, por lo que la cantidad de datos generados es aún mayor. Por ejemplo, una empresa que vende sus productos únicamente a través de un canal online, le convendría implantar tecnología Big Data para procesar toda aquella información que recoge su página web rastreando todas las acciones que lleva a cabo el cliente; conocer donde cliquea más veces, cuántas veces ha pasado por el carrito de la compra, cuáles son los productos más vistos, las páginas más visitadas, etc. 1.- VOLUMEN SJM Computación 4.0 4 Son 5 características principales del Big Data:
  • 5. Diferencia entre la "b" minúscula y la "B" mayúscula. La "b" siempre significa "bit", mientras que la "B" siempre significa "Byte". Esto es sumamente importante saberlo, y muchos escritores de columnas que no conocen esta diferencia a veces no hacen esta distinción teniendo eso como resultado que lo que publican es en realidad 8 veces mayor o 8 veces menor a la realidad (debido a que 8 bits son 1 Byte) VOLUMEN - Equivalencias SJM Computación 4.0 5
  • 6. 2.- VARIEDAD La variedad se refiere a las formas, tipos y fuentes en las que se registran los datos. Estos datos pueden ser datos estructurados y fáciles de gestionar como son las bases de datos, o datos no estructurados, entre los que se incluyen documentos de texto, correos electrónicos, datos de sensores, audios, vídeos o imágenes que tenemos en nuestro dispositivo móvil, hasta publicaciones en nuestros perfiles de redes sociales, artículos que leemos en blogs, las secuencias de click que hacemos en una misma página, formularios de registro e infinidad de acciones más que realizamos desde nuestro Smartphone, Tablet y ordenador. Estos últimos datos requieren de una herramienta específica, debido a que el tratamiento de la información es totalmente diferente con respecto a los datos estructurados. Para ello, las empresas necesitan integrar, observar y procesar datos que son recogidos a través de múltiples fuentes de información con herramientas cualificadas. Los macrodatos usan textos, imágenes, audio y vídeo. El tipo y naturaleza de los datos permite ayudar a las personas a analizar los datos y usar los resultados de forma eficaz. SJM Computación 4.0 6
  • 7. 3.- VELOCIDAD Velocidad se refiere a la rapidez con que los datos se reciben, se procesan y se toman decisiones a partir de ellos. A la mayoría de los sistemas tradicionales les es imposible analizar de forma inmediata los grandes volúmenes de datos que les llegan, sin embargo, incorporar el concepto de tiempo real es imprescindible para sistemas de detección del fraude o la realización de oferta personalizadas a los clientes. Nuestro concepto de inmediatez ha cambiado en los últimos tiempos y se busca información que llegue prácticamente al instante. Noticias que no llegan al día de antigüedad, en simple cuestión de horas y, en ocasiones, minutos, pueden haber perdido interés. Así, la velocidad de análisis requerida por la sociedad actual es una de las características fundamentales que tienen los datos a gran escala, donde los datos en constante movimiento procesados a tiempo real cobran protagonismo, ejecutando algoritmos cada vez más complejos en menos tiempo. SJM Computación 4.0 7
  • 8. 4.- VERACIDAD Cuando hablamos de veracidad nos referimos a la incertidumbre de los datos, es decir, al grado de fiabilidad de la información recibida. Es necesario invertir tiempo para conseguir datos de calidad, aplicando soluciones y métodos que puedan eliminar datos imprevisibles que puedan surgir como datos económicos, comportamientos de los consumidores que puedan influir en las decisiones de compra. La necesidad de explorar y planificar la incertidumbre es un reto para el Big Data que está a la orden del día en las compañías dedicadas al análisis de datos. La calidad de los datos capturados puede variar mucho y así afectar a los resultados del análisis. saber la fiabilidad de la información recogida es importante para obtener unos datos de calidad e, incluso, dependiendo de las aplicaciones que se le vaya a dar a misma, se convierte en fundamental. Es un factor que puede influir mucho en conseguir una ventaja competitiva en la explotación del Big Data. SJM Computación 4.0 8
  • 9. 5.- VALOR El dato no es valor. Tampoco tienes valor por el mero hecho de recopilar gran cantidad de información. El valor se obtiene de datos que se transforman en información; esta a su vez se convierte en conocimiento, y este en acción o en decisión. El valor de los datos está en que sean accionables, es decir, que los responsable de la empresas puedan tomar una decisión (la mejor decisión) en base a estos datos. No todos los datos de los que partimos se convierten en acción o decisión. Para ello, es necesario tener tecnologías aplicadas. Por ejemplo, una publicación en una red social, que gracias al uso de tecnologías de procesamiento de lenguaje natural, puede medir el sentimiento positivo o negativo, con la ayuda de un algoritmo de análisis de redes sociales o herramientas que permitan obtener de esto información. Los datos generados deben ser útiles, accionables y tener valor. SJM Computación 4.0 9
  • 10. 1.- Velocidad en la toma de decisiones: La información es fundamental como base para la correcta toma de decisiones, y mucho más cuando podemos manejar de forma dinámica toda la información que nos proporciona el Big Data. Podremos asumir decisiones inteligentes y veloces que ayuden a favorecer a nuestro negocio, puesto que éstas se han basado en un fundamento férreo. Es posible realizar de manera fluida un análisis de oportunidad antes de poner cualquier producto o servicio en el mercado. 2.- Planes estratégicos Inteligentes de Marketing: A través de los datos que nos proporciona el Big Data, a día de hoy es posible analizar y predecir el comportamiento que un usuario tendrá en la red, conocer qué piensan los clientes sobre una marca o un producto, y cuáles son sus necesidades reales sobre la adquisición de productos o servicios. Se pueden analizar parámetros relativos al perfil específico de cada usuario, sus preferencias, sus tendencias o su vinculación a la marca, de forma que nos sea posible elaborar campañas dirigidas de marketing con un nivel alto de personalización. VENTAJAS DEL BIG DATA SJM Computación 4.0 10
  • 11. VENTAJAS DEL BIG DATA (continuación) 3.- Mejora en la eficiencia…. y en costes: El correcto manejo del Big Data puede impulsar rápidamente la velocidad a la que evoluciona un producto o servicio, debido a que disponemos de multitud de datos con la información que nos da el mercado. De esta manera los plazos para el desarrollo de un producto o servicio se acortan en el tiempo, así como los costes asociados al proceso que se derivan del desarrollo del mismo. 4.- Vinculación de clientes: Cada día captar nuevos clientes es más complicado, y a su vez, esta adquisición de nuevos usuarios es más costosa que fidelizar a los que ya tenemos en el fondo de comercio. Es esencial utilizar correctamente los datos de los que disponemos para dar a nuestros clientes lo que desean de una forma personalizada, y para ello es fundamental el Big Data. Por lo tanto, conocer a través de los datos el nivel de satisfacción de nuestros clientes, sus necesidades, etcétera, es uno de los puntos base para tener a los clientes fidelizados. SJM Computación 4.0 11
  • 12. VENTAJAS DEL BIG DATA (continuación) 5.- Variables del entorno: Un punto importante a tener en cuenta en la utilización del Big Data es la agregación de datos del entorno que afectan al proceso principal. Estas variables no están dirigidas netamente al análisis de un cliente ni a su comportamiento directo por sus acciones en online, sino que responden al ecosistema que puede afectar a un cliente en el momento de la decisión de compra. Introducir en la fórmula de análisis datos provenientes de fuentes externas como pueden ser la meteorología, las estaciones del año, o la zona en la cual vive el usuario hace que el cálculo aplicado gane puntos de eficiencia, dirigiendo mejor nuestros productos y servicios no solo a comunidades específicas sino a temporadas concretas. 6.- Feedback y retroalimentación: Una de las aplicaciones de mayor relevancia en la utilización del Big Data es la posibilidad de analizar los resultados de las acciones realizadas en tiempo real, lo que permite ver cuáles son los aspectos que más éxito han podido tener, o corregir rápidamente las posibles desviaciones en las estrategias diseñadas. El constante análisis del feedback de las acciones realizadas con una tecnología dinámica y veloz permite no tener costes extra innecesarios a la hora de proseguir con nuestras estrategias de comercialización. Pocos son los que dudan de que estamos en la era del Big Data, siendo uno de los elementos más competitivos y que más valor añadido aporta a las empresas en el momento de definición sus estrategias. SJM Computación 4.0 12
  • 13. Datos estructurados: datos que tienen bien definidos su longitud y su formato, como las fechas, los números o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y los almacenes de datos. Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos. Algunos ejemplos son los PDF, documentos multimedia, correos electrónicos o documentos de texto. Datos semiestructurados: datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos. Es una información poco regular como para ser gestionada de una forma estándar. Estos datos poseen sus propios metadatos semiestructurados​ que describen los objetos y las relaciones entre ellos, y pueden acabar siendo aceptados por convención. Como ejemplos tenemos los archivos tipo hojas de cálculo, HTML, XML o JSON. TIPOS DE DATOS EN BIG DATA SJM Computación 4.0 13
  • 14. SJM Computación 4.0 14 GENERACIÓN DE DATOS EN BIG DATA
  • 15. SJM Computación 4.0 15 GENERACIÓN DE DATOS EN BIG DATA 1.- Generados por las propias personas. El hecho de enviar correos electrónicos o mensajes por WhatsApp, publicar un estado en Facebook, publicar relaciones laborales en Linkedin, tuitear contenidos o responder a una encuesta por la calle son cosas que hacemos a diario y que crean nuevos datos y metadatos que pueden ser analizados. Se estima que cada minuto al día se envían más de 200 millones de correos electrónicos, se comparten más de 700 000 piezas de contenido en Facebook, se realizan dos millones de búsquedas en Google o se editan 48 horas de vídeo en YouTube. Por otro lado, las trazas de utilización en un sistema ERP, incluir registros en una base de datos o introducir información en una hoja de cálculo son otras formas de generar estos datos.
  • 16. SJM Computación 4.0 16 GENERACIÓN DE DATOS EN BIG DATA 2.- Obtenidas a partir de transacciones. La facturación, tarjetas de fidelización, las llamadas telefónicas, las conexiones torres de telefonía, los accesos a wifis públicas, el pago con tarjetas de crédito o las transacciones entre cuentas bancarias generan información que tratada puede ser datos relevantes. Por ejemplo transacciones bancarias: Lo que el usuario conoce como un ingreso de X euros, el sistema lo capturará como una acción llevada a cabo en una fecha y momento determinado, en un lugar concreto, entre unos usuarios registrados, y con ciertos metadatos.
  • 17. SJM Computación 4.0 17 GENERACIÓN DE DATOS EN BIG DATA 3.- Mercadotecnia electrónica y web. Se genera una gran cantidad de datos cuando se navega por internet. Con la web 2.0 se ha roto el paradigma webmaster-contenido-lector y los mismos usuarios se convierten en creadores de contenido gracias a su interacción con el sitio. Existen muchas herramientas de seguimiento utilizadas en su mayoría con fines de mercadotecnia y análisis de negocio. Los movimientos de ratón quedan grabados en mapas de calor y queda registro de cuánto pasamos en cada página y cuándo las visitamos.
  • 18. SJM Computación 4.0 18 GENERACIÓN DE DATOS EN BIG DATA 4.- Obtenidos a partir de las interacciones máquina a máquina (M2M). Son datos obtenidos a partir de la recogida de métricas obtenidas desde dispositivos (medidores, sensores de temperatura, de luz, de altura, de presión, de sonido…) que transforman las magnitudes físicas o químicas y las convierten en datos. Existen desde hace décadas, pero la llegada de las comunicaciones inalámbricas (wifi, Bluetooth, RFID, etc.) ha revolucionado el mundo de los sensores. Algunos ejemplos son los GPS en la automoción, los sensores de signos vitales (muy útil para seguros de vida), pulseras en los festivales​, monitorizadores del funcionamiento y conducción de autoḿoviles (se obtiene información muy útil para la aseguradoras)​, los smartphone (son sensores de localización).
  • 19. SJM Computación 4.0 19 GENERACIÓN DE DATOS EN BIG DATA 5.- Datos biométricos recolectados. En general provienen de servicios de seguridad, defensa y servicios de inteligencia. Son cantidades de datos generados por lectores biométricos como escáneres de retina, escáneres de huellas digitales, o lectores de cadenas de ADN. El propósito de estos datos es proporcionar mecanismos de seguridad y suelen estar custodiados por los ministerios de defensa y departamentos de inteligencia. Un ejemplo de aplicación es el cruce de ADN entre una muestra de un crimen y una muestra en nuestra base de datos.
  • 20. SJM Computación 4.0 20 TRANSFORMACIÓN DE DATOS EN BIG DATA Una vez encontradas las fuentes de los datos necesarios, muy posiblemente dispongamos de un sinfín de tablas de origen que no estarán relacionadas. El siguiente objetivo es hacer que los datos se recojan en un mismo lugar y darles un formato adecuado. Aquí entran en juego las plataformas extraer, transformar y cargar (ETL). Su propósito es extraer los datos de las diferentes fuentes y sistemas, para después hacer transformaciones (conversiones de datos, limpieza de datos sucios, cambios de formato, etc.) y finalmente cargar los datos en la base de datos o almacén de datos especificada. Un ejemplo de plataforma ETL es el Pentaho Data Integration, más concretamente su aplicación Spoon.
  • 21. SJM Computación 4.0 21 ALMACENAMIENTO DE DATOS NoSQL El término NoSQL se refiere a Not Only SQL (no solo SQL) - SQL (Structured Query Language = lenguaje de consulta estructurada es un lenguaje de dominio específico utilizado en programación, diseñado para administrar, y recuperar información de sistemas de gestión de bases de datos relacionales). y son sistemas de almacenamiento que no cumplen con el esquema entidad-relación. Proveen un sistema de almacenamiento mucho más flexible y concurrente y permiten manipular grandes cantidades de información de manera mucho más rápida que las bases de datos relacionales. Distinguimos cuatro grandes grupos de bases de datos NoSQL: 1.- Almacenamiento clave-valor (key-value): Los datos se almacenan de forma similar a los mapas o diccionarios de datos, donde se accede al dato a partir de una clave única. Los valores (datos) son aislados e independientes entre ellos, y no son interpretados por el sistema. Pueden ser variables simples como enteros o caracteres, u objetos. Por otro lado, este sistema de almacenamiento carece de una estructura de datos clara y establecida, por lo que no requiere un formateo de los datos muy estricto. Son útiles para operaciones simples basadas en las claves. Un ejemplo es el aumento de velocidad de carga de un sitio web que puede utilizar diferentes perfiles de usuario, teniendo
  • 22. SJM Computación 4.0 22 ALMACENAMIENTO NoSQL mapeados los archivos que hay que incluir según el id de usuario y que han sido calculados con anterioridad. Apache Cassandra es la tecnología de almacenamiento clave-valor más reconocida por los usuarios. 2.- Almacenamiento documental: Las bases de datos documentales guardan un gran parecido con las bases de datos Clave-Valor, diferenciándose en el dato que guardan. Si en el anterior no se requería una estructura de datos concreta, en este caso guardamos datos semiestructurados. Estos datos pasan a llamarse documentos, y pueden estar formateados en XML, JSON, Binary JSON o el que acepte la misma base de datos. Todos los documentos tienen una clave única con la que pueden ser accedidos e identificados explícitamente, por lo que pueden ser interpretados y lanzar queries sobre ellos. Un ejemplo que aclare cómo se usa lo encontramos en un blog: se almacena el autor, la fecha, el título, el resumen y el contenido del post. CouchDB o MongoDB son quizá las más conocidas. Hay que hacer mención especial a MapReduce, una tecnología de Google inicialmente diseñada para su algoritmo PageRank, que permite seleccionar un subconjunto de datos, agruparlos o reducirlos y cargarlos en otra colección, y a Hadoop que es una tecnología de Apache diseñada para almacenar y procesar grandes cantidades de datos.
  • 23. SJM Computación 4.0 23 ALMACENAMIENTO NoSQL 3.- Almacenamiento en grafo: Las bases de datos en grafo rompen con la idea de tablas y se basan en la teoría de grafos, donde se establece que la información son los nodos y las relaciones entre la información son las aristas,​ algo similar al modelo relacional. Su mayor uso se contempla en casos de relacionar grandes cantidades de datos que pueden ser muy variables. Por ejemplo, los nodos pueden contener objetos, variables y atributos diferentes en unos y otros. Las operaciones de join se sustituyen por recorridos a través del grafo, y se guarda una lista de adyacencias entre los nodos. Encontramos un ejemplo en las redes sociales: en Facebook cada nodo se considera un usuario, que puede tener aristas de amistad con otros usuarios, o aristas de publicación con nodos de contenidos. Soluciones como Neo4J y GraphDB son las más conocidas dentro de las bases de datos en grafo. 4.- Almacenamiento orientado a columnas: Este almacenamiento es parecido al documental. Su modelo de datos es definido como «un mapa de datos multidimensional poco denso, distribuido y persistente». Se orienta a almacenar datos con tendencia a escalar horizontalmente, por lo que permite guardar diferentes atributos y objetos bajo una misma clave.
  • 24. SJM Computación 4.0 24 ALMACENAMIENTO NoSQL A diferencia del documental y el clave-valor, en este caso se pueden almacenar varios atributos y objetos, pero no serán interpretables directamente por el sistema. Permite agrupar columnas en familias y guardar la información cronológicamente, mejorando el rendimiento. Esta tecnología se acostumbra a usar en casos con 100 o más atributos por clave. Su precursor es BigTable de Google, pero han aparecido nuevas soluciones como HBase o HyperTable.
  • 25. SJM Computación 4.0 25 ANÁLISIS DE DATOS El análisis permite mirar los datos y explicar lo que esta pasando. Teniendo los datos necesarios almacenados según diferentes tecnologías de almacenamiento, nos daremos cuenta que necesitaremos diferentes técnicas de análisis de datos como las siguientes: a.-Asociación: permite encontrar relaciones entre diferentes variables. Bajo la premisa de causalidad, se pretende encontrar una predicción en el comportamiento de otras variables. Estas relaciones pueden ser los sistemas de ventas cruzadas en los comercios electrónicos. b.- Minería de datos (data mining): tiene como objetivo encontrar comportamientos predictivos. Engloba el conjunto de técnicas que combina métodos estadísticos y de aprendizaje automático con almacenamiento en bases de datos. Está estrechamente relacionada con los modelos utilizados para descubrir patrones en grandes cantidades de datos. c.- Agrupación (clustering): el análisis de clústeres es un tipo de minería de datos que divide grandes grupos de individuos en grupos más pequeños de los cuales no conocíamos su parecido antes del análisis. El propósito es encontrar similitudes entre estos grupos, y el descubrimiento de nuevos, conociendo cuáles son las cualidades que lo definen. Es una metodología apropiada para encontrar relaciones entre resultados y hacer una evaluación preliminar de la estructura de los datos analizados. Existen diferentes técnicas y algoritmos de clusterización.
  • 26. SJM Computación 4.0 26 ANÁLISIS DE DATOS d.- Análisis de texto (text analytics): gran parte de los datos generados por las personas son textos, como correos, búsquedas web o contenidos. Esta metodología permite extraer información de estos datos y así modelar temas y asuntos o predecir palabras.
  • 27. SJM Computación 4.0 27 VISUALIZACIÓN DE DATOS La mente agradece mucho más una presentación bien estructurada de resultados estadísticos en gráficos o mapas en vez de en tablas con números y conclusiones. Mondrian es una plataforma que permite visualizar la información a través de los análisis llevados a cabo sobre los datos que disponemos. Con esta plataforma se intenta llegar a un público más concreto, y una utilidad más acotada como un cuadro de mando integral de una organización. En los últimos años se han generalizado otras plataformas como Tableau, Power BI y Qlik. Por otro lado, las infografías se han vuelto un fenómeno viral, donde se recogen los resultados de los diferentes análisis sobre nuestros datos, y son un material atractivo, entretenido y simplificado para audiencias masivas.
  • 28. SJM Computación 4.0 28 VISUALIZACIÓN DE DATOS
  • 29. SJM Computación 4.0 29 EL CICLO DEL BIG DATA
  • 30. EL CICLO DE GESTIÓN DE INFORMACIÓN EN 4 FASES 1.- 2.- SJM Computación 4.0 30
  • 31. EL CICLO DE GESTIÓN DE INFORMACIÓN EN 4 FASES (cont.) 3.- 4.- SJM Computación 4.0 31
  • 32. HERRAMIENTAS DEL BIG DATA (software) SJM Computación 4.0 32 Existen muchísimas herramientas para el manejo de BIG DATA. Trataremos las principales herramientas: 1.- MAPREDUCE 2.- HADOOP 3.- APACHE SPARK 4.- APACHE STORM 5.- APACHE HIVE 6.- MONGO DB 7.-PYTHON 8.- CASSANDRA
  • 33. MapReduce es un framework creado por Google, y pensado para realizar operaciones de forma paralela sobre grandes colecciones de datos. Este framework está compuesto de dos funciones principales: la función Map y la función Reduce. De ahí ese nombre tan original. La función Map se encarga, de forma paralela, de mapear los datos de origen. Para cada dato de origen, se genera una dupla clave-valor, las cuales son unidas en una lista que se pasa a la función Reduce. Después, la función Reduce, trata cada elemento de la lista de pares y realiza operaciones sobre ella para devolver un dato concreto. MAPREDUCE SJM Computación 4.0 33
  • 34. Hadoop es un sistema de código abierto que se utiliza para almacenar, procesar y analizar grandes volúmenes de datos. Sus ventajas son muchas: - Aísla a los desarrolladores de todas las dificultades presentes en la programación paralela. - Cuenta con un ecosistema que sirve de gran ayuda al usuario, ya que permite distribuir el fichero en nodos, que no son otra cosa que ordenadores con commodity-hardware. - Es capaz de ejecutar procesos en paralelo en todo momento. - Dispone de módulos de control para la monitorización de los datos. - Presenta una opción que permite realizar consultas. - También potencia la aparición de distintos add- ons, que facilitan el trabajo, manipulación y seguimiento de toda la información que en él se almacena. Esta solución, que posteriormente se denominará Hadoop, se basa en un gran número de pequeños ordenadores, cada uno de los cuales se encarga de procesar una porción de información. La grandiosidad del sistema es que, a pesar de que cada uno de ellos funciona de forma independiente y autónoma, todos actúan en conjunto, como si fueran un solo ordenador de dimensiones increíbles. HADOOP SJM Computación 4.0 34
  • 35. Hadoop proporciona un almacenamiento masivo para cualquier tipo de datos, un enorme poder de procesamiento y la capacidad de manejar tareas o trabajos prácticamente ilimitados. Hadoop es importante porque tiene: Capacidad para almacenar y procesar grandes cantidades de cualquier tipo de datos rápidamente. Con volúmenes y variedad de datos en constante aumento, especialmente de lo que se refiere a medios de comunicación social y del Internet de las Cosas, esto es una consideración clave. Poder de procesamiento. El modelo de computación distribuida de Hadoop procesa rápidamente Big Data. Cuantos más nodos de computación se utilizan, más poder de procesamiento tendrás. Tolerancia a fallos. Los datos y el procesamiento de aplicaciones están protegidos contra fallos de hardware. Si un nodo disminuye, los trabajos se redirigen automáticamente a otros nodos para asegurarse de que la computación distribuida no falla. Se almacenan automáticamente varias copias de todos los datos. Flexibilidad. A diferencia de las bases de datos relacionales tradicionales, no es necesario preprocesar los datos antes de almacenarlos. Puedes almacenar tantos datos como desees y decidir cómo utilizarlos más tarde. Esto incluye datos no estructurados como texto imágenes y vídeo. Bajo coste. Es de código abierto, gratuito y utiliza hardware básico para almacenar grandes cantidades de datos. Escalabilidad. Puedes hacer crecer fácilmente el sistema para manejar más datos simplemente añadiendo nodos. Se requiere poca administración. HADOOP (continuación) SJM Computación 4.0 35
  • 36. APACHE SPARK Apache Spark fue creado en la Universidad de Berkeley (California) y es considerado el primer software de código abierto que hace la programación distribuida accesible a los científicos de datos. Al igual que Hadoop, Spark pertenece a Apache Software Foundation. Según explica IBM, Apache Spark es una infraestructura de informática de clúster de código abierto con proceso en memoria para agilizar las aplicaciones de analítica hasta 100 veces más comparado con las tecnologías actuales del mercado. Apache Spark puede reducir la complejidad de la interacción de los datos, aumentar la velocidad de proceso y mejorar las aplicaciones de misión crítica con amplia información útil. Muchos especialistas en Big Data opinan que Spark es una herramienta más avanzada que Hadoop. De hecho, en 2014, Spark batió el Récord Mundial al clasificar 100 terabytes de datos en tan solo 23 minutos, superando así la marca de Hadoop, que se situaba en los 71 minutos. El motor de procesamiento Spark se ha creado para ofrecer velocidad, facilidad de uso y análisis sofisticados. SJM Computación 4.0 36
  • 37. APACHE STORM Apache Storm es un sistema de cálculo de código abierto, distribuido y con tolerancia a errores que permite procesar datos en tiempo real con Hadoop. Las soluciones de Storm pueden proporcionar también procesamiento de datos garantizado, con la posibilidad de reproducir los datos que no se han procesado correctamente la primera vez. Apache Storm es una herramienta de Big Data open-source que puede ser usada con cualquier lenguaje de programación. Procesa en tiempo real y de forma sencilla grandes cantidades de datos, el sistema crea topologías de los macrodatos para transformarlos y analizarlos de forma continua mientras flujos de información entran al sistema constantemente. Se puede utilizar en varios lenguajes de programación. Storm está desarrollado en Clojure, un dialecto de Lisp que se ejecuta en Máquina Virtual Java (JVM, en sus siglas en inglés). Su gran fortaleza es que ofrece compatibilidad con componentes y aplicaciones escritos en varios lenguajes como Java, C#, Python, Scala, Perl o PHP. - Es escalable. - Tolerante a fallos. - Fácil de instalar y operar. SJM Computación 4.0 37
  • 38. Apache Hive es un sistema de almacén de datos para Hadoop, que permite realizar resúmenes de datos, consultas y análisis de datos mediante HiveQL (una lenguaje de consultas similar a SQL). Hive se puede usar para explorar los datos de forma interactiva o para crear trabajos de procesamiento por lotes reutilizables. Hive permite proyectar la estructura del proyecto en datos que en gran medida no están estructurados. Después de definir la estructura, puede usar Hive para consultar esos datos sin conocimiento de Java o MapReduce Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar agrupación, consulta, y análisis de datos. Inicialmente desarrollado por Facebook, Apache Hive es ahora utilizada y desarrollado por otras empresas como Netflix y la Financial Industry Regulatory Authority (FINRA). Amazon mantiene una derivación de software de Apache Hive incluida en Amazon Elastic MapReduce en sus servicios Amazon Web Services. APACHE HIVE SJM Computación 4.0 38
  • 39. MONGO DB Mongo DB se trata de una base de datos NoSQL optimizada para trabajar con grupos de datos que que varían con frecuencia, o que son semiestructurados o inestructurados. Se emplea para almacenar datos de aplicaciones móviles y de sistemas de gestión de contenidos, entre otros. Es empleada por compañías como Bosch y Telefónica. MongoDB nos proporciona las ventajas de una base de datos NoSQL, como la flexibilidad de la estructura de datos, la escalabilidad y el rendimiento sin abandonar conceptos que han hecho a las bases de datos relacionales lo que son hoy en dia, como consistencia de datos y la integración con otras herramientas de desarrollo. Por estas características, MongoDB es una herramienta que cae como anillo al dedo para el desarrollo de aplicaciones como redes sociales, aplicaciones móviles, CMS, entre otras, que debido a lo antes mencionado, requieren de una base de datos que ofrezca alto rendimiento y flexibilidad, a la vez que mantiene consistencia y seguridad en los datos. MongoDB es una herramienta muy fácil de aprender, bastante útil y sumamente divertida. SJM Computación 4.0 39
  • 40. Python cuenta con la ventaja de que sólo hay que tener unos conocimientos mínimos de informática para poder usarla, lo hace que tenga una gran comunidad de usuarios con la opción de crear sus propias librerías. El inconveniente de esta herramienta de Big Data es la velocidad, ya que es notablemente más lenta que sus competidoras. Python es un lenguaje de programación multiparadigma. Esto significa que más que forzar a los programadores a adoptar un estilo particular de programación, permite varios estilos: programación orientada a objetos, programación imperativa y programación funcional. Otros paradigmas están soportados mediante el uso de extensiones. Python usa tipado dinámico y conteo de referencias para la administración de memoria. Una característica importante de Python es la resolución dinámica de nombres; es decir, lo que enlaza un método y un nombre de variable durante la ejecución del programa (también llamado enlace dinámico de métodos) PYTHON SJM Computación 4.0 40
  • 41. Apache Cassandra es una base de datos NoSQL desarrollada en un principio por Facebook. Es la mejor opción si lo que necesitas es escalabilidad y alta disponibilidad sin comprometer el rendimiento. Netflix y Reddit son usuarios de esta herramienta. Lanzado por Facebook, y con contribuciones recibidas por Google, Apache Cassandra es un sistema de código abierto proyectado para administrar gran volumen de datos en tiempo real, permitiendo repuestas inmediatas y soporte antes fallas. En otras palabras, funciona como un banco de datos distribuidos y es una de las opciones actuales para soluciones NoSQL (no solamente SQL) o para datos no relacionales. En cuanto al almacenamiento de datos, Cassandra es esencialmente un híbrido entre valor-llave (dato tabular) y banco de datos creados en columnas, con distribución de contenido por nombre, valor y tiempo, pudiendo tener buen balance y distribución de carga. APACHE CASSANDRA SJM Computación 4.0 41
  • 42. SJM Computación 4.0 42 SEGURIDAD EN BIG DATA Requisitos de seguridad A la hora de construir una Big Data, se debe tener en cuenta algunos requisitos de seguridad como lo es: 1.- El acceso y autorización granular a los datos La granulación quiere decir que los datos, a los cuales se tendrá acceso y autorización, son de alto nivel, o sea, al estar ya agrupados, otorgarán una función más precisa y oportuna para el que los utilizará, que cuando se tienen datos separados. En este punto también va incluido la gobernabilidad de datos que se debe tener, a saber, gobernabilidad de datos se refiere a que los datos deben estar autorizados, organizados y con los permisos de usuario necesarios en una base de datos, con el menor número posible de errores, manteniendo al mismo tiempo la privacidad y la seguridad. Para tener un efectivo gobierno de datos, deberán existir controles granulares, que se pueden lograr a través de las expresiones de control de acceso; estas expresiones usan agrupación y lógica booleana para controlar el acceso y autorización de datos flexibles, con permisos basados en roles y configuración de visibilidad. Se pueden tener diferentes niveles de acceso, para dar una seguridad más integrada.
  • 43. SJM Computación 4.0 43 SEGURIDAD EN BIG DATA 2.- Seguridad perimetral, protección de datos y autenticación integrada. La seguridad perimetral se define como aquellos elementos y sistemas que permiten proteger unos perímetros en instalaciones sensibles de ser atacados los sistemas informáticos por intrusos. Se trata de una primera línea de defensa que reduce muchísimo el riesgo de que se roben los datos o incluso desaparezcan. La seguridad perimetral que protege los sistemas debe cumplir cuatro funciones básicas: a) Resistir a los ataques externos. b) Identificar los ataques sufridos y alertar de ellos. c) Aislar y segmentar los distintos servicios y sistemas en función de su exposición a ataques. d) Filtrar y bloquear el tráfico, permitiendo únicamente aquel que sea absolutamente necesario. Algunas herramientas que se pueden utilizar para la seguridad perimetral son: los Firewalls, pues definen, mediante una política de acceso, qué tipo de tráfico se permite o se deniega en la red; los sistemas de detección y prevención de intrusos, que son dispositivos que monitorizan y generan alarmas cuando hay alertas de seguridad; los Honeypots, que se trata de una trampa para atraer y analizar ataques de bots y hackers; y los antispam, que filtran el contenido malicioso que entra a nuestra red. La gobernabilidad no ocurre sin una seguridad en el punto final de la cadena.
  • 44. SJM Computación 4.0 44 SEGURIDAD EN BIG DATA
  • 45. SJM Computación 4.0 45 SEGURIDAD EN BIG DATA Es importante construir un buen perímetro y colocar un cortafuego alrededor de los datos, integrados con los sistemas y estándares de autenticación existentes. Cuando se trata de autenticación, es importante que las empresas se sincronicen con sistemas probados. Con la autenticación, se trata de ver cómo integrarse con LDAP [Lightweight Directory Access Protocol], Active Directory y otros servicios de directorio. También se puede dar soporte a herramientas como Kerberos para soporte de autenticación. Pero lo importante es no crear una infraestructura separada, sino integrarla en la estructura existente. 3.- Encriptación de Datos El siguiente paso después de proteger el perímetro y autenticar todo el acceso granular de datos que se está otorgando, es asegurarse de que los archivos y la información personalmente identificable estén encriptados de extremo a extremo. Es necesario encriptar esos datos de forma que, independientemente de quién tenga acceso a él, puedan ejecutar los análisis que necesiten sin exponer ninguno de esos datos. La encriptación es un procedimiento mediante el cual los archivos, o cualquier otro tipo de documento, se vuelve completamente ilegibles gracias a un algoritmo que desordena sus componentes. Así, cualquier persona que no disponga de las claves correctas no podrá acceder a la información que contiene.
  • 46. SJM Computación 4.0 46 SEGURIDAD EN BIG DATA 4.- Constante Auditoría y Análisis La auditoría es un proceso implementado por los auditores de sistemas con el fin de auditar los accesos a los datos, por lo general, siguiendo bien una metodología basada en una lista que contempla los puntos que quieren comprobar o mediante la evaluación de riesgos potenciales. En concreto, se realiza un examen de los accesos a los datos almacenados en las bases de datos con el fin de poder medir, monitorear y tener constancia de los accesos a la información almacenada en las mismas. Ese nivel de visibilidad y responsabilidad en cada paso del proceso es lo que permite “gobernar" los datos en lugar de simplemente establecer políticas y controles de acceso y esperar lo mejor. También es cómo las empresas pueden mantener sus estrategias actualizadas en un entorno en el que la forma en que vemos los datos y las tecnologías que utilizamos para administrarlos y analizarlos están cambiando cada día. El fin que persigue, de uno u otro modo, es la seguridad corporativa. Una auditoría de base de datos, por lo tanto, facilita herramientas eficaces para conocer de forma exacta cuál es la relación de los usuarios a la hora de acceder a las bases de datos, incluyendo las actuaciones que deriven en una generación, modificación o eliminación de datos.
  • 47. SJM Computación 4.0 47 APLICACIONES DE BIG DATA El uso de Big Data ha sido utilizado por la industria de los medios, las empresas y los gobiernos para dirigirse con mayor precisión a su público y aumentar la eficiencia de sus mensajes. El big data ha aumentado la demanda de especialistas en administración de la información tanto que Software AG, Oracle Corporation, IBM, Microsoft, SAP, EMC, HP y Dell h an gastado más de $ 15 mil millones en firmas de software especializadas en administración y análisis de datos. Si bien muchos proveedores ofrecen soluciones estándar para big data, los expertos recomiendan el desarrollo de soluciones internas personalizadas para resolver el problema de la compañía si la empresa cuenta con capacidades técnicas suficientes.
  • 48. SJM Computación 4.0 48 1.- Gobierno El uso y la adopción de big data dentro de los procesos gubernamentales permite eficiencias en términos de costo, productividad e innovación, pero no viene sin sus defectos76. El análisis de datos a menudo requiere que varias partes del gobierno (central y local) trabajen en colaboración y creen procesos nuevos para lograr el resultado deseado. Los datos masivos se usan habitualmente para influenciar el proceso democrático. Los representantes del pueblo pueden ver todo lo que hacen los ciudadanos, y los ciudadanos pueden dictar la vida pública de los representantes mediante tuits y otros métodos de extender ideas en la sociedad. Las campañas presidenciales de Obama y Trump los usaron de manera generalizada y hay expertos que advierten de que hay que «reinventar la democracia representativa. Si no, es posible que se convierta en una dictadura de la información»​. El Banco Interamericano de Desarrollo (BID) ha desarrollado estudios en América Latina en los que presenta distintos casos del uso de Macrodatos en el diseño e implementación de políticas públicas. Destacando intervenciones en temas de movilidad urbana, ciudades inteligentes y seguridad, entre otras temáticas. Las recomendaciones de los mismos han girado en torno a cómo construir instituciones públicas que logren, mediante el uso de datos masivos, a ser más transparentes y ayuden a tomar mejores decisiones. APLICACIONES DE BIG DATA
  • 49. SJM Computación 4.0 49 APLICACIONES DE BIG DATA 2.- Desarrollo internacional La investigación sobre el uso efectivo de las tecnologías de información y comunicación para el desarrollo (también conocido como ICT4D) sugiere que la tecnología de big data puede hacer contribuciones importantes pero también presentar desafíos únicos para el desarrollo internacional. Los avances en el análisis de big data ofrecen oportunidades rentables para mejorar la toma de decisiones en áreas de desarrollo críticas como la atención médica, el empleo, la productividad económica, la delincuencia, la seguridad y el manejo de recursos y desastres naturales. Además, los datos generados por el usuario ofrecen nuevas oportunidades para ofrecer una voz inaudita. Sin embargo, los desafíos de larga data para las regiones en desarrollo, como la infraestructura tecnológica inadecuada y la escasez de recursos económicos y humanos exacerban las preocupaciones existentes con los grandes datos, como la privacidad, la metodología imperfecta y los problemas de interoperabilidad. 3.- Industria El big data proporciona una infraestructura para la transparencia en la industria manufacturera, que es la capacidad de desentrañar incertidumbres como el rendimiento y la disponibilidad de componentes inconsistentes.
  • 50. SJM Computación 4.0 50 APLICACIONES DE BIG DATA La fabricación predictiva como un enfoque aplicable para el tiempo de inactividad y la transparencia cercanos a cero requiere una gran cantidad de datos y herramientas de predicción avanzadas para un proceso sistemático de datos en información útil. Un marco conceptual de fabricación predictiva comienza con la adquisición de datos donde se encuentran disponibles diferentes tipos de datos sensoriales, tales como acústica, vibración, presión, corriente, voltaje y datos de controlador. Una gran cantidad de datos sensoriales, además de los datos históricos, construyen los grandes datos en la fabricación. Los big data generados actúan como la entrada en herramientas predictivas y estrategias preventivas como Pronósticos y Gestión de Salud (PHM). 4.- Medios Los profesionales en medios y publicidad abordan los grandes datos como muchos puntos de información procesables sobre millones de personas. La industria parece alejarse del enfoque tradicional de utilizar entornos de medios específicos, como periódicos, revistas o programas de televisión, y en su lugar aprovecha a los consumidores con tecnologías que llegan a las personas objetivo en momentos óptimos en ubicaciones óptimas. El objetivo final es servir o transmitir, un mensaje o contenido que (estadísticamente hablando) esté en línea con la mentalidad del consumidor.
  • 51. SJM Computación 4.0 51 APLICACIONES DE BIG DATA Por ejemplo, los entornos de publicación adaptan cada vez más los mensajes (anuncios publicitarios) y el contenido (artículos) para atraer a los consumidores que han sido recolectados exclusivamente a través de diversas actividades de extracción de datos. -Orientación de los consumidores (para publicidad de los vendedores) -Minería de datos -Periodismo de datos: los editores y los periodistas usan herramientas de Big Data para proporcionar información e infografías únicas e innovadoras. 5.- Seguros Los proveedores de seguro médico recopilan datos sobre "determinantes sociales", como el consumo de alimentos y televisión, el estado civil, el tamaño de la vestimenta y los hábitos de compra, desde los cuales hacen predicciones sobre los costos de salud para detectar problemas de salud en sus clientes. Es controvertido si estas predicciones se están utilizando actualmente para fijar precios. 6.- Deportes En un ámbito donde se mueve tanto dinero, suelen utilizar las nuevas tecnologías antes que los usuarios de base.
  • 52. SJM Computación 4.0 52 APLICACIONES DE BIG DATA Nos encontramos por ejemplo que el análisis de los partidos constituye una parte fundamental en el entrenamiento de los profesionales, y la toma de decisiones de los entrenadores. Amisco es un sistema aplicado por los más importantes equipos de las ligas Española, Francesa, Alemana e Inglesa desde el 2001. Consta de 8 cámaras y diversos ordenadores instalados en los estadios, que registran los movimientos de los jugadores a razón de 25 registros por segundo, y luego envían los datos a una central donde hacen un análisis masivo de los datos. La información que se devuelve como resultado incluye una reproducción del partido en dos dimensiones, los datos técnicos y estadísticas, y un resumen de los datos físicos de cada jugador, permitiendo seleccionar varias dimensiones y visualizaciones diferentes de datos. 7.- Finanzas El crecimiento de datos en el mundo financiero obliga al uso del big data para el procesamiento rápido de datos, gestión de la omnicanalidad, segmentación avanzada de clientes, creación de estrategias de precios dinámicos, gestión de riesgos, prevención de fraudes, apoyo en la toma de decisiones, detectar tendencias de consumo, definir nuevas formas de hacer mejor las cosas, detectar alertas y otro tipo de eventos complejos, hacer un seguimiento avanzado de la competencia.
  • 53. SJM Computación 4.0 53 APLICACIONES DE BIG DATA 8.- Marketing y ventas El big data cada vez se utiliza más para segmentación avanzada de los consumidores, automatizar la personalización de los productos, adaptar las comunicaciones al momento del ciclo de venta, captar nuevas oportunidades de venta, apoyo en la toma de decisiones a tiempo real, gestión de crisis. La aplicación que se le da a Big Data en el área de ventas puede variar un poco según el enfoque que cada compañía le quiera da, aunque sin duda alguna, en todas las compañías el Big Data hará que sus aproximaciones sean más precisas y directas y por lo tanto ganar en efectividad y potencialidad. Algunas de las tendencias que está generando el Big Data son las de ser más precisos en el control del gasto en marketing y las de ser más eficientes en ventas. 9.- Investigación La búsqueda encriptada y la formación de clúster en big data se demostraron en marzo de 2014 en la Sociedad Estadounidense de Educación en Ingeniería. Gautam Siwach participó en abordar los desafíos de Big Data por el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT y Amir Esmailpour, en el Grupo de Investigación de UNH, investigó las características clave de Big Data como la formación de clusters y sus interconexiones.
  • 54. SJM Computación 4.0 54 APLICACIONES DE BIG DATA Se centraron en la seguridad de los macrodatos y la orientación del término hacia la presencia de diferentes tipos de datos en forma cifrada en la interfaz de la nube al proporcionar las definiciones sin procesar y los ejemplos de tiempo real dentro de la tecnología. Además, propusieron un enfoque para identificar la técnica de codificación para avanzar hacia una búsqueda acelerada sobre texto encriptado que conduzca a las mejoras de seguridad en big data. Los grandes conjuntos de datos vienen con desafíos algorítmicos que anteriormente no existían. Por lo tanto, existe una necesidad de cambiar fundamentalmente las formas de procesamiento. Los talleres sobre algoritmos para conjuntos de datos masivos modernos (MMDS) reúnen a científicos informáticos, estadísticos, matemáticos y profesionales del análisis de datos para analizar los desafíos algorítmicos del big data. 10.- Muestreo de big data Una pregunta de investigación importante que se puede hacer sobre los conjuntos de datos grandes es si necesita ver los datos completos para sacar ciertas conclusiones sobre las propiedades de los datos o si una muestra es lo suficientemente buena. El nombre big data contiene un término relacionado con el tamaño, y esta es una característica importante de big data.
  • 55. SJM Computación 4.0 55 APLICACIONES DE BIG DATA Pero el muestreo (estadísticas) permite la selección de puntos de datos correctos dentro del conjunto de datos más grande para estimar las características de toda la población. Por ejemplo, hay alrededor de 600 millones de tweets producidos todos los días. ¿Es necesario mirarlos a todos para determinar los temas que se discuten durante el día? ¿Es necesario mirar todos los tweets para determinar el sentimiento sobre cada uno de los temas? En la fabricación de diferentes tipos de datos sensoriales, como acústica, vibración, presión, corriente, voltaje y datos del controlador están disponibles en intervalos de tiempo cortos. Para predecir el tiempo de inactividad, puede que no sea necesario examinar todos los datos, pero una muestra puede ser suficiente. Big data se puede desglosar por varias categorías de puntos de datos, como datos demográficos, psicográficos, de comportamiento y transaccionales. Se han realizado algunos trabajos en algoritmos de muestreo para big data. Se ha desarrollado una formulación teórica para el muestreo de datos de Twitter. 11.- Salud y medicina La información genética no es la única que ha sufrido una explosión en los últimos años. También podemos destacar el enorme crecimiento en el uso de wearables, dispositivos digitales que llevamos encima todo el día.
  • 56. SJM Computación 4.0 56 APLICACIONES DE BIG DATA Estos dispositivos pueden ser usados para tomar medidas sobre datos biométricos de los pacientes y de esta manera recopilar datos a lo largo del tiempo. La novedad es que esta información puede ser analizada en tiempo real por los médicos y especialistas, de esta forma se puede realizar un seguimiento como nunca visto hasta ahora del paciente. En el 2012, en la Feria de Ciencias de Google, Brittany Wenger, estudiante de 18 años, presentó el proyecto de diseño de un software para ayudar al diagnóstico temprano del cáncer de mama. Denominó a la plataforma Cloud4cancer, que utiliza una red de inteligencia artificial y las bases de datos de los hospitales para diferenciar una muestra de un tejido benigno de una de un tumor maligno. El sistema inteligente diseñado por Wenger distingue en segundos los dos tipo de tumores, ingresando a la plataforma las características observadas. Es posible que este sistema se aplique más adelante a otros padecimientos, como la leucemia. 12.- Defensa y seguridad Para incrementar la seguridad frente a los ataques de las propias organizaciones, ya sean empresas en el entorno económico o los propios ministerios de defensa en el entorno de ciberataques, se contempla la utilidad de las tecnologías de big data en escenarios como la vigilancia y seguridad de fronteras, lucha contra el terrorismo y crimen organizado, contra el fraude, planes de seguridad ciudadana o planeamiento táctico de misiones e inteligencia militar.
  • 57. CASOS PRÁCTICOS DE APLICACIÓN Y ÉXITO EMPRESARIAL AMAZON.- La compañía de referencia a nivel mundial, en lo que a comercio electrónico se refiere, basa buena parte de su éxito en conocer de antemano lo que necesitan sus clientes. Así, es muy probable que si entras en la página de esta empresa, te sugiera artículos que van a ser de gran interés para ti. ¿Cómo? A través de la inteligencia de datos analizan muchos factores de carácter individual del usuario como sus hábitos de compra o intereses y otros más generales como tendencias del momento o pautas de conducta de otros usuarios que adquirieron productos similares. Juntan todo en la coctelera del Big Data y ofrecen una serie de productos sugeridos o relacionados con compras que el cliente ya ha hecho o se ha planteado hacer. NIKE.- Los dispositivos electrónicos de su línea NikePlus (relojes inteligentes, pulsómetros, dispositivos con sensores que conectan sus zapatillas con un teléfono…) recogen cantidades masivas de información de millones de usuarios. Información que sirve a la empresa de ropa deportiva estadounidense para buscar la fidelización de los usuarios a través de retos y objetivos que apelan a la capacidad de superación de estos, creando un vínculo con la marca más allá de la simple venta de material deportivo. SJM Computación 4.0 57
  • 58. SPOTIFY.- Bajar hasta los datos individualizados más llamativos para lanzar con ellos una campaña global masiva. Eso hizo en Reino Unido la compañía sueca Spotify, que ofrece reproducción de música vía streaming. Su plan consistió en buscar la complicidad del gran público. Y lo consiguieron mostrando curiosidades o rarezas del comportamiento de algunos de sus usuarios que habían detectado a través de los macrodatos. Así, en grandes carteles publicitarios, colocaron anuncios como estos: «Queridas 3.749 personas que reprodujeron “It’s the end of the world as we know it” el día del Brexit, estamos con vosotros» «Querida persona en el Theater District que escuchó la banda sonora de Hamilton 5.376 veces este año, ¿puedes conseguirnos tickets? «Querida persona que reprodujo “Sorry” 42 veces en el Día de San Valentín, ¿qué hiciste?» SJM Computación 4.0 58
  • 59. T-MOBILE.- Esta empresa de telecomunicaciones alemana es un ejemplo de uso de los datos masivos como mejor arma de retención de clientes. Analizando a fondo las conversaciones, reclamaciones y descontentos que sus clientes dejaban en redes sociales, crearon soluciones específicas para cada uno de ellos y consiguieron reducir la fuga de clientes a otras empresas en un 50%, con lo que el retorno de la inversión realizada en Big Data fue compensado con creces. NETFLIX.- Uno de los grandes factores del éxito de la popular empresa estadounidense Netflix, es su magistral uso de los macrodatos para crear nuevos contenidos para sus usuarios, cuyos hábitos de consumo y preferencias son observados al detalle para descubrir qué es lo que van a querer ver a continuación en base a patrones predictivos. Así crearon, por ejemplo, la serie House of Cards: observaron que a muchos de sus usuarios les gustaban contenidos que incluyeran poder, política, drama y sensualidad entre sus características principales. Y también que les gustaba como actor Kevin Spacey. Así, dieron con la fórmula y mezclaron en la trama todos estos ingredientes poniendo a protagonizar a Spacey la misma. Igual proceso para Stranger Things y otros grandes éxitos de audiencia. SJM Computación 4.0 59
  • 60. REVISTA ESPAÑOLA: BIG DATA MAGAZINE https://bigdatamagazine.es/bigdata-magazine-no1-especial-bigdata-en-banca-y-logistica SJM Computación 4.0 60
  • 61. SJM Computación 4.0 61 La naturaleza de la información hoy es diferente a la información en el pasado. Debido a la abundacia de sensores, micrófonos, cámaras, escáneres médicos, imágenes, etc. en nuestras vidas, los datos generados a partir de estos elementos serán dentro de poco el segmento más grande de toda la información disponible. . El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir por si mismos sin el uso de estas herramientas, debido a la velocidad del análisis, es posible que el analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y retrabajar el procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando de llegar. La capacidad de recoger datos, comprenderlos, procesarlos, extraer su valor, visualizarlos, comunicarlos serán todas habilidades importantes en las próximas décadas. Ahora disponemos de datos gratuitos y omnipresentes. Lo que aún falta es la capacidad de comprender estos datos y extraer su valor. En un futuro cercano se notará cada vez más la necesidad de un analista de datos, una nueva figura profesional de la sociedad de la información. Un científico que no sólo tendrá que ser capaz de “rebuscar” entre los datos, sino que también deberá contar con competencias en varias disciplinas (derecho, sociología, psicología) y un buenos conocimientos de cultura popular, habilidades comerciales y creatividad para aplicar BIG DATA. CONCLUSIONES
  • 62. WEBGRAFIA https://www.youtube.com/watch?v=2buYs2GVpGE https://es.slideshare.net/AldoRamiro/big-data-65019368 https://www.osi.es/es/actualidad/blog/2016/06/14/big-data-como-afecta-los-usuarios https://www.google.com.pe/search?safe=active&hl=es- 419&biw=1366&bih=657&tbm=isch&sa=1&ei=UwgmXeOcMc_x5gKPz6fQBQ&q=velocidad+en+big+data&oq=velocidad+en+big+data&gs _l=img.3..0i24.1276310.1283039..1285294...0.0..0.153.1992.0j14......0....1..gws-wiz- img.......0i8i7i30.PV8fq0rWNRA#imgrc=tJS2yYwzBkeJKM: https://es.wikipedia.org/wiki/Macrodatos https://www.bit.es/knowledge-center/que-es-big-data-introduccion-a-big-data/ https://www.eleconomista.es/tecnologia/noticias/5578707/02/14/La-moda-del-Big-Data-En-que-consiste-en-realidad.html https://www.masterbigdataucm.com/que-es-big-data/ https://www.nextibs.com/principales-herramientas-de-big-data-utilizan-actualidad/ https://www.psafe.com/es/blog/que-es-apache-cassandra/ https://www.icemd.com/digital-knowledge/articulos/las-ventajas-del-big-data/ https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html https://www.deustoformacion.com/blog/gestion-empresas/impacto-big-data-ventas VISITA: SJM Computación 4.0 62