BIG DATA

SJM Computación 4.0 1
Por: Enmer Leandro R.

INTRODUCCIÓN
Actualmente, en muchas empresas uno de los activos más valiosos que tienen es la información
que poseen, ya que como dice la famosa cita de Francis Bacon «la información es poder» y las
empresas son cada vez más conscientes de este hecho.
La llegada de Internet y la enorme cantidad de dispositivos que están continuamente
conectados a la red ha ayudado a aumentar de modo exponencial el volumen de información
que los usuarios generamos y esa información es realmente “el activo” del siglo XXI.
Todo ese enorme volumen de información que generamos cada día es almacenada, analizada y
procesada para que en función de los resultados se puedan obtener conclusiones que permitan
tomar decisiones para minimizar costes, maximizar producción, ajustar horarios, gestionar
pedidos, rutas de envío, etc. en base a los datos obtenidos en la fase de análisis de datos, esto
se conoce como Big Data.
Big Data nació con el objetivo de cubrir unas necesidades no satisfechas por las tecnologías
existentes, como es el almacenamiento y tratamiento de grandes volúmenes de datos

DEFINICIÓN
En la actualidad tenemos:
1. Gran cantidad de datos acumulados que hacía inviable su procesamiento en un único ordenador
2. Imposible analizar con las técnicas tradiciones de Base de Datos
3. Imposible almacenarlas siguiendo el modelo clásico de Base de Datos
4. Heterogeneidad de datos. Necesidad de insertar, consultar y procesar datos en diferentes estructuras
5. Necesidad de procesar rápidamente los datos.
El Big Data (datos masivos, macrodatos) es el análisis masivo de datos, una cantidad de datos,
tan sumamente grande, que las aplicaciones de software de procesamiento de datos que
tradicionalmente se venían usando no son capaces de capturar, tratar y poner en valor en un
tiempo razonable; Por ende, los procedimientos usados para encontrar patrones repetitivos
dentro de esos datos son más sofisticados y requieren software especializado.
El uso moderno del término "big data" tiende a referirse al análisis del comportamiento del
usuario, extrayendo valor de los datos almacenados, y formulando predicciones a través de los
patrones observados. La disciplina dedicada a los datos masivos se enmarca en el sector de
las tecnologías de la información y la comunicación

CARACTERÍSTICAS: conformado por 5 V
El volumen se refiere a la cantidad de datos que son generados cada segundo, minuto y días en
nuestro entorno. Es la característica más asociada al Big Data, ya que hace referencia a las
cantidades masivas de datos que se almacenan con la finalidad de procesar dicha información,
transformando los datos en acciones.
El volumen significa gran tamaño. Así en el año 2020 se esperan que en el mundo se almacenen
35 Zettabytes. Los datos crecen, habiendo pasado ya por la era del Petabyte y posteriormente
Exabyte, hasta llegar a hoy.
Cada vez estamos más conectados al mundo 2.0 por lo que generamos más y más datos. Para
algunas empresas, el estar en el mundo digital es algo obligatorio, por lo que la cantidad de
datos generados es aún mayor. Por ejemplo, una empresa que vende sus productos únicamente
a través de un canal online, le convendría implantar tecnología Big Data para procesar toda
aquella información que recoge su página web rastreando todas las acciones que lleva a cabo el
cliente; conocer donde cliquea más veces, cuántas veces ha pasado por el carrito de la compra,
cuáles son los productos más vistos, las páginas más visitadas, etc.
1.- VOLUMEN
Son 5 características principales del Big Data:

Diferencia entre la "b" minúscula y la "B" mayúscula. La "b" siempre significa "bit", mientras que la "B"
siempre significa "Byte". Esto es sumamente importante saberlo, y muchos escritores de columnas que
no conocen esta diferencia a veces no hacen esta distinción teniendo eso como resultado que lo que
publican es en realidad 8 veces mayor o 8 veces menor a la realidad (debido a que 8 bits son 1 Byte)
VOLUMEN - Equivalencias

2.- VARIEDAD
La variedad se refiere a las formas, tipos y fuentes en las que se registran los datos. Estos datos
pueden ser datos estructurados y fáciles de gestionar como son las bases de datos, o datos no
estructurados, entre los que se incluyen documentos de texto, correos electrónicos, datos de
sensores, audios, vídeos o imágenes que tenemos en nuestro dispositivo móvil, hasta
publicaciones en nuestros perfiles de redes sociales, artículos que leemos en blogs, las
secuencias de click que hacemos en una misma página, formularios de registro e infinidad de
acciones más que realizamos desde nuestro Smartphone, Tablet y ordenador.
Estos últimos datos requieren de una herramienta específica, debido a que el tratamiento de la
información es totalmente diferente con respecto a los datos estructurados. Para ello, las
empresas necesitan integrar, observar y procesar datos que son recogidos a través de múltiples
fuentes de información con herramientas cualificadas.
Los macrodatos usan textos, imágenes, audio y vídeo.
El tipo y naturaleza de los datos permite ayudar a las personas a analizar los datos y usar los
resultados de forma eficaz.

3.- VELOCIDAD
Velocidad se refiere a la rapidez con que los datos se reciben, se procesan y se toman
decisiones a partir de ellos. A la mayoría de los sistemas tradicionales les es imposible analizar
de forma inmediata los grandes volúmenes de datos que les llegan, sin embargo, incorporar el
concepto de tiempo real es imprescindible para sistemas de detección del fraude o la
realización de oferta personalizadas a los clientes.
Nuestro concepto de inmediatez ha cambiado en los últimos tiempos y se busca información
que llegue prácticamente al instante. Noticias que no llegan al día de antigüedad, en simple
cuestión de horas y, en ocasiones, minutos, pueden haber perdido interés. Así, la velocidad de
análisis requerida por la sociedad actual es una de las características fundamentales que tienen
los datos a gran escala, donde los datos en constante movimiento procesados a tiempo real
cobran protagonismo, ejecutando algoritmos cada vez más complejos en menos tiempo.

4.- VERACIDAD
Cuando hablamos de veracidad nos referimos a la incertidumbre de los datos, es decir, al grado
de fiabilidad de la información recibida.
Es necesario invertir tiempo para conseguir datos de calidad, aplicando soluciones y métodos
que puedan eliminar datos imprevisibles que puedan surgir como datos económicos,
comportamientos de los consumidores que puedan influir en las decisiones de compra.
La necesidad de explorar y planificar la incertidumbre es un reto para el Big Data que está a la
orden del día en las compañías dedicadas al análisis de datos.
La calidad de los datos capturados puede variar mucho y así afectar a los resultados del análisis.
saber la fiabilidad de la información recogida es importante para obtener unos datos de calidad
e, incluso, dependiendo de las aplicaciones que se le vaya a dar a misma, se convierte en
fundamental. Es un factor que puede influir mucho en conseguir una ventaja competitiva en la
explotación del Big Data.

5.- VALOR
El dato no es valor. Tampoco tienes valor por el mero hecho de recopilar gran cantidad de
información. El valor se obtiene de datos que se transforman en información; esta a su vez se
convierte en conocimiento, y este en acción o en decisión. El valor de los datos está en que
sean accionables, es decir, que los responsable de la empresas puedan tomar una decisión (la
mejor decisión) en base a estos datos.
No todos los datos de los que partimos se convierten en acción o decisión. Para ello, es
necesario tener tecnologías aplicadas. Por ejemplo, una publicación en una red social, que
gracias al uso de tecnologías de procesamiento de lenguaje natural, puede medir el sentimiento
positivo o negativo, con la ayuda de un algoritmo de análisis de redes sociales o herramientas
que permitan obtener de esto información.
Los datos generados deben ser útiles, accionables y tener valor.

1.- Velocidad en la toma de decisiones:
La información es fundamental como base para la correcta toma de decisiones, y mucho más
cuando podemos manejar de forma dinámica toda la información que nos proporciona el Big
Data. Podremos asumir decisiones inteligentes y veloces que ayuden a favorecer a nuestro
negocio, puesto que éstas se han basado en un fundamento férreo. Es posible realizar de
manera fluida un análisis de oportunidad antes de poner cualquier producto o servicio en el
mercado.
2.- Planes estratégicos Inteligentes de Marketing:
A través de los datos que nos proporciona el Big Data, a día de hoy es posible analizar y predecir
el comportamiento que un usuario tendrá en la red, conocer qué piensan los clientes sobre una
marca o un producto, y cuáles son sus necesidades reales sobre la adquisición de productos o
servicios. Se pueden analizar parámetros relativos al perfil específico de cada usuario, sus
preferencias, sus tendencias o su vinculación a la marca, de forma que nos sea posible elaborar
campañas dirigidas de marketing con un nivel alto de personalización.
VENTAJAS DEL BIG DATA

VENTAJAS DEL BIG DATA (continuación)
3.- Mejora en la eficiencia…. y en costes:
El correcto manejo del Big Data puede impulsar rápidamente la velocidad a la que evoluciona
un producto o servicio, debido a que disponemos de multitud de datos con la información que
nos da el mercado. De esta manera los plazos para el desarrollo de un producto o servicio se
acortan en el tiempo, así como los costes asociados al proceso que se derivan del desarrollo del
mismo.
4.- Vinculación de clientes:
Cada día captar nuevos clientes es más complicado, y a su vez, esta adquisición de nuevos
usuarios es más costosa que fidelizar a los que ya tenemos en el fondo de comercio. Es esencial
utilizar correctamente los datos de los que disponemos para dar a nuestros clientes lo que
desean de una forma personalizada, y para ello es fundamental el Big Data. Por lo tanto,
conocer a través de los datos el nivel de satisfacción de nuestros clientes, sus necesidades,
etcétera, es uno de los puntos base para tener a los clientes fidelizados.

VENTAJAS DEL BIG DATA (continuación)
5.- Variables del entorno:
Un punto importante a tener en cuenta en la utilización del Big Data es la agregación de datos del entorno
que afectan al proceso principal. Estas variables no están dirigidas netamente al análisis de un cliente ni a
su comportamiento directo por sus acciones en online, sino que responden al ecosistema que puede
afectar a un cliente en el momento de la decisión de compra. Introducir en la fórmula de análisis datos
provenientes de fuentes externas como pueden ser la meteorología, las estaciones del año, o la zona en la
cual vive el usuario hace que el cálculo aplicado gane puntos de eficiencia, dirigiendo mejor nuestros
productos y servicios no solo a comunidades específicas sino a temporadas concretas.
6.- Feedback y retroalimentación:
Una de las aplicaciones de mayor relevancia en la utilización del Big Data es la posibilidad de analizar los
resultados de las acciones realizadas en tiempo real, lo que permite ver cuáles son los aspectos que más
éxito han podido tener, o corregir rápidamente las posibles desviaciones en las estrategias diseñadas. El
constante análisis del feedback de las acciones realizadas con una tecnología dinámica y veloz permite no
tener costes extra innecesarios a la hora de proseguir con nuestras estrategias de comercialización.
Pocos son los que dudan de que estamos en la era del Big Data, siendo uno de los elementos más
competitivos y que más valor añadido aporta a las empresas en el momento de definición sus estrategias.

Datos estructurados: datos que tienen bien definidos su longitud y su formato, como las
fechas, los números o las cadenas de caracteres. Se almacenan en tablas. Un ejemplo son
las bases de datos relacionales y los almacenes de datos.
Datos no estructurados: datos en el formato tal y como fueron recolectados, carecen de un
formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar
su información a tipos básicos de datos. Algunos ejemplos son los PDF, documentos
multimedia, correos electrónicos o documentos de texto.
Datos semiestructurados: datos que no se limitan a campos determinados, pero que contiene
marcadores para separar los diferentes elementos. Es una información poco regular como para
ser gestionada de una forma estándar. Estos datos poseen sus
propios metadatos semiestructurados que describen los objetos y las relaciones entre ellos, y
pueden acabar siendo aceptados por convención. Como ejemplos tenemos los archivos
tipo hojas de cálculo, HTML, XML o JSON.
TIPOS DE DATOS EN BIG DATA

GENERACIÓN DE DATOS EN BIG DATA

1.- Generados por las propias personas.
El hecho de enviar correos electrónicos o
mensajes por WhatsApp, publicar un estado
en Facebook, publicar relaciones laborales
en Linkedin, tuitear contenidos o responder a
una encuesta por la calle son cosas que
hacemos a diario y que crean nuevos datos
y metadatos que pueden ser analizados. Se
estima que cada minuto al día se envían más
de 200 millones de correos electrónicos, se
comparten más de 700 000 piezas de
contenido en Facebook, se realizan dos
millones de búsquedas en Google o se editan 48 horas de vídeo en YouTube. Por otro lado, las
trazas de utilización en un sistema ERP, incluir registros en una base de datos o introducir
información en una hoja de cálculo son otras formas de generar estos datos.

2.- Obtenidas a partir de transacciones.
La facturación, tarjetas de fidelización,
las llamadas telefónicas, las conexiones
torres de telefonía, los accesos a wifis
públicas, el pago con tarjetas de crédito o
las transacciones entre cuentas bancarias
generan información que tratada puede
ser datos relevantes. Por ejemplo
transacciones bancarias: Lo que el
usuario conoce como un ingreso de X
euros, el sistema lo capturará como una
acción llevada a cabo en una fecha y
momento determinado, en un lugar
concreto, entre unos usuarios
registrados, y con ciertos metadatos.

3.- Mercadotecnia electrónica y web.
Se genera una gran cantidad de datos
cuando se navega por internet. Con
la web 2.0 se ha roto
el paradigma webmaster-contenido-lector y
los mismos usuarios se convierten en
creadores de contenido gracias a su
interacción con el sitio. Existen muchas
herramientas de seguimiento utilizadas en
su mayoría con fines
de mercadotecnia y análisis de negocio. Los
movimientos de ratón quedan grabados
en mapas de calor y queda registro de
cuánto pasamos en cada página y cuándo
las visitamos.

4.- Obtenidos a partir de las interacciones
máquina a máquina (M2M).
Son datos obtenidos a partir de la recogida
de métricas obtenidas desde dispositivos
(medidores, sensores de temperatura, de
luz, de altura, de presión, de sonido…) que
transforman las magnitudes físicas o
químicas y las convierten en datos. Existen
desde hace décadas, pero la llegada de las
comunicaciones inalámbricas
(wifi, Bluetooth, RFID, etc.) ha revolucionado
el mundo de los sensores. Algunos ejemplos son los GPS en la automoción, los sensores de
signos vitales (muy útil para seguros de vida), pulseras en los festivales, monitorizadores del
funcionamiento y conducción de autoḿoviles (se obtiene información muy útil para la
aseguradoras), los smartphone (son sensores de localización).

5.- Datos biométricos recolectados.
En general provienen de servicios
de seguridad, defensa y servicios de
inteligencia. Son cantidades de
datos generados por lectores
biométricos como escáneres de
retina, escáneres de huellas
digitales, o lectores de cadenas
de ADN. El propósito de estos datos
es proporcionar mecanismos de
seguridad y suelen estar
custodiados
por los ministerios de defensa y departamentos de inteligencia. Un ejemplo de aplicación es el
cruce de ADN entre una muestra de un crimen y una muestra en nuestra base de datos.

TRANSFORMACIÓN DE DATOS EN BIG DATA
Una vez encontradas las fuentes de los
datos necesarios, muy posiblemente
dispongamos de un sinfín de tablas de
origen que no estarán relacionadas. El
siguiente objetivo es hacer que los datos
se recojan en un mismo lugar y darles un
formato adecuado.
Aquí entran en juego las
plataformas extraer, transformar y
cargar (ETL). Su propósito es extraer los
datos de las diferentes fuentes y sistemas,
para después hacer transformaciones
(conversiones de datos, limpieza de datos sucios, cambios de formato, etc.) y finalmente cargar
los datos en la base de datos o almacén de datos especificada. Un ejemplo de plataforma ETL
es el Pentaho Data Integration, más concretamente su aplicación Spoon.

ALMACENAMIENTO DE DATOS NoSQL
El término NoSQL se refiere a Not Only SQL (no solo SQL) - SQL (Structured Query Language =
lenguaje de consulta estructurada es un lenguaje de dominio específico utilizado en
programación, diseñado para administrar, y recuperar información de sistemas de gestión de
bases de datos relacionales). y son sistemas de almacenamiento que no cumplen con el
esquema entidad-relación. Proveen un sistema de almacenamiento mucho más flexible y
concurrente y permiten manipular grandes cantidades de información de manera mucho más
rápida que las bases de datos relacionales.
Distinguimos cuatro grandes grupos de bases de datos NoSQL:
1.- Almacenamiento clave-valor (key-value):
Los datos se almacenan de forma similar a los mapas o diccionarios de datos, donde se accede
al dato a partir de una clave única. Los valores (datos) son aislados e independientes entre ellos,
y no son interpretados por el sistema. Pueden ser variables simples como enteros o caracteres,
u objetos. Por otro lado, este sistema de almacenamiento carece de una estructura de datos
clara y establecida, por lo que no requiere un formateo de los datos muy estricto.
Son útiles para operaciones simples basadas en las claves. Un ejemplo es el aumento de
velocidad de carga de un sitio web que puede utilizar diferentes perfiles de usuario, teniendo

ALMACENAMIENTO NoSQL
mapeados los archivos que hay que incluir según el id de usuario y que han sido calculados con
anterioridad. Apache Cassandra es la tecnología de almacenamiento clave-valor más reconocida
por los usuarios.
2.- Almacenamiento documental:
Las bases de datos documentales guardan un gran parecido con las bases de datos Clave-Valor,
diferenciándose en el dato que guardan. Si en el anterior no se requería una estructura de
datos concreta, en este caso guardamos datos semiestructurados. Estos datos pasan a llamarse
documentos, y pueden estar formateados en XML, JSON, Binary JSON o el que acepte la
misma base de datos. Todos los documentos tienen una clave única con la que pueden ser
accedidos e identificados explícitamente, por lo que pueden ser interpretados y lanzar queries
sobre ellos. Un ejemplo que aclare cómo se usa lo encontramos en un blog: se almacena el
autor, la fecha, el título, el resumen y el contenido del post.
CouchDB o MongoDB son quizá las más conocidas. Hay que hacer mención especial
a MapReduce, una tecnología de Google inicialmente diseñada para su algoritmo PageRank, que
permite seleccionar un subconjunto de datos, agruparlos o reducirlos y cargarlos en otra
colección, y a Hadoop que es una tecnología de Apache diseñada para almacenar y procesar
grandes cantidades de datos.

3.- Almacenamiento en grafo:
Las bases de datos en grafo rompen con la idea de tablas y se basan en la teoría de grafos,
donde se establece que la información son los nodos y las relaciones entre la información son
las aristas, algo similar al modelo relacional. Su mayor uso se contempla en casos de relacionar
grandes cantidades de datos que pueden ser muy variables. Por ejemplo, los nodos pueden
contener objetos, variables y atributos diferentes en unos y otros. Las operaciones de join se
sustituyen por recorridos a través del grafo, y se guarda una lista de adyacencias entre los
nodos. Encontramos un ejemplo en las redes sociales: en Facebook cada nodo se considera
un usuario, que puede tener aristas de amistad con otros usuarios, o aristas de publicación
con nodos de contenidos. Soluciones como Neo4J y GraphDB son las más conocidas dentro de
las bases de datos en grafo.
4.- Almacenamiento orientado a columnas:
Este almacenamiento es parecido al documental. Su modelo de datos es definido como «un
mapa de datos multidimensional poco denso, distribuido y persistente». Se orienta a almacenar
datos con tendencia a escalar horizontalmente, por lo que permite guardar
diferentes atributos y objetos bajo una misma clave.

A diferencia del documental y el clave-valor, en este caso se pueden almacenar
varios atributos y objetos, pero no serán interpretables directamente por el sistema. Permite
agrupar columnas en familias y guardar la información cronológicamente, mejorando el
rendimiento. Esta tecnología se acostumbra a usar en casos con 100 o más atributos por clave.
Su precursor es BigTable de Google, pero han aparecido nuevas soluciones como HBase o
HyperTable.

ANÁLISIS DE DATOS
El análisis permite mirar los datos y explicar lo que esta pasando. Teniendo los datos necesarios
almacenados según diferentes tecnologías de almacenamiento, nos daremos cuenta que
necesitaremos diferentes técnicas de análisis de datos como las siguientes:
a.-Asociación: permite encontrar relaciones entre diferentes variables. Bajo la premisa de
causalidad, se pretende encontrar una predicción en el comportamiento de otras variables.
Estas relaciones pueden ser los sistemas de ventas cruzadas en los comercios electrónicos.
b.- Minería de datos (data mining): tiene como objetivo encontrar comportamientos
predictivos. Engloba el conjunto de técnicas que combina métodos estadísticos y de aprendizaje
automático con almacenamiento en bases de datos. Está estrechamente relacionada con
los modelos utilizados para descubrir patrones en grandes cantidades de datos.
c.- Agrupación (clustering): el análisis de clústeres es un tipo de minería de datos que divide
grandes grupos de individuos en grupos más pequeños de los cuales no conocíamos su parecido
antes del análisis. El propósito es encontrar similitudes entre estos grupos, y el descubrimiento
de nuevos, conociendo cuáles son las cualidades que lo definen. Es una metodología apropiada
para encontrar relaciones entre resultados y hacer una evaluación preliminar de la estructura
de los datos analizados. Existen diferentes técnicas y algoritmos de clusterización.

ANÁLISIS DE DATOS
d.- Análisis de texto (text analytics): gran parte de los datos generados por las personas son
textos, como correos, búsquedas web o contenidos. Esta metodología permite extraer
información de estos datos y así modelar temas y asuntos o predecir palabras.

VISUALIZACIÓN DE DATOS
La mente agradece mucho más una
presentación bien estructurada de resultados
estadísticos en gráficos o mapas en vez de en
tablas con números y conclusiones.
Mondrian es una plataforma que permite
visualizar la información a través de los análisis
llevados a cabo sobre los datos que
disponemos. Con esta plataforma se intenta
llegar a un público más concreto, y una
utilidad más acotada como un cuadro de
mando integral de una organización. En los
últimos años se han generalizado otras
plataformas como Tableau, Power BI y Qlik.
Por otro lado, las infografías se han vuelto un fenómeno viral, donde se recogen los resultados
de los diferentes análisis sobre nuestros datos, y son un material atractivo, entretenido y
simplificado para audiencias masivas.

VISUALIZACIÓN DE DATOS

EL CICLO DEL BIG DATA

EL CICLO DE GESTIÓN DE INFORMACIÓN EN 4 FASES
1.-
2.-

EL CICLO DE GESTIÓN DE INFORMACIÓN EN 4 FASES (cont.)
3.-
4.-

HERRAMIENTAS DEL BIG DATA (software)
Existen muchísimas herramientas para el manejo de BIG DATA.
Trataremos las principales herramientas:
1.- MAPREDUCE
2.- HADOOP
3.- APACHE SPARK
4.- APACHE STORM
5.- APACHE HIVE
6.- MONGO DB
7.-PYTHON
8.- CASSANDRA

MapReduce es un framework creado por Google, y pensado para realizar operaciones de forma paralela
sobre grandes colecciones de datos. Este framework está compuesto de dos funciones principales: la
función Map y la función Reduce. De ahí ese nombre tan original. La función Map se encarga, de forma
paralela, de mapear los datos de origen. Para cada dato de origen, se genera una dupla clave-valor, las
cuales son unidas en una lista que se pasa a la función Reduce. Después, la función Reduce, trata cada
elemento de la lista de pares y realiza operaciones sobre ella para devolver un dato concreto.
MAPREDUCE

Hadoop es un sistema de código abierto que se utiliza para almacenar, procesar y analizar grandes
volúmenes de datos. Sus ventajas son muchas:
- Aísla a los desarrolladores de todas las dificultades presentes en la programación paralela.
- Cuenta con un ecosistema que sirve de gran ayuda al usuario, ya que permite distribuir el fichero en
nodos, que no son otra cosa que ordenadores con commodity-hardware.
- Es capaz de ejecutar procesos en paralelo en todo momento.
- Dispone de módulos de control para la monitorización de los datos.
- Presenta una opción que permite realizar consultas.
- También potencia la aparición de distintos add- ons, que facilitan el trabajo, manipulación y seguimiento
de toda la información que en él se almacena.
Esta solución, que posteriormente se denominará Hadoop, se basa en un gran número de pequeños
ordenadores, cada uno de los cuales se encarga de procesar una porción de información. La grandiosidad
del sistema es que, a pesar de que cada uno de ellos funciona de forma independiente y autónoma,
todos actúan en conjunto, como si fueran un solo ordenador de dimensiones increíbles.
HADOOP

Hadoop proporciona un almacenamiento masivo para cualquier tipo de datos, un enorme poder de
procesamiento y la capacidad de manejar tareas o trabajos prácticamente ilimitados.
Hadoop es importante porque tiene:
Capacidad para almacenar y procesar grandes cantidades de cualquier tipo de datos rápidamente. Con
volúmenes y variedad de datos en constante aumento, especialmente de lo que se refiere a medios de
comunicación social y del Internet de las Cosas, esto es una consideración clave.
Poder de procesamiento. El modelo de computación distribuida de Hadoop procesa rápidamente Big Data.
Cuantos más nodos de computación se utilizan, más poder de procesamiento tendrás.
Tolerancia a fallos. Los datos y el procesamiento de aplicaciones están protegidos contra fallos de hardware.
Si un nodo disminuye, los trabajos se redirigen automáticamente a otros nodos para asegurarse de que la
computación distribuida no falla. Se almacenan automáticamente varias copias de todos los datos.
Flexibilidad. A diferencia de las bases de datos relacionales tradicionales, no es necesario preprocesar los
datos antes de almacenarlos. Puedes almacenar tantos datos como desees y decidir cómo utilizarlos más
tarde. Esto incluye datos no estructurados como texto imágenes y vídeo.
Bajo coste. Es de código abierto, gratuito y utiliza hardware básico para almacenar grandes cantidades de
datos.
Escalabilidad. Puedes hacer crecer fácilmente el sistema para manejar más datos simplemente añadiendo
nodos. Se requiere poca administración.
HADOOP (continuación)

APACHE SPARK
Apache Spark fue creado en la Universidad de Berkeley (California) y es considerado el primer software
de código abierto que hace la programación distribuida accesible a los científicos de datos. Al igual que
Hadoop, Spark pertenece a Apache Software Foundation.
Según explica IBM, Apache Spark es una infraestructura de informática de clúster de código abierto con
proceso en memoria para agilizar las aplicaciones de analítica hasta 100 veces más comparado con las
tecnologías actuales del mercado. Apache Spark puede reducir la complejidad de la interacción de los
datos, aumentar la velocidad de proceso y mejorar las aplicaciones de misión crítica con amplia
información útil.
Muchos especialistas en Big Data opinan que Spark es una herramienta más avanzada que Hadoop. De
hecho, en 2014, Spark batió el Récord Mundial al clasificar 100 terabytes de datos en tan solo 23 minutos,
superando así la marca de Hadoop, que se situaba en los 71 minutos. El motor de procesamiento Spark se
ha creado para ofrecer velocidad, facilidad de uso y análisis sofisticados.

APACHE STORM
Apache Storm es un sistema de cálculo de código abierto, distribuido y con tolerancia a errores que
permite procesar datos en tiempo real con Hadoop. Las soluciones de Storm pueden proporcionar
también procesamiento de datos garantizado, con la posibilidad de reproducir los datos que no se han
procesado correctamente la primera vez.
Apache Storm es una herramienta de Big Data open-source que puede ser usada con cualquier lenguaje
de programación. Procesa en tiempo real y de forma sencilla grandes cantidades de datos, el sistema crea
topologías de los macrodatos para transformarlos y analizarlos de forma continua mientras flujos de
información entran al sistema constantemente.
Se puede utilizar en varios lenguajes de programación. Storm está desarrollado en Clojure, un dialecto
de Lisp que se ejecuta en Máquina Virtual Java (JVM, en sus siglas en inglés). Su gran fortaleza es que
ofrece compatibilidad con componentes y aplicaciones escritos en varios lenguajes como Java, C#, Python,
Scala, Perl o PHP.
- Es escalable.
- Tolerante a fallos.
- Fácil de instalar y operar.

Apache Hive es un sistema de almacén de datos para Hadoop, que permite realizar resúmenes de datos,
consultas y análisis de datos mediante HiveQL (una lenguaje de consultas similar a SQL). Hive se puede
usar para explorar los datos de forma interactiva o para crear trabajos de procesamiento por lotes
reutilizables.
Hive permite proyectar la estructura del proyecto en datos que en gran medida no están estructurados.
Después de definir la estructura, puede usar Hive para consultar esos datos sin conocimiento de Java o
MapReduce
Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para
proporcionar agrupación, consulta, y análisis de datos. Inicialmente desarrollado por Facebook, Apache
Hive es ahora utilizada y desarrollado por otras empresas como Netflix y la Financial Industry Regulatory
Authority (FINRA). Amazon mantiene una derivación de software de Apache Hive incluida en Amazon
Elastic MapReduce en sus servicios Amazon Web Services.
APACHE HIVE

MONGO DB
Mongo DB se trata de una base de datos NoSQL optimizada para trabajar con
grupos de datos que que varían con frecuencia, o que son semiestructurados o
inestructurados. Se emplea para almacenar datos de aplicaciones móviles y de
sistemas de gestión de contenidos, entre otros. Es empleada por compañías
como Bosch y Telefónica.
MongoDB nos proporciona las ventajas de una base de datos NoSQL, como la
flexibilidad de la estructura de datos, la escalabilidad y el rendimiento sin
abandonar conceptos que han hecho a las bases de datos relacionales lo que
son hoy en dia, como consistencia de datos y la integración con otras
herramientas de desarrollo.
Por estas características, MongoDB es una herramienta que cae como anillo al
dedo para el desarrollo de aplicaciones como redes sociales, aplicaciones
móviles, CMS, entre otras, que debido a lo antes mencionado, requieren de
una base de datos que ofrezca alto rendimiento y flexibilidad, a la vez que
mantiene consistencia y seguridad en los datos.
MongoDB es una herramienta muy fácil de aprender, bastante útil y
sumamente divertida.

Python cuenta con la ventaja de que sólo hay que tener unos conocimientos mínimos de informática para
poder usarla, lo hace que tenga una gran comunidad de usuarios con la opción de crear sus propias
librerías. El inconveniente de esta herramienta de Big Data es la velocidad, ya que es notablemente más
lenta que sus competidoras.
Python es un lenguaje de programación multiparadigma. Esto significa que más que forzar a los
programadores a adoptar un estilo particular de programación, permite varios estilos: programación
orientada a objetos, programación imperativa y programación funcional. Otros paradigmas están
soportados mediante el uso de extensiones.
Python usa tipado dinámico y conteo de referencias para la administración de memoria.
Una característica importante de Python es la resolución dinámica de nombres; es decir, lo que enlaza un
método y un nombre de variable durante la ejecución del programa (también llamado enlace dinámico de
métodos)
PYTHON

Apache Cassandra es una base de datos NoSQL desarrollada en un principio por Facebook. Es la mejor
opción si lo que necesitas es escalabilidad y alta disponibilidad sin comprometer el rendimiento. Netflix y
Reddit son usuarios de esta herramienta.
Lanzado por Facebook, y con contribuciones recibidas por Google, Apache Cassandra es un sistema de
código abierto proyectado para administrar gran volumen de datos en tiempo real, permitiendo
repuestas inmediatas y soporte antes fallas. En otras palabras, funciona como un banco de datos
distribuidos y es una de las opciones actuales para soluciones NoSQL (no solamente SQL) o para datos no
relacionales.
En cuanto al almacenamiento de datos, Cassandra es esencialmente un híbrido entre valor-llave (dato
tabular) y banco de datos creados en columnas, con distribución de contenido por nombre, valor y
tiempo, pudiendo tener buen balance y distribución de carga.
APACHE CASSANDRA

SEGURIDAD EN BIG DATA
Requisitos de seguridad
A la hora de construir una Big Data, se debe tener en cuenta algunos requisitos de seguridad
como lo es:
1.- El acceso y autorización granular a los datos
La granulación quiere decir que los datos, a los cuales se tendrá acceso y autorización, son de
alto nivel, o sea, al estar ya agrupados, otorgarán una función más precisa y oportuna para el
que los utilizará, que cuando se tienen datos separados. En este punto también va incluido la
gobernabilidad de datos que se debe tener, a saber, gobernabilidad de datos se refiere a que los
datos deben estar autorizados, organizados y con los permisos de usuario necesarios en una
base de datos, con el menor número posible de errores, manteniendo al mismo tiempo la
privacidad y la seguridad. Para tener un efectivo gobierno de datos, deberán existir controles
granulares, que se pueden lograr a través de las expresiones de control de acceso; estas
expresiones usan agrupación y lógica booleana para controlar el acceso y autorización de datos
flexibles, con permisos basados en roles y configuración de visibilidad. Se pueden tener
diferentes niveles de acceso, para dar una seguridad más integrada.

2.- Seguridad perimetral, protección de datos y autenticación integrada.
La seguridad perimetral se define como aquellos elementos y sistemas que permiten proteger
unos perímetros en instalaciones sensibles de ser atacados los sistemas informáticos por
intrusos. Se trata de una primera línea de defensa que reduce muchísimo el riesgo de que se
roben los datos o incluso desaparezcan.
La seguridad perimetral que protege los sistemas debe cumplir cuatro funciones básicas:
a) Resistir a los ataques externos. b) Identificar los ataques sufridos y alertar de ellos. c) Aislar y
segmentar los distintos servicios y sistemas en función de su exposición a ataques. d) Filtrar y
bloquear el tráfico, permitiendo únicamente aquel que sea absolutamente necesario.
Algunas herramientas que se pueden utilizar para la seguridad perimetral son: los Firewalls, pues
definen, mediante una política de acceso, qué tipo de tráfico se permite o se deniega en la red;
los sistemas de detección y prevención de intrusos, que son dispositivos que monitorizan y
generan alarmas cuando hay alertas de seguridad; los Honeypots, que se trata de una trampa
para atraer y analizar ataques de bots y hackers; y los antispam, que filtran el contenido
malicioso que entra a nuestra red. La gobernabilidad no ocurre sin una seguridad en el punto
final de la cadena.

Es importante construir un buen perímetro y colocar un cortafuego alrededor de los datos,
integrados con los sistemas y estándares de autenticación existentes. Cuando se trata de
autenticación, es importante que las empresas se sincronicen con sistemas probados. Con la
autenticación, se trata de ver cómo integrarse con LDAP [Lightweight Directory Access
Protocol], Active Directory y otros servicios de directorio. También se puede dar soporte a
herramientas como Kerberos para soporte de autenticación. Pero lo importante es no crear una
infraestructura separada, sino integrarla en la estructura existente.
3.- Encriptación de Datos
El siguiente paso después de proteger el perímetro y autenticar todo el acceso granular de datos
que se está otorgando, es asegurarse de que los archivos y la información personalmente
identificable estén encriptados de extremo a extremo. Es necesario encriptar esos datos de
forma que, independientemente de quién tenga acceso a él, puedan ejecutar los análisis que
necesiten sin exponer ninguno de esos datos. La encriptación es un procedimiento mediante el
cual los archivos, o cualquier otro tipo de documento, se vuelve completamente ilegibles gracias
a un algoritmo que desordena sus componentes. Así, cualquier persona que no disponga de las
claves correctas no podrá acceder a la información que contiene.

4.- Constante Auditoría y Análisis
La auditoría es un proceso implementado por los auditores de sistemas con el fin de auditar los
accesos a los datos, por lo general, siguiendo bien una metodología basada en una lista que
contempla los puntos que quieren comprobar o mediante la evaluación de riesgos potenciales.
En concreto, se realiza un examen de los accesos a los datos almacenados en las bases de datos
con el fin de poder medir, monitorear y tener constancia de los accesos a la información
almacenada en las mismas. Ese nivel de visibilidad y responsabilidad en cada paso del proceso
es lo que permite “gobernar" los datos en lugar de simplemente establecer políticas y controles
de acceso y esperar lo mejor. También es cómo las empresas pueden mantener sus estrategias
actualizadas en un entorno en el que la forma en que vemos los datos y las tecnologías que
utilizamos para administrarlos y analizarlos están cambiando cada día.
El fin que persigue, de uno u otro modo, es la seguridad corporativa. Una auditoría de base de
datos, por lo tanto, facilita herramientas eficaces para conocer de forma exacta cuál es la
relación de los usuarios a la hora de acceder a las bases de datos, incluyendo las actuaciones
que deriven en una generación, modificación o eliminación de datos.

APLICACIONES DE BIG DATA
El uso de Big Data ha sido utilizado por la industria
de los medios, las empresas y los gobiernos para
dirigirse con mayor precisión a su público y
aumentar la eficiencia de sus mensajes.
El big data ha aumentado la demanda de
especialistas en administración de la información
tanto que Software AG, Oracle
Corporation, IBM, Microsoft, SAP, EMC, HP y Dell h
an gastado más de $ 15 mil millones en firmas de
software especializadas en administración y
análisis de datos.
Si bien muchos proveedores ofrecen soluciones
estándar para big data, los expertos recomiendan
el desarrollo de soluciones internas personalizadas
para resolver el problema de la compañía si la
empresa cuenta con capacidades técnicas
suficientes.

1.- Gobierno
El uso y la adopción de big data dentro de los procesos gubernamentales permite eficiencias en
términos de costo, productividad e innovación, pero no viene sin sus defectos76. El análisis de
datos a menudo requiere que varias partes del gobierno (central y local) trabajen en colaboración
y creen procesos nuevos para lograr el resultado deseado.
Los datos masivos se usan habitualmente para influenciar el proceso democrático. Los
representantes del pueblo pueden ver todo lo que hacen los ciudadanos, y los ciudadanos pueden
dictar la vida pública de los representantes mediante tuits y otros métodos de extender ideas en la
sociedad. Las campañas presidenciales de Obama y Trump los usaron de manera generalizada y
hay expertos que advierten de que hay que «reinventar la democracia representativa. Si no, es
posible que se convierta en una dictadura de la información».
El Banco Interamericano de Desarrollo (BID) ha desarrollado estudios en América Latina en los que
presenta distintos casos del uso de Macrodatos en el diseño e implementación de políticas
públicas. Destacando intervenciones en temas de movilidad urbana, ciudades inteligentes y
seguridad, entre otras temáticas. Las recomendaciones de los mismos han girado en torno a cómo
construir instituciones públicas que logren, mediante el uso de datos masivos, a ser más
transparentes y ayuden a tomar mejores decisiones.

2.- Desarrollo internacional
La investigación sobre el uso efectivo de las tecnologías de información y comunicación para el
desarrollo (también conocido como ICT4D) sugiere que la tecnología de big data puede hacer
contribuciones importantes pero también presentar desafíos únicos para el desarrollo
internacional. Los avances en el análisis de big data ofrecen oportunidades rentables para
mejorar la toma de decisiones en áreas de desarrollo críticas como la atención médica, el
empleo, la productividad económica, la delincuencia, la seguridad y el manejo de recursos y
desastres naturales. Además, los datos generados por el usuario ofrecen nuevas oportunidades
para ofrecer una voz inaudita. Sin embargo, los desafíos de larga data para las regiones en
desarrollo, como la infraestructura tecnológica inadecuada y la escasez de recursos económicos
y humanos exacerban las preocupaciones existentes con los grandes datos, como la privacidad,
la metodología imperfecta y los problemas de interoperabilidad.
3.- Industria
El big data proporciona una infraestructura para la transparencia en la industria manufacturera,
que es la capacidad de desentrañar incertidumbres como el rendimiento y la disponibilidad de
componentes inconsistentes.

La fabricación predictiva como un enfoque aplicable para el tiempo de inactividad y la
transparencia cercanos a cero requiere una gran cantidad de datos y herramientas de
predicción avanzadas para un proceso sistemático de datos en información útil. Un marco
conceptual de fabricación predictiva comienza con la adquisición de datos donde se encuentran
disponibles diferentes tipos de datos sensoriales, tales como acústica, vibración, presión,
corriente, voltaje y datos de controlador. Una gran cantidad de datos sensoriales, además de los
datos históricos, construyen los grandes datos en la fabricación. Los big data generados actúan
como la entrada en herramientas predictivas y estrategias preventivas como Pronósticos y
Gestión de Salud (PHM).
4.- Medios
Los profesionales en medios y publicidad abordan los grandes datos como muchos puntos de
información procesables sobre millones de personas. La industria parece alejarse del enfoque
tradicional de utilizar entornos de medios específicos, como periódicos, revistas o programas de
televisión, y en su lugar aprovecha a los consumidores con tecnologías que llegan a las personas
objetivo en momentos óptimos en ubicaciones óptimas. El objetivo final es servir o transmitir,
un mensaje o contenido que (estadísticamente hablando) esté en línea con la mentalidad del
consumidor.

Por ejemplo, los entornos de publicación adaptan cada vez más los mensajes (anuncios
publicitarios) y el contenido (artículos) para atraer a los consumidores que han sido recolectados
exclusivamente a través de diversas actividades de extracción de datos.
-Orientación de los consumidores (para publicidad de los vendedores)
-Minería de datos
-Periodismo de datos: los editores y los periodistas usan herramientas de Big Data para
proporcionar información e infografías únicas e innovadoras.
5.- Seguros
Los proveedores de seguro médico recopilan datos sobre "determinantes sociales", como el
consumo de alimentos y televisión, el estado civil, el tamaño de la vestimenta y los hábitos de
compra, desde los cuales hacen predicciones sobre los costos de salud para detectar problemas
de salud en sus clientes. Es controvertido si estas predicciones se están utilizando actualmente
para fijar precios.
6.- Deportes
En un ámbito donde se mueve tanto dinero, suelen utilizar las nuevas tecnologías antes que los
usuarios de base.

Nos encontramos por ejemplo que el análisis de los partidos constituye una parte fundamental
en el entrenamiento de los profesionales, y la toma de decisiones de los entrenadores.
Amisco es un sistema aplicado por los más importantes equipos de las
ligas Española, Francesa, Alemana e Inglesa desde el 2001. Consta de 8 cámaras y diversos
ordenadores instalados en los estadios, que registran los movimientos de los jugadores a razón
de 25 registros por segundo, y luego envían los datos a una central donde hacen un análisis
masivo de los datos. La información que se devuelve como resultado incluye una reproducción
del partido en dos dimensiones, los datos técnicos y estadísticas, y un resumen de los datos
físicos de cada jugador, permitiendo seleccionar varias dimensiones y visualizaciones diferentes
de datos.
7.- Finanzas
El crecimiento de datos en el mundo financiero obliga al uso del big data para el procesamiento
rápido de datos, gestión de la omnicanalidad, segmentación avanzada de clientes, creación de
estrategias de precios dinámicos, gestión de riesgos, prevención de fraudes, apoyo en la toma de
decisiones, detectar tendencias de consumo, definir nuevas formas de hacer mejor las cosas,
detectar alertas y otro tipo de eventos complejos, hacer un seguimiento avanzado de la
competencia.

8.- Marketing y ventas
El big data cada vez se utiliza más para segmentación avanzada de los consumidores,
automatizar la personalización de los productos, adaptar las comunicaciones al momento del
ciclo de venta, captar nuevas oportunidades de venta, apoyo en la toma de decisiones a tiempo
real, gestión de crisis.
La aplicación que se le da a Big Data en el área de ventas puede variar un poco según el enfoque
que cada compañía le quiera da, aunque sin duda alguna, en todas las compañías el Big Data
hará que sus aproximaciones sean más precisas y directas y por lo tanto ganar en efectividad y
potencialidad.
Algunas de las tendencias que está generando el Big Data son las de ser más precisos en el
control del gasto en marketing y las de ser más eficientes en ventas.
9.- Investigación
La búsqueda encriptada y la formación de clúster en big data se demostraron en marzo de 2014
en la Sociedad Estadounidense de Educación en Ingeniería. Gautam Siwach participó en abordar
los desafíos de Big Data por el Laboratorio de Ciencias de la Computación e Inteligencia
Artificial del MIT y Amir Esmailpour, en el Grupo de Investigación de UNH, investigó las
características clave de Big Data como la formación de clusters y sus interconexiones.

Se centraron en la seguridad de los macrodatos y la orientación del término hacia la presencia
de diferentes tipos de datos en forma cifrada en la interfaz de la nube al proporcionar las
definiciones sin procesar y los ejemplos de tiempo real dentro de la tecnología. Además,
propusieron un enfoque para identificar la técnica de codificación para avanzar hacia una
búsqueda acelerada sobre texto encriptado que conduzca a las mejoras de seguridad en big
data.
Los grandes conjuntos de datos vienen con desafíos algorítmicos que anteriormente no existían.
Por lo tanto, existe una necesidad de cambiar fundamentalmente las formas de procesamiento.
Los talleres sobre algoritmos para conjuntos de datos masivos modernos (MMDS) reúnen a
científicos informáticos, estadísticos, matemáticos y profesionales del análisis de datos para
analizar los desafíos algorítmicos del big data.
10.- Muestreo de big data
Una pregunta de investigación importante que se puede hacer sobre los conjuntos de datos
grandes es si necesita ver los datos completos para sacar ciertas conclusiones sobre las
propiedades de los datos o si una muestra es lo suficientemente buena. El nombre big data
contiene un término relacionado con el tamaño, y esta es una característica importante de big
data.

Pero el muestreo (estadísticas) permite la selección de puntos de datos correctos dentro del
conjunto de datos más grande para estimar las características de toda la población. Por ejemplo,
hay alrededor de 600 millones de tweets producidos todos los días. ¿Es necesario mirarlos a
todos para determinar los temas que se discuten durante el día? ¿Es necesario mirar todos los
tweets para determinar el sentimiento sobre cada uno de los temas? En la fabricación de
diferentes tipos de datos sensoriales, como acústica, vibración, presión, corriente, voltaje y
datos del controlador están disponibles en intervalos de tiempo cortos. Para predecir el tiempo
de inactividad, puede que no sea necesario examinar todos los datos, pero una muestra puede
ser suficiente. Big data se puede desglosar por varias categorías de puntos de datos, como datos
demográficos, psicográficos, de comportamiento y transaccionales. Se han realizado algunos
trabajos en algoritmos de muestreo para big data. Se ha desarrollado una formulación teórica
para el muestreo de datos de Twitter.
11.- Salud y medicina
La información genética no es la única que ha sufrido una explosión en los últimos años.
También podemos destacar el enorme crecimiento en el uso de wearables, dispositivos digitales
que llevamos encima todo el día.

Estos dispositivos pueden ser usados para tomar medidas sobre datos biométricos de los
pacientes y de esta manera recopilar datos a lo largo del tiempo. La novedad es que esta
información puede ser analizada en tiempo real por los médicos y especialistas, de esta forma se
puede realizar un seguimiento como nunca visto hasta ahora del paciente.
En el 2012, en la Feria de Ciencias de Google, Brittany Wenger, estudiante de 18 años, presentó
el proyecto de diseño de un software para ayudar al diagnóstico temprano del cáncer de mama.
Denominó a la plataforma Cloud4cancer, que utiliza una red de inteligencia artificial y las bases
de datos de los hospitales para diferenciar una muestra de un tejido benigno de una de un
tumor maligno. El sistema inteligente diseñado por Wenger distingue en segundos los dos tipo
de tumores, ingresando a la plataforma las características observadas. Es posible que este
sistema se aplique más adelante a otros padecimientos, como la leucemia.
12.- Defensa y seguridad
Para incrementar la seguridad frente a los ataques de las propias organizaciones, ya sean
empresas en el entorno económico o los propios ministerios de defensa en el entorno
de ciberataques, se contempla la utilidad de las tecnologías de big data en escenarios como la
vigilancia y seguridad de fronteras, lucha contra el terrorismo y crimen organizado, contra el
fraude, planes de seguridad ciudadana o planeamiento táctico de misiones e inteligencia militar.

CASOS PRÁCTICOS DE APLICACIÓN Y ÉXITO EMPRESARIAL
AMAZON.- La compañía de referencia a nivel mundial, en lo que a comercio electrónico
se refiere, basa buena parte de su éxito en conocer de antemano lo que necesitan sus
clientes. Así, es muy probable que si entras en la página de esta empresa, te sugiera
artículos que van a ser de gran interés para ti. ¿Cómo? A través de la inteligencia de datos
analizan muchos factores de carácter individual del usuario como sus hábitos de compra o
intereses y otros más generales como tendencias del momento o pautas de conducta de
otros usuarios que adquirieron productos similares. Juntan todo en la coctelera del Big
Data y ofrecen una serie de productos sugeridos o relacionados con compras que el cliente
ya ha hecho o se ha planteado hacer.
NIKE.- Los dispositivos electrónicos de su línea NikePlus (relojes inteligentes, pulsómetros,
dispositivos con sensores que conectan sus zapatillas con un teléfono…) recogen
cantidades masivas de información de millones de usuarios. Información que sirve a la
empresa de ropa deportiva estadounidense para buscar la fidelización de los usuarios a
través de retos y objetivos que apelan a la capacidad de superación de estos, creando un
vínculo con la marca más allá de la simple venta de material deportivo.

SPOTIFY.- Bajar hasta los datos individualizados más llamativos para lanzar con
ellos una campaña global masiva. Eso hizo en Reino Unido la compañía sueca
Spotify, que ofrece reproducción de música vía streaming. Su plan consistió en
buscar la complicidad del gran público. Y lo consiguieron mostrando curiosidades o
rarezas del comportamiento de algunos de sus usuarios que habían detectado a
través de los macrodatos. Así, en grandes carteles publicitarios, colocaron anuncios
como estos:
«Queridas 3.749 personas que reprodujeron “It’s the end of the world as we know
it” el día del Brexit, estamos con vosotros»
«Querida persona en el Theater District que escuchó la banda sonora de Hamilton
5.376 veces este año, ¿puedes conseguirnos tickets?
«Querida persona que reprodujo “Sorry” 42 veces en el Día de San Valentín, ¿qué
hiciste?»

T-MOBILE.- Esta empresa de telecomunicaciones alemana es un ejemplo de uso
de los datos masivos como mejor arma de retención de clientes. Analizando a
fondo las conversaciones, reclamaciones y descontentos que sus clientes dejaban
en redes sociales, crearon soluciones específicas para cada uno de ellos y
consiguieron reducir la fuga de clientes a otras empresas en un 50%, con lo que el
retorno de la inversión realizada en Big Data fue compensado con creces.
NETFLIX.- Uno de los grandes factores del éxito de la popular empresa
estadounidense Netflix, es su magistral uso de los macrodatos para crear nuevos
contenidos para sus usuarios, cuyos hábitos de consumo y preferencias son
observados al detalle para descubrir qué es lo que van a querer ver a
continuación en base a patrones predictivos. Así crearon, por ejemplo, la serie
House of Cards: observaron que a muchos de sus usuarios les gustaban
contenidos que incluyeran poder, política, drama y sensualidad entre sus
características principales. Y también que les gustaba como actor Kevin Spacey.
Así, dieron con la fórmula y mezclaron en la trama todos estos ingredientes
poniendo a protagonizar a Spacey la misma. Igual proceso para Stranger Things y
otros grandes éxitos de audiencia.

REVISTA ESPAÑOLA: BIG DATA MAGAZINE
https://bigdatamagazine.es/bigdata-magazine-no1-especial-bigdata-en-banca-y-logistica

La naturaleza de la información hoy es diferente a la información en el pasado. Debido a la abundacia
de sensores, micrófonos, cámaras, escáneres médicos, imágenes, etc. en nuestras vidas, los datos
generados a partir de estos elementos serán dentro de poco el segmento más grande de toda la
información disponible. .
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado
años en descubrir por si mismos sin el uso de estas herramientas, debido a la velocidad del análisis, es
posible que el analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y
retrabajar el procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando
de llegar.
La capacidad de recoger datos, comprenderlos, procesarlos, extraer su valor, visualizarlos,
comunicarlos serán todas habilidades importantes en las próximas décadas. Ahora disponemos de
datos gratuitos y omnipresentes. Lo que aún falta es la capacidad de comprender estos datos y
extraer su valor. En un futuro cercano se notará cada vez más la necesidad de un analista de datos,
una nueva figura profesional de la sociedad de la información. Un científico que no sólo tendrá que
ser capaz de “rebuscar” entre los datos, sino que también deberá contar con competencias en varias
disciplinas (derecho, sociología, psicología) y un buenos conocimientos de cultura popular,
habilidades comerciales y creatividad para aplicar BIG DATA.
CONCLUSIONES

WEBGRAFIA
https://www.youtube.com/watch?v=2buYs2GVpGE
https://es.slideshare.net/AldoRamiro/big-data-65019368
https://www.osi.es/es/actualidad/blog/2016/06/14/big-data-como-afecta-los-usuarios
https://www.google.com.pe/search?safe=active&hl=es-
419&biw=1366&bih=657&tbm=isch&sa=1&ei=UwgmXeOcMc_x5gKPz6fQBQ&q=velocidad+en+big+data&oq=velocidad+en+big+data&gs
_l=img.3..0i24.1276310.1283039..1285294...0.0..0.153.1992.0j14......0....1..gws-wiz-
img.......0i8i7i30.PV8fq0rWNRA#imgrc=tJS2yYwzBkeJKM:
https://es.wikipedia.org/wiki/Macrodatos
https://www.bit.es/knowledge-center/que-es-big-data-introduccion-a-big-data/
https://www.eleconomista.es/tecnologia/noticias/5578707/02/14/La-moda-del-Big-Data-En-que-consiste-en-realidad.html
https://www.masterbigdataucm.com/que-es-big-data/
https://www.nextibs.com/principales-herramientas-de-big-data-utilizan-actualidad/
https://www.psafe.com/es/blog/que-es-apache-cassandra/
https://www.icemd.com/digital-knowledge/articulos/las-ventajas-del-big-data/
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html
https://www.deustoformacion.com/blog/gestion-empresas/impacto-big-data-ventas
VISITA:

BIG DATA

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a BIG DATA

Similar a BIG DATA (20)

Más de Enmer Genaro Leandro Ricra

Más de Enmer Genaro Leandro Ricra (20)

Último

Último (20)

BIG DATA