Big Data o
Datos masivos
¿Que es el BigData o Datos masivos?
Datos masivos es un término que hace
referencia a una cantidad de datos tal
que supera la capacidad del software
habitual para ser capturados,
gestionados y procesados en un tiempo
razonable. El volumen de los datos
masivos crece constantemente.
¿De qué se ocupa el BigData o Datos masivos?
La disciplina dedicada a los datos masivos
se enmarca en el sector de las tecnologías
de la información y la comunicación.
Esta disciplina se ocupa de todas las
actividades relacionadas con los sistemas
que manipulan grandes conjuntos de datos.
Las dificultades más habituales vinculadas
a la gestión de estas cantidades de datos
se centran en la captura, el
almacenamiento, búsqueda, compartición,
análisis, y visualización.
Herramientas que hacen uso del BigData
Existen muchísimas herramientas para tratar con Big Data. Nombres como Hadoop,
NoSQL, Cassandra, Business Intelligence, Machine Learning, MapReduce… son sólo
algunos de los más conocidos. Ellos tratan con algunos de los tres tipos de Big Data:
Datos estructurados (Structured Data): Datos que tienen bien
definidos su longitud y su formato. Se almacenan en tablas. Un
ejemplo son las bases de datos relacionales y las hojas de
cálculo.
Datos no estructurados (Unstructured Data): Datos en el
formato tal y como fueron recolectados, carecen de un formato
específico. No se pueden almacenar dentro de una tabla ya que
no se puede desgranar su información a tipos básicos de datos.
Datos semiestructurados (Semistructured Data): Datos que
no se limitan a campos determinados, pero que contiene
marcadores para separar los diferentes elementos.
Los usuarios de negocio y los responsables de las decisiones en materia de
Business Intelligence tienen dudas al respecto, no ven claro el camino a seguir
y, entre sus problemas, plantean cuestiones como:
NUEVOS PROBLEMAS EN LOS ENTORNOS
• ¿Qué ocurre si se necesita incorporar
muchos más indicadores o capacidades de
visualización al cuadro de mando?
• ¿Qué sucede si se necesitan procesar
grandes volúmenes de datos, que crecen
con mucha velocidad, son variados y la
veracidad es un requisito imprescindible?
• ¿Qué ocurre si se necesita almacenar
mucha información estructurada? ¿Y si se
requiere información desestructurada (hasta
ahora ajena al mundo analítico)?
Hadoop es un sistema de código abierto que se utiliza
para almacenar, procesar y analizar grandes
volúmenes de datos; cientos de terabytes, petabytes
o incluso más.
Sistema de
Ficheros
EL HADOOP
Se organiza en función de discos locales aunque, a la hora de trabajar, lo
hace como un gran sistema único de ficheros distribuido que se conectan
a través de múltiples nodos. Uno de ellos, el Node Name, se ocupa de
guardar la información acerca de los metadatos (permitiendo conocer en
qué nodo se almacenan qué datos).
Los datos se reparten por todo el clúster, por lo que, cada nodo del
clúster almacena una porción de información de 64 MB, partes de cada
dato que se denominan bloques.
HDFS asume que un nodo puede fallar y por eso su distribución se basa
en la réplica e los datos, de cada uno de los cuales se crean por defecto
tres copias.
Los nodos pueden hablar entre sí para redistribuir y moverlos de datos si
fuese necesario. Las aplicaciones no se tienen que preocupar de la
ubicación de los datos.
Map Reduce
EL HADOOP
Es el algoritmo creado para procesar los
datos en el clúster. Consta de dos pasos
MAP y REDUCE y se inspira en la
máxima “divide y vencerás”. Para
conocerlo mejor, hay que saber que:
Al estar los datos distribuidos por el clúster (HDFS), a la hora de
efectuar un análisis de la información es preciso aplicar el
algoritmo Map Reduce, que divide el trabajo en tareas.
El primer paso, tarea Map, se encarga de convertir los datos en
Tuplas (clave, valor).
El paso dos,tarea Reduce, se encarga de limitar el número de
Tuplas generadas por Map mediante distintas técnicas, por
ejemplo agregando.
BENEFICIOS DEL ECOSISTEMA HADOOP PARA EL
NEGOCIO
• De una base de datos particionada a un
sistema distribuido de servidores.
Volumen y escalabilidad
• De tener un solo nodo que gestione la carga
a tantos nodos como sean necesarios.
Velocidad
• De varias copias de seguridad en dispositivos
externos, a que sea el mismo sistema el que se
replique de manera automática y transparente.
Replicación, seguridad y
robustez
• Controlar la calidad únicamente en los
procesos de almacenamiento gracias a la
distribución de nodos.
Veracidad
FACTORES PARA RESULTADOS POSITIVOS
Dejarse asesorar por
expertos con
experiencia
contrastada en este
tipo de ecosistemas
Evaluar qué
información, de baja
volumetría, puede
seguir coexistiendo
en un entorno
analítico estándar
Madurez tecnológica
imprescindible
Necesidad de optar por un modelo
puro o híbrido
OPORTUNIDADES DE MEJORA IBM - HADOOP
Permite la integración de empresa, a fin de ofrecer un
análisis a gran escala con flexibilidad y tolerancia a errores
incorporadas.
Está diseñado para obtener el máximo rendimiento y los
niveles más altos, herramientas de desarrollador y
funciones analíticas potentes.
Ofrece características de gestión, seguridad y
fiabilidad, que admiten despliegues a gran escala
que aceleran el tiempo de generación de valor.
Permite mejorar las tareas de manipulación
de datos.
IBM INFOSPHERE BIGINSIGHTS: LA HERRAMIENTA
QUE HACE POSIBLE LA OPTIMIZACIÓN
Se trata de una herramienta de análisis con formato de hoja de cálculo,
por lo que su uso es muy sencillo y la curva de aprendizaje es mínima.
• Inspeccionar el sistema.
• Añadir/ quitar nodos.
• Arrancar/ parar servicios.
• Ejecutar y monitorizar jobs (aplicaciones).
• Explorar el sistema de ficheros.
La consola de IBM BigInsights, además de lanzar y publicar aplicaciones,
permite llevar a cabo una gestión minuciosa el sistema al hacer posible:

Big data

  • 1.
  • 2.
    ¿Que es elBigData o Datos masivos? Datos masivos es un término que hace referencia a una cantidad de datos tal que supera la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. El volumen de los datos masivos crece constantemente.
  • 3.
    ¿De qué seocupa el BigData o Datos masivos? La disciplina dedicada a los datos masivos se enmarca en el sector de las tecnologías de la información y la comunicación. Esta disciplina se ocupa de todas las actividades relacionadas con los sistemas que manipulan grandes conjuntos de datos. Las dificultades más habituales vinculadas a la gestión de estas cantidades de datos se centran en la captura, el almacenamiento, búsqueda, compartición, análisis, y visualización.
  • 4.
    Herramientas que hacenuso del BigData Existen muchísimas herramientas para tratar con Big Data. Nombres como Hadoop, NoSQL, Cassandra, Business Intelligence, Machine Learning, MapReduce… son sólo algunos de los más conocidos. Ellos tratan con algunos de los tres tipos de Big Data: Datos estructurados (Structured Data): Datos que tienen bien definidos su longitud y su formato. Se almacenan en tablas. Un ejemplo son las bases de datos relacionales y las hojas de cálculo. Datos no estructurados (Unstructured Data): Datos en el formato tal y como fueron recolectados, carecen de un formato específico. No se pueden almacenar dentro de una tabla ya que no se puede desgranar su información a tipos básicos de datos. Datos semiestructurados (Semistructured Data): Datos que no se limitan a campos determinados, pero que contiene marcadores para separar los diferentes elementos.
  • 5.
    Los usuarios denegocio y los responsables de las decisiones en materia de Business Intelligence tienen dudas al respecto, no ven claro el camino a seguir y, entre sus problemas, plantean cuestiones como: NUEVOS PROBLEMAS EN LOS ENTORNOS • ¿Qué ocurre si se necesita incorporar muchos más indicadores o capacidades de visualización al cuadro de mando? • ¿Qué sucede si se necesitan procesar grandes volúmenes de datos, que crecen con mucha velocidad, son variados y la veracidad es un requisito imprescindible? • ¿Qué ocurre si se necesita almacenar mucha información estructurada? ¿Y si se requiere información desestructurada (hasta ahora ajena al mundo analítico)?
  • 6.
    Hadoop es unsistema de código abierto que se utiliza para almacenar, procesar y analizar grandes volúmenes de datos; cientos de terabytes, petabytes o incluso más. Sistema de Ficheros EL HADOOP Se organiza en función de discos locales aunque, a la hora de trabajar, lo hace como un gran sistema único de ficheros distribuido que se conectan a través de múltiples nodos. Uno de ellos, el Node Name, se ocupa de guardar la información acerca de los metadatos (permitiendo conocer en qué nodo se almacenan qué datos). Los datos se reparten por todo el clúster, por lo que, cada nodo del clúster almacena una porción de información de 64 MB, partes de cada dato que se denominan bloques. HDFS asume que un nodo puede fallar y por eso su distribución se basa en la réplica e los datos, de cada uno de los cuales se crean por defecto tres copias. Los nodos pueden hablar entre sí para redistribuir y moverlos de datos si fuese necesario. Las aplicaciones no se tienen que preocupar de la ubicación de los datos.
  • 7.
    Map Reduce EL HADOOP Esel algoritmo creado para procesar los datos en el clúster. Consta de dos pasos MAP y REDUCE y se inspira en la máxima “divide y vencerás”. Para conocerlo mejor, hay que saber que: Al estar los datos distribuidos por el clúster (HDFS), a la hora de efectuar un análisis de la información es preciso aplicar el algoritmo Map Reduce, que divide el trabajo en tareas. El primer paso, tarea Map, se encarga de convertir los datos en Tuplas (clave, valor). El paso dos,tarea Reduce, se encarga de limitar el número de Tuplas generadas por Map mediante distintas técnicas, por ejemplo agregando.
  • 8.
    BENEFICIOS DEL ECOSISTEMAHADOOP PARA EL NEGOCIO • De una base de datos particionada a un sistema distribuido de servidores. Volumen y escalabilidad • De tener un solo nodo que gestione la carga a tantos nodos como sean necesarios. Velocidad • De varias copias de seguridad en dispositivos externos, a que sea el mismo sistema el que se replique de manera automática y transparente. Replicación, seguridad y robustez • Controlar la calidad únicamente en los procesos de almacenamiento gracias a la distribución de nodos. Veracidad
  • 9.
    FACTORES PARA RESULTADOSPOSITIVOS Dejarse asesorar por expertos con experiencia contrastada en este tipo de ecosistemas Evaluar qué información, de baja volumetría, puede seguir coexistiendo en un entorno analítico estándar Madurez tecnológica imprescindible Necesidad de optar por un modelo puro o híbrido
  • 10.
    OPORTUNIDADES DE MEJORAIBM - HADOOP Permite la integración de empresa, a fin de ofrecer un análisis a gran escala con flexibilidad y tolerancia a errores incorporadas. Está diseñado para obtener el máximo rendimiento y los niveles más altos, herramientas de desarrollador y funciones analíticas potentes. Ofrece características de gestión, seguridad y fiabilidad, que admiten despliegues a gran escala que aceleran el tiempo de generación de valor. Permite mejorar las tareas de manipulación de datos.
  • 11.
    IBM INFOSPHERE BIGINSIGHTS:LA HERRAMIENTA QUE HACE POSIBLE LA OPTIMIZACIÓN Se trata de una herramienta de análisis con formato de hoja de cálculo, por lo que su uso es muy sencillo y la curva de aprendizaje es mínima. • Inspeccionar el sistema. • Añadir/ quitar nodos. • Arrancar/ parar servicios. • Ejecutar y monitorizar jobs (aplicaciones). • Explorar el sistema de ficheros. La consola de IBM BigInsights, además de lanzar y publicar aplicaciones, permite llevar a cabo una gestión minuciosa el sistema al hacer posible: