Big data

¿Que es el BigData o Datos masivos?
Datos masivos es un término que hace
referencia a una cantidad de datos tal
que supera la capacidad del software
habitual para ser capturados,
gestionados y procesados en un tiempo
razonable. El volumen de los datos
masivos crece constantemente.

¿De qué se ocupa el BigData o Datos masivos?
La disciplina dedicada a los datos masivos
se enmarca en el sector de las tecnologías
de la información y la comunicación.
Esta disciplina se ocupa de todas las
actividades relacionadas con los sistemas
que manipulan grandes conjuntos de datos.
Las dificultades más habituales vinculadas
a la gestión de estas cantidades de datos
se centran en la captura, el
almacenamiento, búsqueda, compartición,
análisis, y visualización.

Herramientas que hacen uso del BigData
Existen muchísimas herramientas para tratar con Big Data. Nombres como Hadoop,
NoSQL, Cassandra, Business Intelligence, Machine Learning, MapReduce… son sólo
algunos de los más conocidos. Ellos tratan con algunos de los tres tipos de Big Data:
Datos estructurados (Structured Data): Datos que tienen bien
definidos su longitud y su formato. Se almacenan en tablas. Un
ejemplo son las bases de datos relacionales y las hojas de
cálculo.
Datos no estructurados (Unstructured Data): Datos en el
formato tal y como fueron recolectados, carecen de un formato
específico. No se pueden almacenar dentro de una tabla ya que
no se puede desgranar su información a tipos básicos de datos.
Datos semiestructurados (Semistructured Data): Datos que
no se limitan a campos determinados, pero que contiene
marcadores para separar los diferentes elementos.

Los usuarios de negocio y los responsables de las decisiones en materia de
Business Intelligence tienen dudas al respecto, no ven claro el camino a seguir
y, entre sus problemas, plantean cuestiones como:
NUEVOS PROBLEMAS EN LOS ENTORNOS
• ¿Qué ocurre si se necesita incorporar
muchos más indicadores o capacidades de
visualización al cuadro de mando?
• ¿Qué sucede si se necesitan procesar
grandes volúmenes de datos, que crecen
con mucha velocidad, son variados y la
veracidad es un requisito imprescindible?
• ¿Qué ocurre si se necesita almacenar
mucha información estructurada? ¿Y si se
requiere información desestructurada (hasta
ahora ajena al mundo analítico)?

Hadoop es un sistema de código abierto que se utiliza
para almacenar, procesar y analizar grandes
volúmenes de datos; cientos de terabytes, petabytes
o incluso más.
Sistema de
Ficheros
EL HADOOP
Se organiza en función de discos locales aunque, a la hora de trabajar, lo
hace como un gran sistema único de ficheros distribuido que se conectan
a través de múltiples nodos. Uno de ellos, el Node Name, se ocupa de
guardar la información acerca de los metadatos (permitiendo conocer en
qué nodo se almacenan qué datos).
Los datos se reparten por todo el clúster, por lo que, cada nodo del
clúster almacena una porción de información de 64 MB, partes de cada
dato que se denominan bloques.
HDFS asume que un nodo puede fallar y por eso su distribución se basa
en la réplica e los datos, de cada uno de los cuales se crean por defecto
tres copias.
Los nodos pueden hablar entre sí para redistribuir y moverlos de datos si
fuese necesario. Las aplicaciones no se tienen que preocupar de la
ubicación de los datos.

Map Reduce
EL HADOOP
Es el algoritmo creado para procesar los
datos en el clúster. Consta de dos pasos
MAP y REDUCE y se inspira en la
máxima “divide y vencerás”. Para
conocerlo mejor, hay que saber que:
Al estar los datos distribuidos por el clúster (HDFS), a la hora de
efectuar un análisis de la información es preciso aplicar el
algoritmo Map Reduce, que divide el trabajo en tareas.
El primer paso, tarea Map, se encarga de convertir los datos en
Tuplas (clave, valor).
El paso dos,tarea Reduce, se encarga de limitar el número de
Tuplas generadas por Map mediante distintas técnicas, por
ejemplo agregando.

BENEFICIOS DEL ECOSISTEMA HADOOP PARA EL
NEGOCIO
• De una base de datos particionada a un
sistema distribuido de servidores.
Volumen y escalabilidad
• De tener un solo nodo que gestione la carga
a tantos nodos como sean necesarios.
Velocidad
• De varias copias de seguridad en dispositivos
externos, a que sea el mismo sistema el que se
replique de manera automática y transparente.
Replicación, seguridad y
robustez
• Controlar la calidad únicamente en los
procesos de almacenamiento gracias a la
distribución de nodos.
Veracidad

FACTORES PARA RESULTADOS POSITIVOS
Dejarse asesorar por
expertos con
experiencia
contrastada en este
tipo de ecosistemas
Evaluar qué
información, de baja
volumetría, puede
seguir coexistiendo
en un entorno
analítico estándar
Madurez tecnológica
imprescindible
Necesidad de optar por un modelo
puro o híbrido

OPORTUNIDADES DE MEJORA IBM - HADOOP
Permite la integración de empresa, a fin de ofrecer un
análisis a gran escala con flexibilidad y tolerancia a errores
incorporadas.
Está diseñado para obtener el máximo rendimiento y los
niveles más altos, herramientas de desarrollador y
funciones analíticas potentes.
Ofrece características de gestión, seguridad y
fiabilidad, que admiten despliegues a gran escala
que aceleran el tiempo de generación de valor.
Permite mejorar las tareas de manipulación
de datos.

IBM INFOSPHERE BIGINSIGHTS: LA HERRAMIENTA
QUE HACE POSIBLE LA OPTIMIZACIÓN
Se trata de una herramienta de análisis con formato de hoja de cálculo,
por lo que su uso es muy sencillo y la curva de aprendizaje es mínima.
• Inspeccionar el sistema.
• Añadir/ quitar nodos.
• Arrancar/ parar servicios.
• Ejecutar y monitorizar jobs (aplicaciones).
• Explorar el sistema de ficheros.
La consola de IBM BigInsights, además de lanzar y publicar aplicaciones,
permite llevar a cabo una gestión minuciosa el sistema al hacer posible:

Big data

Más contenido relacionado

La actualidad más candente

Destacado

Similar a Big data

Más de Manuel Fritz

Big data