Este documento resume los conceptos clave de Big Data, incluyendo su origen, definición, desafíos principales como volumen, velocidad y variedad de datos, y algunos softwares importantes para el análisis de Big Data como Hadoop, Netezza, Vertica y DataFlux. El autor concluye que la información es un activo valioso pero requiere organización y análisis, y que los datos recolectados pueden predecir comportamientos si se analizan adecuadamente.
Fijaciones de balcones prefabricados de hormigón - RECENSE
Big Data Infraestructura
1. BIG DATA
HERMAN VILLAMIL CHAVEZ
CÓDIGO: 80054694
GRUPO: 2 LABORATORIO DE ARQUITECTURA DE COMPUTADORES
NUMERO CELULAR: 3187741871
CORREO ELECTRÓNICO: hervil714@hotmail.com
Resumen
Este informe pretende evidenciar una investigación de uno
de los temas de tecnologías emergentes, como parte del
trabajo final del laboratorio de Arquitectura de
Computadores, este intenta exponer el origen y el concepto
de los grandes datos o Big Data algunas consideraciones
generales y por ultimo algunos software importantes para el
desarrollo del manejo de estos datos,dando por supuestoun
enfoque hacia la arquitectura correspondiente a este tema.
1. Introducción
Big Data es un término que se refiere al almacenamiento de
grandes cantidades de datos, para su posterior
administración, uso y análisis; esto se debe a que en los
últimos veinte años con la aparición de internet y las redes
sociales entre otros y a los muchos dispositivos con el que
accedemos a estos se disparó, desmesuradamente la
producción de datos e información, debido a que cada
persona con acceso a la red en sus diferentes dispositivos
genera una serie de datos que son almacenados en alguna
parte y en algún momento se empezaron a almacenar y
posteriormente, como una necesidad predictiva y de mercado
se empezaron a analizar.
2. Inicio y concepto
Hace algunos años se hablaba de la explosión de la
información y se refería a que con la llegada de la máquina
de escribir y el computador posteriormente, se generaba más
información que la que antes de estos dos inventos de forma
manuscrita, pero esta producción seguiría en ascenso con la
llegada del internet, que además de traer más información,
trago también mas formatos y estructuras documentales.
Pero esta sobre producción de información está
sobrepasando cualquier pronóstico, desde que se tiene
registro y hasta 2003 se había creado 5 Exabytes
(5368708540.17 Gigabytes) de información, esto mismo se
crea en 2 días actualmente y es que hay aproximadamente
2.700 millones de usuarios de internet en el mundo, que cada
minuto realizan 2 millones de búsquedas en Google, suben
72 horas de video en YouTube, envían 204 millones de
correos electrónicos y son otorgados 1.8millones de Like en
Facebook. Afortunadamente para el medio ambiente la
información electrónica domina la análoga, y el 99% de la
información está en formato digital, solo el 0,007% de la
información del planeta se soporta en papel.
NOMBRE EQUIVALENTE
Kilobyte (KB) 1024 bytes
Megabyte (MB) 1024 KB
Gigabyte (GB). 1024 MB
Terabyte (TB 1024 GB
Petabyte (PB) 1024 TB
Exabyte (EB) 1024 PB
Zettabyte (ZB) 1024 EB
Yottabyte (YB) 1024 ZB
Tabla 1. Medidas de almacenamiento de información
Big data es un concepto que nació en el año 1997, a raíz de
un informe de la NASA, donde se afirmaba que el
crecimiento de datos empezaba a ser un problema para los
sistemas de base de datos que se tenían en ese momento, el
termino evidentemente hace relación al crecimiento
desmesurado de la información que se ha venido
produciendo por la interacción del hombre y el internet, a
través de los diversos dispositivos que en este momento son
muy fáciles de adquirir, en diversos formatos y con
diferentes estructuras.
El reto de los sistemas Big Data es poder procesar y
almacenar toda la información posible, administrarla y sacar
provecho de ella, para generar por ejemplo entre otras cosas
predicciones basadas en tendencias de comportamiento; pero
con los sistemas tradicionales esto sería imposible, debido a
que tenemos factores muy importantes a considerar que son
los siguientes:
Volumen: por lo que ya se ha comentado en este
informe el crecimiento de informacion ha sido
desmedido en los últimos años y va en aumento.
Velocidad: este es uno de los retos con lo que no
han podido los sistemas tradicionales, puesto la
velocidad con que se genera datos es hoy en dia de
milisegundos y también la velocidad que se necesita
para procesar toda esta información y generar
resultados.
Variedad: como ya lo dije a medida que fue
aumentado esta producción, también se fueron
2. añadiendo diversos formatos y estructuras, antes
trabajábamos con números y letras, ahora tenemos
videos, música etc.
Veracidad: mucha de la información que se produce
es resultado de la interacción de los usuarios en las
redes sociales, datos que no necesariamente son
ciertos.
Valor: con los anteriores aspectos solo hemos
podido almacenar, gestionar y validar una gran
cantidad de información, pero esto no es suficiente,
con estas infraestructuras tan grandes y
seguramente, se debe poder extraer los datos y
generar valor, corrigiendo por ejemplo la
orientación de un negocio.
Por consiguiente para que algo sea considerado Big Data no
solamente tienen que hacer relación a su traducción literal
“grandes datos ” sino que tendrá que considerar los aspectos
antes señalados o dimensiones; por otra parte el Big Data no
es negocio que genere mucha dinero por si solo, como ya lo
insinué, antes de que estos sistemas sean aprovechados se
debe tener en cuenta una estructura, un objetivo, una fuente,
análisis y un resultado y después de todo esto se empiezan a
generar valor, tampoco es cierto que sea exclusivo de una
tecnología o un software, aunque HADOOP es un
plataforma de software libre muy conocida, hay muchas más
tecnologías como PENTAHO, NETEZZA, VERTICA,
DATAFLUX, GREENPLUM etc.
3. Legalidad
Por lo ya mencionado, se podría pensar que la acción de
procesar la información es tan simple como ya lo
describimos, pero falta un aspecto que debo mencionar y es
el aspecto legalde la manipulación de los datos,en Colombia
existen diversas leyes y decretos que tratan el tema, todos
basados o reglamentando el artículo 20 y 15 de la
constitución política este último el más relevante que dice lo
siguiente: “Todas las personas tienen derecho a su intimidad
personal y familiar y a su buen nombre, y el Estado debe
respetarlos y hacerlos respetar. De igual modo, tienen
derecho a conocer, actualizar y rectificar las informaciones
que se hayan recogido sobre ellas en bancos de datos y en
archivos de entidades públicas y privadas…”.
Lo anterior significa, que la manipulación de datos debe
operar bajos ciertos parámetros que están definidos en las
siguientes normas: Ley 1266 de 2008, Ley 1712 de 2014,
Ley 79 de 1993, Decreto Nacional 1377 de 2013 y tal vez la
más importante y relevante la Ley 1581 de 2012 Por la cual
se dictan disposiciones generales para la protección de datos
personales, esta tiene por objetivo desarrollar los derechos
constitucionales a que se refieren los artículos de la
constitución ya mencionados.
La ley 1581 es una ley estatutaria, lo que significa que está
por encima de las leyes normales u ordinarias, y esto se debe
a que su estudio y aprobación tiene un trámite especial,
porque como este, los temas estudiados tienen que ver
directamente con la Constitución Política, debe aprobarse
por la mayoría del congreso, en una misma legislatura y es
revisada por la Corte constitucional; la mencionada norma
además del objeto ya citado, indica que aplica a todas las
base de datos con algunas contadas excepciones, tiene unas
definiciones, principios, categorías de datos, derechos,
deberes, procedimiento, mecanismos de vigilancia y de
sanción entre otros temas.
4. Infraestructura Analítica
Apache Hadoop es un software abierto que procesa grandes
cantidades de datos en clusters de servidores básicos, está
hecho para hacer extensivo un sistema de servidor único a
miles de máquinas, esta soportado por proyectos como Pig,
Hive y Zookeeper que mejoran sus posibilidades de uso; este
software tiene dos componentes esenciales:
YARN: Asigna memoria y almacenamiento a las
aplicaciones que se ejecutan en un cluster Hadoop.
Permite que otras aplicaciones puedan ejecutarse,
lo cual es un ventaja que permite el uso de muchas
posibilidades.
HDFS (US): Es un sistema de archivos que
comprende todos los nodos de un cluster para
almacenar datos. Enlaza todos los nodos para que
se conviertan un solo gran sistema de archivos.
Netezza es una filial de IBM, que provee dispositivos de
almacenamiento de datos para análisis de alto rendimiento o
análisis de negocio, integrando bases de datos, servidores y
almacenamiento integrado, su principal producto es Twinfin
por supuesto analiza muy rápidamente volúmenes de datos
escalando en petabytes; poseen una arquitectura que se
denomina AMPP de dos niveles que maneja consultas de
varios clientes, el primer nivel compila las consultas y genera
un plan de resolución, divide las subtareas y las distribuye al
segundo nivel quien tiene cientos de hojas que procesan
fragmentos de consultas o S-Blades. AMPP proporciona
tiempos de carga de más de 2tb/hora y de copia de seguridad
/ restauración de las tasas de datos de más de 4tb/hora.
3. Vertica Analytics Platform fue hecho para manejar datos de
crecimiento rápido y proporcionar consultas en menos
tiempo que lo tradicional, la organización de
almacenamiento es orientada a columnas que aumenta el
rendimiento de acceso secuencial, tiene organización de
almacenamiento hibrido que aumenta el rendimiento de
consultas, inserciones y cargas, reduce los costos de
almacenamiento y ancho de banda con un sistema de
compresión.
DataFlux es un producto de la empresa que tiene el mismo
nombre que proporciona la capacidad de gestionar grandes
cantidades de datos,con un especialenfoque en la calidad de
los datos, tiene un algoritmo de análisis sintáctico que
normaliza y analiza la estructura de los nombres, también
maneja unos códigos de coincidencia que nos muestra los
registros que pueden ser copia de otros.
Greenplum Database es un almacén de datos de código
abierto avanzado y completo. Proporciona un análisis rápido
y potente de datos a escala petabyte, funciona con un
optimizador de consultas de un alto rendimiento de análisis,
la arquitectura proporciona paralelizacion automática de
todos los datos y consultas, utiliza la tecnología MPP para la
carga de alto rendimiento con una velocidades en cada nodo
adicional de más de 19 terabytes por hora, por bastidor, el
optimizador de consultas escala el análisis interactivo y de
modo por lotes a conjunto de datos en petabytes sin degradar
el rendimiento de la consulta.
5. Conclusiones
La información es un activo muy importante para
cualquier organización, pero se debe organizar,
almacenar y analizar.
El manejo de grandes cantidades de datos es una
tarea ardua y que muy pocos conocen.
Los datos recolectados de diferentes programas,
pueden predecir comportamientos si se analizan
adecuadamente.
Referencias
[1] BigData, Recuperado de:
https://www.youtube.com/watch?v=mqMFMgVnRO8&feat
ure=youtu.be
[2] ¿Qué es Big Data?, Recuperado de:
https://www.youtube.com/watch?v=3AjaLBt6uUU
[3] Qué es Big Data, Recuperado de:
https://www.youtube.com/watch?v=WgAakVRAAwM
[4] Documanía 2.0 , ¿Cuánta Información se Genera y
Almacena en el Mundo? , Recuperado de:
https://documania20.wordprIss.com/2013/09/16/cuant
a-informacion-se-genera-y-almacena-en-el-mundo/
[5] Winshuttle, Big Data y la historia del almacenamiento
de la información, Recuperado de:
http://www.winshuttle.es/big-data-historia-
cronologica/
[6] ¿Qué es Hadoop?, Recuperado de: https://www-
01.ibm.com/software/cl/data/infosphere/hadoop/que-es.html
[7] Netezza, Recuperado de:
https://translate.google.com.co/translate?hl=es&sl=en&u=ht
tps://en.wikipedia.org/wiki/Netezza&prev=search
[8] Greenplum Database, Recuperado de: http://greenplum.org/
[9] Netezza – el poder de la simplicidad, Recuperado de:
https://www-01.ibm.com/software/co/data/netezza/
[10] Vertica, Recuperado de:
https://translate.google.com.co/translate?hl=es&sl=en&u=ht
tps://en.wikipedia.org/wiki/Vertica&prev=search
[11] V. fehlberg, ¿Qué es DataFlux?, Recuperado
de:https://fehlberg.wordpress.com/2008/01/12/what-is-
dataflux/