SlideShare una empresa de Scribd logo
1 de 3
BIG DATA
HERMAN VILLAMIL CHAVEZ
CÓDIGO: 80054694
GRUPO: 2 LABORATORIO DE ARQUITECTURA DE COMPUTADORES
NUMERO CELULAR: 3187741871
CORREO ELECTRÓNICO: hervil714@hotmail.com
Resumen
Este informe pretende evidenciar una investigación de uno
de los temas de tecnologías emergentes, como parte del
trabajo final del laboratorio de Arquitectura de
Computadores, este intenta exponer el origen y el concepto
de los grandes datos o Big Data algunas consideraciones
generales y por ultimo algunos software importantes para el
desarrollo del manejo de estos datos,dando por supuestoun
enfoque hacia la arquitectura correspondiente a este tema.
1. Introducción
Big Data es un término que se refiere al almacenamiento de
grandes cantidades de datos, para su posterior
administración, uso y análisis; esto se debe a que en los
últimos veinte años con la aparición de internet y las redes
sociales entre otros y a los muchos dispositivos con el que
accedemos a estos se disparó, desmesuradamente la
producción de datos e información, debido a que cada
persona con acceso a la red en sus diferentes dispositivos
genera una serie de datos que son almacenados en alguna
parte y en algún momento se empezaron a almacenar y
posteriormente, como una necesidad predictiva y de mercado
se empezaron a analizar.
2. Inicio y concepto
Hace algunos años se hablaba de la explosión de la
información y se refería a que con la llegada de la máquina
de escribir y el computador posteriormente, se generaba más
información que la que antes de estos dos inventos de forma
manuscrita, pero esta producción seguiría en ascenso con la
llegada del internet, que además de traer más información,
trago también mas formatos y estructuras documentales.
Pero esta sobre producción de información está
sobrepasando cualquier pronóstico, desde que se tiene
registro y hasta 2003 se había creado 5 Exabytes
(5368708540.17 Gigabytes) de información, esto mismo se
crea en 2 días actualmente y es que hay aproximadamente
2.700 millones de usuarios de internet en el mundo, que cada
minuto realizan 2 millones de búsquedas en Google, suben
72 horas de video en YouTube, envían 204 millones de
correos electrónicos y son otorgados 1.8millones de Like en
Facebook. Afortunadamente para el medio ambiente la
información electrónica domina la análoga, y el 99% de la
información está en formato digital, solo el 0,007% de la
información del planeta se soporta en papel.
NOMBRE EQUIVALENTE
Kilobyte (KB) 1024 bytes
Megabyte (MB) 1024 KB
Gigabyte (GB). 1024 MB
Terabyte (TB 1024 GB
Petabyte (PB) 1024 TB
Exabyte (EB) 1024 PB
Zettabyte (ZB) 1024 EB
Yottabyte (YB) 1024 ZB
Tabla 1. Medidas de almacenamiento de información
Big data es un concepto que nació en el año 1997, a raíz de
un informe de la NASA, donde se afirmaba que el
crecimiento de datos empezaba a ser un problema para los
sistemas de base de datos que se tenían en ese momento, el
termino evidentemente hace relación al crecimiento
desmesurado de la información que se ha venido
produciendo por la interacción del hombre y el internet, a
través de los diversos dispositivos que en este momento son
muy fáciles de adquirir, en diversos formatos y con
diferentes estructuras.
El reto de los sistemas Big Data es poder procesar y
almacenar toda la información posible, administrarla y sacar
provecho de ella, para generar por ejemplo entre otras cosas
predicciones basadas en tendencias de comportamiento; pero
con los sistemas tradicionales esto sería imposible, debido a
que tenemos factores muy importantes a considerar que son
los siguientes:
 Volumen: por lo que ya se ha comentado en este
informe el crecimiento de informacion ha sido
desmedido en los últimos años y va en aumento.
 Velocidad: este es uno de los retos con lo que no
han podido los sistemas tradicionales, puesto la
velocidad con que se genera datos es hoy en dia de
milisegundos y también la velocidad que se necesita
para procesar toda esta información y generar
resultados.
 Variedad: como ya lo dije a medida que fue
aumentado esta producción, también se fueron
añadiendo diversos formatos y estructuras, antes
trabajábamos con números y letras, ahora tenemos
videos, música etc.
 Veracidad: mucha de la información que se produce
es resultado de la interacción de los usuarios en las
redes sociales, datos que no necesariamente son
ciertos.
 Valor: con los anteriores aspectos solo hemos
podido almacenar, gestionar y validar una gran
cantidad de información, pero esto no es suficiente,
con estas infraestructuras tan grandes y
seguramente, se debe poder extraer los datos y
generar valor, corrigiendo por ejemplo la
orientación de un negocio.
Por consiguiente para que algo sea considerado Big Data no
solamente tienen que hacer relación a su traducción literal
“grandes datos ” sino que tendrá que considerar los aspectos
antes señalados o dimensiones; por otra parte el Big Data no
es negocio que genere mucha dinero por si solo, como ya lo
insinué, antes de que estos sistemas sean aprovechados se
debe tener en cuenta una estructura, un objetivo, una fuente,
análisis y un resultado y después de todo esto se empiezan a
generar valor, tampoco es cierto que sea exclusivo de una
tecnología o un software, aunque HADOOP es un
plataforma de software libre muy conocida, hay muchas más
tecnologías como PENTAHO, NETEZZA, VERTICA,
DATAFLUX, GREENPLUM etc.
3. Legalidad
Por lo ya mencionado, se podría pensar que la acción de
procesar la información es tan simple como ya lo
describimos, pero falta un aspecto que debo mencionar y es
el aspecto legalde la manipulación de los datos,en Colombia
existen diversas leyes y decretos que tratan el tema, todos
basados o reglamentando el artículo 20 y 15 de la
constitución política este último el más relevante que dice lo
siguiente: “Todas las personas tienen derecho a su intimidad
personal y familiar y a su buen nombre, y el Estado debe
respetarlos y hacerlos respetar. De igual modo, tienen
derecho a conocer, actualizar y rectificar las informaciones
que se hayan recogido sobre ellas en bancos de datos y en
archivos de entidades públicas y privadas…”.
Lo anterior significa, que la manipulación de datos debe
operar bajos ciertos parámetros que están definidos en las
siguientes normas: Ley 1266 de 2008, Ley 1712 de 2014,
Ley 79 de 1993, Decreto Nacional 1377 de 2013 y tal vez la
más importante y relevante la Ley 1581 de 2012 Por la cual
se dictan disposiciones generales para la protección de datos
personales, esta tiene por objetivo desarrollar los derechos
constitucionales a que se refieren los artículos de la
constitución ya mencionados.
La ley 1581 es una ley estatutaria, lo que significa que está
por encima de las leyes normales u ordinarias, y esto se debe
a que su estudio y aprobación tiene un trámite especial,
porque como este, los temas estudiados tienen que ver
directamente con la Constitución Política, debe aprobarse
por la mayoría del congreso, en una misma legislatura y es
revisada por la Corte constitucional; la mencionada norma
además del objeto ya citado, indica que aplica a todas las
base de datos con algunas contadas excepciones, tiene unas
definiciones, principios, categorías de datos, derechos,
deberes, procedimiento, mecanismos de vigilancia y de
sanción entre otros temas.
4. Infraestructura Analítica
Apache Hadoop es un software abierto que procesa grandes
cantidades de datos en clusters de servidores básicos, está
hecho para hacer extensivo un sistema de servidor único a
miles de máquinas, esta soportado por proyectos como Pig,
Hive y Zookeeper que mejoran sus posibilidades de uso; este
software tiene dos componentes esenciales:
 YARN: Asigna memoria y almacenamiento a las
aplicaciones que se ejecutan en un cluster Hadoop.
Permite que otras aplicaciones puedan ejecutarse,
lo cual es un ventaja que permite el uso de muchas
posibilidades.
 HDFS (US): Es un sistema de archivos que
comprende todos los nodos de un cluster para
almacenar datos. Enlaza todos los nodos para que
se conviertan un solo gran sistema de archivos.
Netezza es una filial de IBM, que provee dispositivos de
almacenamiento de datos para análisis de alto rendimiento o
análisis de negocio, integrando bases de datos, servidores y
almacenamiento integrado, su principal producto es Twinfin
por supuesto analiza muy rápidamente volúmenes de datos
escalando en petabytes; poseen una arquitectura que se
denomina AMPP de dos niveles que maneja consultas de
varios clientes, el primer nivel compila las consultas y genera
un plan de resolución, divide las subtareas y las distribuye al
segundo nivel quien tiene cientos de hojas que procesan
fragmentos de consultas o S-Blades. AMPP proporciona
tiempos de carga de más de 2tb/hora y de copia de seguridad
/ restauración de las tasas de datos de más de 4tb/hora.
Vertica Analytics Platform fue hecho para manejar datos de
crecimiento rápido y proporcionar consultas en menos
tiempo que lo tradicional, la organización de
almacenamiento es orientada a columnas que aumenta el
rendimiento de acceso secuencial, tiene organización de
almacenamiento hibrido que aumenta el rendimiento de
consultas, inserciones y cargas, reduce los costos de
almacenamiento y ancho de banda con un sistema de
compresión.
DataFlux es un producto de la empresa que tiene el mismo
nombre que proporciona la capacidad de gestionar grandes
cantidades de datos,con un especialenfoque en la calidad de
los datos, tiene un algoritmo de análisis sintáctico que
normaliza y analiza la estructura de los nombres, también
maneja unos códigos de coincidencia que nos muestra los
registros que pueden ser copia de otros.
Greenplum Database es un almacén de datos de código
abierto avanzado y completo. Proporciona un análisis rápido
y potente de datos a escala petabyte, funciona con un
optimizador de consultas de un alto rendimiento de análisis,
la arquitectura proporciona paralelizacion automática de
todos los datos y consultas, utiliza la tecnología MPP para la
carga de alto rendimiento con una velocidades en cada nodo
adicional de más de 19 terabytes por hora, por bastidor, el
optimizador de consultas escala el análisis interactivo y de
modo por lotes a conjunto de datos en petabytes sin degradar
el rendimiento de la consulta.
5. Conclusiones
 La información es un activo muy importante para
cualquier organización, pero se debe organizar,
almacenar y analizar.
 El manejo de grandes cantidades de datos es una
tarea ardua y que muy pocos conocen.
 Los datos recolectados de diferentes programas,
pueden predecir comportamientos si se analizan
adecuadamente.
Referencias
[1] BigData, Recuperado de:
https://www.youtube.com/watch?v=mqMFMgVnRO8&feat
ure=youtu.be
[2] ¿Qué es Big Data?, Recuperado de:
https://www.youtube.com/watch?v=3AjaLBt6uUU
[3] Qué es Big Data, Recuperado de:
https://www.youtube.com/watch?v=WgAakVRAAwM
[4] Documanía 2.0 , ¿Cuánta Información se Genera y
Almacena en el Mundo? , Recuperado de:
https://documania20.wordprIss.com/2013/09/16/cuant
a-informacion-se-genera-y-almacena-en-el-mundo/
[5] Winshuttle, Big Data y la historia del almacenamiento
de la información, Recuperado de:
http://www.winshuttle.es/big-data-historia-
cronologica/
[6] ¿Qué es Hadoop?, Recuperado de: https://www-
01.ibm.com/software/cl/data/infosphere/hadoop/que-es.html
[7] Netezza, Recuperado de:
https://translate.google.com.co/translate?hl=es&sl=en&u=ht
tps://en.wikipedia.org/wiki/Netezza&prev=search
[8] Greenplum Database, Recuperado de: http://greenplum.org/
[9] Netezza – el poder de la simplicidad, Recuperado de:
https://www-01.ibm.com/software/co/data/netezza/
[10] Vertica, Recuperado de:
https://translate.google.com.co/translate?hl=es&sl=en&u=ht
tps://en.wikipedia.org/wiki/Vertica&prev=search
[11] V. fehlberg, ¿Qué es DataFlux?, Recuperado
de:https://fehlberg.wordpress.com/2008/01/12/what-is-
dataflux/

Más contenido relacionado

La actualidad más candente

LuisTAREA DE BIG DATA, COULD COMPUTING Y MINING DATA.
LuisTAREA DE BIG DATA, COULD COMPUTING Y MINING DATA.LuisTAREA DE BIG DATA, COULD COMPUTING Y MINING DATA.
LuisTAREA DE BIG DATA, COULD COMPUTING Y MINING DATA.Luiseduardo123
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Formulacion de proyectos
Formulacion de proyectosFormulacion de proyectos
Formulacion de proyectosAngeLik MorEno
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Peter Kroll
 
Explicaci[1]..
Explicaci[1]..Explicaci[1]..
Explicaci[1]..blaze0002
 
Ensayo sobre bases de datos
Ensayo sobre bases de datos  Ensayo sobre bases de datos
Ensayo sobre bases de datos liliananaa
 
Big Data en la Gestión de Registros de Auditoría
 Big Data en la Gestión de Registros de Auditoría Big Data en la Gestión de Registros de Auditoría
Big Data en la Gestión de Registros de AuditoríaRicardo Cañizares Sales
 
Datos en la era de la información
Datos en la era de la informaciónDatos en la era de la información
Datos en la era de la informaciónCarolina Guerrero
 
SEGUNDA ENTREGA FORMULACION DE PROYECTOS
 SEGUNDA ENTREGA FORMULACION DE PROYECTOS  SEGUNDA ENTREGA FORMULACION DE PROYECTOS
SEGUNDA ENTREGA FORMULACION DE PROYECTOS AngeLik MorEno
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantesCarlos Toxtli
 
Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Fernando Santamaría
 
Guia base de datos
Guia base de datosGuia base de datos
Guia base de datoswuali gomez
 
Presentacion clase 1 bases de datos
Presentacion clase 1 bases de datosPresentacion clase 1 bases de datos
Presentacion clase 1 bases de datosalberromero
 

La actualidad más candente (20)

LuisTAREA DE BIG DATA, COULD COMPUTING Y MINING DATA.
LuisTAREA DE BIG DATA, COULD COMPUTING Y MINING DATA.LuisTAREA DE BIG DATA, COULD COMPUTING Y MINING DATA.
LuisTAREA DE BIG DATA, COULD COMPUTING Y MINING DATA.
 
Proyecto
ProyectoProyecto
Proyecto
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Formulacion de proyectos
Formulacion de proyectosFormulacion de proyectos
Formulacion de proyectos
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015
 
Explicaci[1]..
Explicaci[1]..Explicaci[1]..
Explicaci[1]..
 
Data
DataData
Data
 
Ensayo sobre bases de datos
Ensayo sobre bases de datos  Ensayo sobre bases de datos
Ensayo sobre bases de datos
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
Big Data en la Gestión de Registros de Auditoría
 Big Data en la Gestión de Registros de Auditoría Big Data en la Gestión de Registros de Auditoría
Big Data en la Gestión de Registros de Auditoría
 
Datos en la era de la información
Datos en la era de la informaciónDatos en la era de la información
Datos en la era de la información
 
base de datos
base de datosbase de datos
base de datos
 
SEGUNDA ENTREGA FORMULACION DE PROYECTOS
 SEGUNDA ENTREGA FORMULACION DE PROYECTOS  SEGUNDA ENTREGA FORMULACION DE PROYECTOS
SEGUNDA ENTREGA FORMULACION DE PROYECTOS
 
Caso - La Oficina Nacional de Estadística
Caso - La Oficina Nacional de EstadísticaCaso - La Oficina Nacional de Estadística
Caso - La Oficina Nacional de Estadística
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Big Data
Big DataBig Data
Big Data
 
Guia base de datos
Guia base de datosGuia base de datos
Guia base de datos
 
Presentacion clase 1 bases de datos
Presentacion clase 1 bases de datosPresentacion clase 1 bases de datos
Presentacion clase 1 bases de datos
 

Destacado

Salvage Project
Salvage ProjectSalvage Project
Salvage ProjectMark Leard
 
การเคลื่อนที่ของสัตว์ไม่มีกระดูกสันหลัง
การเคลื่อนที่ของสัตว์ไม่มีกระดูกสันหลังการเคลื่อนที่ของสัตว์ไม่มีกระดูกสันหลัง
การเคลื่อนที่ของสัตว์ไม่มีกระดูกสันหลังสุรินทร์ ดีแก้วเกษ
 
Save wolrdsaveenergy com58projectf
Save wolrdsaveenergy   com58projectfSave wolrdsaveenergy   com58projectf
Save wolrdsaveenergy com58projectfparwaritfast
 
New mothers' information experience in social media: a grounded theory study ...
New mothers' information experience in social media: a grounded theory study ...New mothers' information experience in social media: a grounded theory study ...
New mothers' information experience in social media: a grounded theory study ...Kate Davis
 
อ.วนิดา บทที่-7-ตำราสารสนเทศท้องถิ่น-20-july-57
อ.วนิดา บทที่-7-ตำราสารสนเทศท้องถิ่น-20-july-57อ.วนิดา บทที่-7-ตำราสารสนเทศท้องถิ่น-20-july-57
อ.วนิดา บทที่-7-ตำราสารสนเทศท้องถิ่น-20-july-57นางสาวอัมพร แสงมณี
 
ต่อมไร้ท่อ
ต่อมไร้ท่อต่อมไร้ท่อ
ต่อมไร้ท่อsukanya petin
 
เทคนิคการสอนแบบอุปนัย
เทคนิคการสอนแบบอุปนัยเทคนิคการสอนแบบอุปนัย
เทคนิคการสอนแบบอุปนัยFern's Phatchariwan
 
Photosynthetic reaction
Photosynthetic reactionPhotosynthetic reaction
Photosynthetic reactionsukanya petin
 
கதை எழுத எளிய தொடக்கம்
கதை எழுத எளிய தொடக்கம்கதை எழுத எளிய தொடக்கம்
கதை எழுத எளிய தொடக்கம்logaraja
 
கட்டுரைக் கருத்து திரட்டேடு
கட்டுரைக் கருத்து திரட்டேடுகட்டுரைக் கருத்து திரட்டேடு
கட்டுரைக் கருத்து திரட்டேடுlogaraja
 
การเคลื่อนที่ของสัตว์เซลล์เดียว
การเคลื่อนที่ของสัตว์เซลล์เดียวการเคลื่อนที่ของสัตว์เซลล์เดียว
การเคลื่อนที่ของสัตว์เซลล์เดียวWan Ngamwongwan
 

Destacado (20)

Websites for Researching Birds and Habitat
Websites for Researching Birds and HabitatWebsites for Researching Birds and Habitat
Websites for Researching Birds and Habitat
 
Bitacora semana 7
Bitacora semana 7Bitacora semana 7
Bitacora semana 7
 
Finanças
FinançasFinanças
Finanças
 
Resolución 079 2015
Resolución 079 2015Resolución 079 2015
Resolución 079 2015
 
Titulin
TitulinTitulin
Titulin
 
D Tutt Resume1
D Tutt Resume1D Tutt Resume1
D Tutt Resume1
 
Salvage Project
Salvage ProjectSalvage Project
Salvage Project
 
Subject
SubjectSubject
Subject
 
การเคลื่อนที่ของสัตว์ไม่มีกระดูกสันหลัง
การเคลื่อนที่ของสัตว์ไม่มีกระดูกสันหลังการเคลื่อนที่ของสัตว์ไม่มีกระดูกสันหลัง
การเคลื่อนที่ของสัตว์ไม่มีกระดูกสันหลัง
 
Save wolrdsaveenergy com58projectf
Save wolrdsaveenergy   com58projectfSave wolrdsaveenergy   com58projectf
Save wolrdsaveenergy com58projectf
 
New mothers' information experience in social media: a grounded theory study ...
New mothers' information experience in social media: a grounded theory study ...New mothers' information experience in social media: a grounded theory study ...
New mothers' information experience in social media: a grounded theory study ...
 
อ.วนิดา บทที่-7-ตำราสารสนเทศท้องถิ่น-20-july-57
อ.วนิดา บทที่-7-ตำราสารสนเทศท้องถิ่น-20-july-57อ.วนิดา บทที่-7-ตำราสารสนเทศท้องถิ่น-20-july-57
อ.วนิดา บทที่-7-ตำราสารสนเทศท้องถิ่น-20-july-57
 
บทที่2 ระบบการเรียนการสอน
บทที่2  ระบบการเรียนการสอนบทที่2  ระบบการเรียนการสอน
บทที่2 ระบบการเรียนการสอน
 
ต่อมไร้ท่อ
ต่อมไร้ท่อต่อมไร้ท่อ
ต่อมไร้ท่อ
 
เทคนิคการสอนแบบอุปนัย
เทคนิคการสอนแบบอุปนัยเทคนิคการสอนแบบอุปนัย
เทคนิคการสอนแบบอุปนัย
 
Photosynthetic reaction
Photosynthetic reactionPhotosynthetic reaction
Photosynthetic reaction
 
கதை எழுத எளிய தொடக்கம்
கதை எழுத எளிய தொடக்கம்கதை எழுத எளிய தொடக்கம்
கதை எழுத எளிய தொடக்கம்
 
கட்டுரைக் கருத்து திரட்டேடு
கட்டுரைக் கருத்து திரட்டேடுகட்டுரைக் கருத்து திரட்டேடு
கட்டுரைக் கருத்து திரட்டேடு
 
การเคลื่อนที่ของสัตว์เซลล์เดียว
การเคลื่อนที่ของสัตว์เซลล์เดียวการเคลื่อนที่ของสัตว์เซลล์เดียว
การเคลื่อนที่ของสัตว์เซลล์เดียว
 
Latihan bt 2
Latihan bt 2Latihan bt 2
Latihan bt 2
 

Similar a Big Data Infraestructura (20)

Código de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big DataCódigo de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big Data
 
Big data
Big dataBig data
Big data
 
big data
big  databig  data
big data
 
Big data
Big dataBig data
Big data
 
Introduccion-a-las-BD
Introduccion-a-las-BDIntroduccion-a-las-BD
Introduccion-a-las-BD
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
BigData
BigDataBigData
BigData
 
Trabajo de-big-data
Trabajo de-big-dataTrabajo de-big-data
Trabajo de-big-data
 
Base de datos
Base de datos Base de datos
Base de datos
 
Trabajo tics 2
Trabajo tics 2Trabajo tics 2
Trabajo tics 2
 
Sistema de Gestión de Base de Datos
Sistema de Gestión de Base de DatosSistema de Gestión de Base de Datos
Sistema de Gestión de Base de Datos
 
Tipos de BDD y SGBD
Tipos de BDD y SGBDTipos de BDD y SGBD
Tipos de BDD y SGBD
 
Cb09_ibarrajuan
Cb09_ibarrajuanCb09_ibarrajuan
Cb09_ibarrajuan
 
Cb09 ibarra juan
Cb09  ibarra juanCb09  ibarra juan
Cb09 ibarra juan
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion
 
Tarbajo base de datos
Tarbajo  base de datosTarbajo  base de datos
Tarbajo base de datos
 
Taller n1 base de datos 2010
Taller n1 base de datos 2010Taller n1 base de datos 2010
Taller n1 base de datos 2010
 
Taller n1 base de datos 2010
Taller n1 base de datos 2010Taller n1 base de datos 2010
Taller n1 base de datos 2010
 
Presentación de Base de Dato
Presentación de Base de Dato Presentación de Base de Dato
Presentación de Base de Dato
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 

Último

Tarea de UTP matematices y soluciones ingenieria
Tarea de UTP matematices y soluciones ingenieriaTarea de UTP matematices y soluciones ingenieria
Tarea de UTP matematices y soluciones ingenieriaSebastianQP1
 
Historia de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdfHistoria de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdfIsbelRodrguez
 
3.3 Tipos de conexiones en los transformadores trifasicos.pdf
3.3 Tipos de conexiones en los transformadores trifasicos.pdf3.3 Tipos de conexiones en los transformadores trifasicos.pdf
3.3 Tipos de conexiones en los transformadores trifasicos.pdfRicardoRomeroUrbano
 
trabajos en altura 2024, sistemas de contencion anticaidas
trabajos en altura 2024, sistemas de contencion anticaidastrabajos en altura 2024, sistemas de contencion anticaidas
trabajos en altura 2024, sistemas de contencion anticaidasNelsonQuispeQuispitu
 
Revista estudiantil, trabajo final Materia ingeniería de Proyectos
Revista estudiantil, trabajo final Materia ingeniería de ProyectosRevista estudiantil, trabajo final Materia ingeniería de Proyectos
Revista estudiantil, trabajo final Materia ingeniería de ProyectosJeanCarlosLorenzo1
 
Electricidad y electronica industrial unidad 1
Electricidad y electronica industrial unidad 1Electricidad y electronica industrial unidad 1
Electricidad y electronica industrial unidad 1victorrodrigues972054
 
Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...
Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...
Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...ssuser646243
 
594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...
594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...
594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...humberto espejo
 
Flujo potencial, conceptos básicos y ejemplos resueltos.
Flujo potencial, conceptos básicos y ejemplos resueltos.Flujo potencial, conceptos básicos y ejemplos resueltos.
Flujo potencial, conceptos básicos y ejemplos resueltos.ALEJANDROLEONGALICIA
 
Físicas 1: Ecuaciones Dimensionales y Vectores
Físicas 1: Ecuaciones Dimensionales y VectoresFísicas 1: Ecuaciones Dimensionales y Vectores
Físicas 1: Ecuaciones Dimensionales y VectoresSegundo Silva Maguiña
 
CFRD simplified sequence for Mazar Hydroelectric Project
CFRD simplified sequence for Mazar Hydroelectric ProjectCFRD simplified sequence for Mazar Hydroelectric Project
CFRD simplified sequence for Mazar Hydroelectric ProjectCarlos Delgado
 
Simbología de Soldadura, interpretacion y aplicacion en dibujo tecnico indus...
Simbología de Soldadura,  interpretacion y aplicacion en dibujo tecnico indus...Simbología de Soldadura,  interpretacion y aplicacion en dibujo tecnico indus...
Simbología de Soldadura, interpretacion y aplicacion en dibujo tecnico indus...esandoval7
 
Electromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdfElectromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdfAnonymous0pBRsQXfnx
 
SOLIDOS DE REVOLUCION, aplicaciones de integrales definidas
SOLIDOS DE REVOLUCION, aplicaciones de integrales definidasSOLIDOS DE REVOLUCION, aplicaciones de integrales definidas
SOLIDOS DE REVOLUCION, aplicaciones de integrales definidasLeonardoMendozaDvila
 
AMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptx
AMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptxAMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptx
AMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptxLuisvila35
 
Diagrama de flujo metalurgia del cobre..pptx
Diagrama de flujo metalurgia del cobre..pptxDiagrama de flujo metalurgia del cobre..pptx
Diagrama de flujo metalurgia del cobre..pptxHarryArmandoLazaroBa
 
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...Arquitecto Alejandro Gomez cornejo muñoz
 
Edificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCEdificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCANDECE
 
Fe_C_Tratamientos termicos_uap _3_.ppt
Fe_C_Tratamientos termicos_uap   _3_.pptFe_C_Tratamientos termicos_uap   _3_.ppt
Fe_C_Tratamientos termicos_uap _3_.pptVitobailon
 
Fijaciones de balcones prefabricados de hormigón - RECENSE
Fijaciones de balcones prefabricados de hormigón - RECENSEFijaciones de balcones prefabricados de hormigón - RECENSE
Fijaciones de balcones prefabricados de hormigón - RECENSEANDECE
 

Último (20)

Tarea de UTP matematices y soluciones ingenieria
Tarea de UTP matematices y soluciones ingenieriaTarea de UTP matematices y soluciones ingenieria
Tarea de UTP matematices y soluciones ingenieria
 
Historia de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdfHistoria de la Arquitectura II, 1era actividad..pdf
Historia de la Arquitectura II, 1era actividad..pdf
 
3.3 Tipos de conexiones en los transformadores trifasicos.pdf
3.3 Tipos de conexiones en los transformadores trifasicos.pdf3.3 Tipos de conexiones en los transformadores trifasicos.pdf
3.3 Tipos de conexiones en los transformadores trifasicos.pdf
 
trabajos en altura 2024, sistemas de contencion anticaidas
trabajos en altura 2024, sistemas de contencion anticaidastrabajos en altura 2024, sistemas de contencion anticaidas
trabajos en altura 2024, sistemas de contencion anticaidas
 
Revista estudiantil, trabajo final Materia ingeniería de Proyectos
Revista estudiantil, trabajo final Materia ingeniería de ProyectosRevista estudiantil, trabajo final Materia ingeniería de Proyectos
Revista estudiantil, trabajo final Materia ingeniería de Proyectos
 
Electricidad y electronica industrial unidad 1
Electricidad y electronica industrial unidad 1Electricidad y electronica industrial unidad 1
Electricidad y electronica industrial unidad 1
 
Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...
Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...
Como de produjo la penicilina de manera masiva en plena guerra mundial Biotec...
 
594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...
594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...
594305198-OPCIONES-TARIFARIAS-Y-CONDICIONES-DE-APLICACION-DE-TARIFAS-A-USUARI...
 
Flujo potencial, conceptos básicos y ejemplos resueltos.
Flujo potencial, conceptos básicos y ejemplos resueltos.Flujo potencial, conceptos básicos y ejemplos resueltos.
Flujo potencial, conceptos básicos y ejemplos resueltos.
 
Físicas 1: Ecuaciones Dimensionales y Vectores
Físicas 1: Ecuaciones Dimensionales y VectoresFísicas 1: Ecuaciones Dimensionales y Vectores
Físicas 1: Ecuaciones Dimensionales y Vectores
 
CFRD simplified sequence for Mazar Hydroelectric Project
CFRD simplified sequence for Mazar Hydroelectric ProjectCFRD simplified sequence for Mazar Hydroelectric Project
CFRD simplified sequence for Mazar Hydroelectric Project
 
Simbología de Soldadura, interpretacion y aplicacion en dibujo tecnico indus...
Simbología de Soldadura,  interpretacion y aplicacion en dibujo tecnico indus...Simbología de Soldadura,  interpretacion y aplicacion en dibujo tecnico indus...
Simbología de Soldadura, interpretacion y aplicacion en dibujo tecnico indus...
 
Electromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdfElectromagnetismo Fisica FisicaFisica.pdf
Electromagnetismo Fisica FisicaFisica.pdf
 
SOLIDOS DE REVOLUCION, aplicaciones de integrales definidas
SOLIDOS DE REVOLUCION, aplicaciones de integrales definidasSOLIDOS DE REVOLUCION, aplicaciones de integrales definidas
SOLIDOS DE REVOLUCION, aplicaciones de integrales definidas
 
AMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptx
AMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptxAMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptx
AMBIENTES SEDIMENTARIOS GEOLOGIA TIPOS .pptx
 
Diagrama de flujo metalurgia del cobre..pptx
Diagrama de flujo metalurgia del cobre..pptxDiagrama de flujo metalurgia del cobre..pptx
Diagrama de flujo metalurgia del cobre..pptx
 
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
MEC. FLUIDOS - Análisis Diferencial del Movimiento de un Fluido -GRUPO5 sergi...
 
Edificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCEdificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRC
 
Fe_C_Tratamientos termicos_uap _3_.ppt
Fe_C_Tratamientos termicos_uap   _3_.pptFe_C_Tratamientos termicos_uap   _3_.ppt
Fe_C_Tratamientos termicos_uap _3_.ppt
 
Fijaciones de balcones prefabricados de hormigón - RECENSE
Fijaciones de balcones prefabricados de hormigón - RECENSEFijaciones de balcones prefabricados de hormigón - RECENSE
Fijaciones de balcones prefabricados de hormigón - RECENSE
 

Big Data Infraestructura

  • 1. BIG DATA HERMAN VILLAMIL CHAVEZ CÓDIGO: 80054694 GRUPO: 2 LABORATORIO DE ARQUITECTURA DE COMPUTADORES NUMERO CELULAR: 3187741871 CORREO ELECTRÓNICO: hervil714@hotmail.com Resumen Este informe pretende evidenciar una investigación de uno de los temas de tecnologías emergentes, como parte del trabajo final del laboratorio de Arquitectura de Computadores, este intenta exponer el origen y el concepto de los grandes datos o Big Data algunas consideraciones generales y por ultimo algunos software importantes para el desarrollo del manejo de estos datos,dando por supuestoun enfoque hacia la arquitectura correspondiente a este tema. 1. Introducción Big Data es un término que se refiere al almacenamiento de grandes cantidades de datos, para su posterior administración, uso y análisis; esto se debe a que en los últimos veinte años con la aparición de internet y las redes sociales entre otros y a los muchos dispositivos con el que accedemos a estos se disparó, desmesuradamente la producción de datos e información, debido a que cada persona con acceso a la red en sus diferentes dispositivos genera una serie de datos que son almacenados en alguna parte y en algún momento se empezaron a almacenar y posteriormente, como una necesidad predictiva y de mercado se empezaron a analizar. 2. Inicio y concepto Hace algunos años se hablaba de la explosión de la información y se refería a que con la llegada de la máquina de escribir y el computador posteriormente, se generaba más información que la que antes de estos dos inventos de forma manuscrita, pero esta producción seguiría en ascenso con la llegada del internet, que además de traer más información, trago también mas formatos y estructuras documentales. Pero esta sobre producción de información está sobrepasando cualquier pronóstico, desde que se tiene registro y hasta 2003 se había creado 5 Exabytes (5368708540.17 Gigabytes) de información, esto mismo se crea en 2 días actualmente y es que hay aproximadamente 2.700 millones de usuarios de internet en el mundo, que cada minuto realizan 2 millones de búsquedas en Google, suben 72 horas de video en YouTube, envían 204 millones de correos electrónicos y son otorgados 1.8millones de Like en Facebook. Afortunadamente para el medio ambiente la información electrónica domina la análoga, y el 99% de la información está en formato digital, solo el 0,007% de la información del planeta se soporta en papel. NOMBRE EQUIVALENTE Kilobyte (KB) 1024 bytes Megabyte (MB) 1024 KB Gigabyte (GB). 1024 MB Terabyte (TB 1024 GB Petabyte (PB) 1024 TB Exabyte (EB) 1024 PB Zettabyte (ZB) 1024 EB Yottabyte (YB) 1024 ZB Tabla 1. Medidas de almacenamiento de información Big data es un concepto que nació en el año 1997, a raíz de un informe de la NASA, donde se afirmaba que el crecimiento de datos empezaba a ser un problema para los sistemas de base de datos que se tenían en ese momento, el termino evidentemente hace relación al crecimiento desmesurado de la información que se ha venido produciendo por la interacción del hombre y el internet, a través de los diversos dispositivos que en este momento son muy fáciles de adquirir, en diversos formatos y con diferentes estructuras. El reto de los sistemas Big Data es poder procesar y almacenar toda la información posible, administrarla y sacar provecho de ella, para generar por ejemplo entre otras cosas predicciones basadas en tendencias de comportamiento; pero con los sistemas tradicionales esto sería imposible, debido a que tenemos factores muy importantes a considerar que son los siguientes:  Volumen: por lo que ya se ha comentado en este informe el crecimiento de informacion ha sido desmedido en los últimos años y va en aumento.  Velocidad: este es uno de los retos con lo que no han podido los sistemas tradicionales, puesto la velocidad con que se genera datos es hoy en dia de milisegundos y también la velocidad que se necesita para procesar toda esta información y generar resultados.  Variedad: como ya lo dije a medida que fue aumentado esta producción, también se fueron
  • 2. añadiendo diversos formatos y estructuras, antes trabajábamos con números y letras, ahora tenemos videos, música etc.  Veracidad: mucha de la información que se produce es resultado de la interacción de los usuarios en las redes sociales, datos que no necesariamente son ciertos.  Valor: con los anteriores aspectos solo hemos podido almacenar, gestionar y validar una gran cantidad de información, pero esto no es suficiente, con estas infraestructuras tan grandes y seguramente, se debe poder extraer los datos y generar valor, corrigiendo por ejemplo la orientación de un negocio. Por consiguiente para que algo sea considerado Big Data no solamente tienen que hacer relación a su traducción literal “grandes datos ” sino que tendrá que considerar los aspectos antes señalados o dimensiones; por otra parte el Big Data no es negocio que genere mucha dinero por si solo, como ya lo insinué, antes de que estos sistemas sean aprovechados se debe tener en cuenta una estructura, un objetivo, una fuente, análisis y un resultado y después de todo esto se empiezan a generar valor, tampoco es cierto que sea exclusivo de una tecnología o un software, aunque HADOOP es un plataforma de software libre muy conocida, hay muchas más tecnologías como PENTAHO, NETEZZA, VERTICA, DATAFLUX, GREENPLUM etc. 3. Legalidad Por lo ya mencionado, se podría pensar que la acción de procesar la información es tan simple como ya lo describimos, pero falta un aspecto que debo mencionar y es el aspecto legalde la manipulación de los datos,en Colombia existen diversas leyes y decretos que tratan el tema, todos basados o reglamentando el artículo 20 y 15 de la constitución política este último el más relevante que dice lo siguiente: “Todas las personas tienen derecho a su intimidad personal y familiar y a su buen nombre, y el Estado debe respetarlos y hacerlos respetar. De igual modo, tienen derecho a conocer, actualizar y rectificar las informaciones que se hayan recogido sobre ellas en bancos de datos y en archivos de entidades públicas y privadas…”. Lo anterior significa, que la manipulación de datos debe operar bajos ciertos parámetros que están definidos en las siguientes normas: Ley 1266 de 2008, Ley 1712 de 2014, Ley 79 de 1993, Decreto Nacional 1377 de 2013 y tal vez la más importante y relevante la Ley 1581 de 2012 Por la cual se dictan disposiciones generales para la protección de datos personales, esta tiene por objetivo desarrollar los derechos constitucionales a que se refieren los artículos de la constitución ya mencionados. La ley 1581 es una ley estatutaria, lo que significa que está por encima de las leyes normales u ordinarias, y esto se debe a que su estudio y aprobación tiene un trámite especial, porque como este, los temas estudiados tienen que ver directamente con la Constitución Política, debe aprobarse por la mayoría del congreso, en una misma legislatura y es revisada por la Corte constitucional; la mencionada norma además del objeto ya citado, indica que aplica a todas las base de datos con algunas contadas excepciones, tiene unas definiciones, principios, categorías de datos, derechos, deberes, procedimiento, mecanismos de vigilancia y de sanción entre otros temas. 4. Infraestructura Analítica Apache Hadoop es un software abierto que procesa grandes cantidades de datos en clusters de servidores básicos, está hecho para hacer extensivo un sistema de servidor único a miles de máquinas, esta soportado por proyectos como Pig, Hive y Zookeeper que mejoran sus posibilidades de uso; este software tiene dos componentes esenciales:  YARN: Asigna memoria y almacenamiento a las aplicaciones que se ejecutan en un cluster Hadoop. Permite que otras aplicaciones puedan ejecutarse, lo cual es un ventaja que permite el uso de muchas posibilidades.  HDFS (US): Es un sistema de archivos que comprende todos los nodos de un cluster para almacenar datos. Enlaza todos los nodos para que se conviertan un solo gran sistema de archivos. Netezza es una filial de IBM, que provee dispositivos de almacenamiento de datos para análisis de alto rendimiento o análisis de negocio, integrando bases de datos, servidores y almacenamiento integrado, su principal producto es Twinfin por supuesto analiza muy rápidamente volúmenes de datos escalando en petabytes; poseen una arquitectura que se denomina AMPP de dos niveles que maneja consultas de varios clientes, el primer nivel compila las consultas y genera un plan de resolución, divide las subtareas y las distribuye al segundo nivel quien tiene cientos de hojas que procesan fragmentos de consultas o S-Blades. AMPP proporciona tiempos de carga de más de 2tb/hora y de copia de seguridad / restauración de las tasas de datos de más de 4tb/hora.
  • 3. Vertica Analytics Platform fue hecho para manejar datos de crecimiento rápido y proporcionar consultas en menos tiempo que lo tradicional, la organización de almacenamiento es orientada a columnas que aumenta el rendimiento de acceso secuencial, tiene organización de almacenamiento hibrido que aumenta el rendimiento de consultas, inserciones y cargas, reduce los costos de almacenamiento y ancho de banda con un sistema de compresión. DataFlux es un producto de la empresa que tiene el mismo nombre que proporciona la capacidad de gestionar grandes cantidades de datos,con un especialenfoque en la calidad de los datos, tiene un algoritmo de análisis sintáctico que normaliza y analiza la estructura de los nombres, también maneja unos códigos de coincidencia que nos muestra los registros que pueden ser copia de otros. Greenplum Database es un almacén de datos de código abierto avanzado y completo. Proporciona un análisis rápido y potente de datos a escala petabyte, funciona con un optimizador de consultas de un alto rendimiento de análisis, la arquitectura proporciona paralelizacion automática de todos los datos y consultas, utiliza la tecnología MPP para la carga de alto rendimiento con una velocidades en cada nodo adicional de más de 19 terabytes por hora, por bastidor, el optimizador de consultas escala el análisis interactivo y de modo por lotes a conjunto de datos en petabytes sin degradar el rendimiento de la consulta. 5. Conclusiones  La información es un activo muy importante para cualquier organización, pero se debe organizar, almacenar y analizar.  El manejo de grandes cantidades de datos es una tarea ardua y que muy pocos conocen.  Los datos recolectados de diferentes programas, pueden predecir comportamientos si se analizan adecuadamente. Referencias [1] BigData, Recuperado de: https://www.youtube.com/watch?v=mqMFMgVnRO8&feat ure=youtu.be [2] ¿Qué es Big Data?, Recuperado de: https://www.youtube.com/watch?v=3AjaLBt6uUU [3] Qué es Big Data, Recuperado de: https://www.youtube.com/watch?v=WgAakVRAAwM [4] Documanía 2.0 , ¿Cuánta Información se Genera y Almacena en el Mundo? , Recuperado de: https://documania20.wordprIss.com/2013/09/16/cuant a-informacion-se-genera-y-almacena-en-el-mundo/ [5] Winshuttle, Big Data y la historia del almacenamiento de la información, Recuperado de: http://www.winshuttle.es/big-data-historia- cronologica/ [6] ¿Qué es Hadoop?, Recuperado de: https://www- 01.ibm.com/software/cl/data/infosphere/hadoop/que-es.html [7] Netezza, Recuperado de: https://translate.google.com.co/translate?hl=es&sl=en&u=ht tps://en.wikipedia.org/wiki/Netezza&prev=search [8] Greenplum Database, Recuperado de: http://greenplum.org/ [9] Netezza – el poder de la simplicidad, Recuperado de: https://www-01.ibm.com/software/co/data/netezza/ [10] Vertica, Recuperado de: https://translate.google.com.co/translate?hl=es&sl=en&u=ht tps://en.wikipedia.org/wiki/Vertica&prev=search [11] V. fehlberg, ¿Qué es DataFlux?, Recuperado de:https://fehlberg.wordpress.com/2008/01/12/what-is- dataflux/