SlideShare una empresa de Scribd logo
1 de 25
Qué es Big Data
 Big Data describe conjuntos de datos tan grandes que se convierte en difíciles de
manejar con las herramientas de bases de datos tradicionales a un costo
razonable.
 En términos generales podríamos referirnos a Big Data como a la tendencia en el
avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de
entendimiento y toma de decisiones, la cual es utilizada para describir enormes
cantidades de datos (estructurados, no estructurados y semi estructurados) que
tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos
relacional para su análisis.
 El concepto de Big Data aplica para toda aquella información que no puede ser
procesada o analizada utilizando procesos o herramientas tradicionales. Sin
embargo, Big Data no se refiere a alguna cantidad de información en específico,
ya que es usualmente utilizado cuando se habla en términos de petabytes y
exabytes de datos.
 En términos de datos:
 Gigabyte = 109 = 1,000,000,000 Terabyte = 1012 = 1,000,000,000,000 Petabyte
= 1015 = 1,000,000,000,000,000 Exabyte = 1018 = 1,000,000,000,000,000,000
Qué es Big Data
 Además del gran volumen de información, la misma también existe en una
gran variedad de datos que pueden ser representados de diversas maneras en
todo el mundo, por ejemplo de dispositivos móviles, audio, video, sistemas GPS,
incontables sensores digitales en equipos industriales, automóviles, medidores
eléctricos, veletas, anemómetros, etc., los cuales pueden medir y comunicar el
posicionamiento, movimiento, vibración, temperatura, humedad y hasta los
cambios químicos que sufre el aire, de tal forma que las aplicaciones que analizan
estos datos requieren que la velocidad de respuesta sea lo demasiado rápida
para lograr obtener la información correcta en el momento preciso. Y toda la
información que se procese debe poseer además validez (información verídica o
verificable). Estas son las características principales de una oportunidad para Big
Data.
 Estas son las 3 V de BigData: Volumen, Variedad, Velocidad a las que hemos
adicionado una V más que es que la información debe ser además Válida. Estas
características en su conjunto proporcionan el verdadero valor de la información
que es el conocimiento
 Volumen + Variedad + Velocidad + Valor = Conocimiento
Qué es Big Data
Qué es Big Data
 La información crece exponencialmente. 1GB de información almacenado puede
generar 1PB de información en tránsito.
Campos de Aplicación de Big Data
 La exigencia tecnológica de un Big Data es alta dado el gran volumen de
información, la velocidad de evolución y volatilidad de ésta y la complejidad al
combinar gran variedad de tipologías de datos no estructurados.
 Las principales plataformas Big Data incluyen aplicaciones de Búsqueda y
exploración de datos (data discovery), organización de la información,
procedimientos de inteligencia y establecimiento de reglas de operación,
conectores con aplicaciones comerciales, herramientas de análisis y capas de
presentación
Campos de Aplicación de Big Data
 La siguiente figura muestra ejemplos de uso de tecnología Big Data en
aplicaciones del mundo real.
Campos de Aplicación de Big Data
 El siguiente texto describe el uso de Big Data por parte de la Agencia Tributaria
española:
 Los sistemas de control de la Agencia Tributaria se dividen en ‘extensivos’, que suponen un
análisis automatizado para el conjunto de contribuyentes (como en la renta), e ‘intensivos’,
donde ‘se selecciona a los que son más probables de hacer fraude’ y ‘cumplen condiciones que
se consideran más favorables a que se cometan los peores fraudes’. La última forma comprende
acciones como ‘ir al lugar y ver trabajadores’.
 El uso de sistemas de análisis de la AEAT se ha ido intensificando desde 2008 ‘pero
últimamente más’ ya que ‘cada vez tenemos más datos, la realidad es más compleja y la
tecnología cada vez permite más’.
 Zújar, tras una primera versión en 1993, ha permitido a la Agencia elaborar un excell con 173
conceptos con datos de los ciudadanos como ‘inmuebles’, ‘vehículos’, ‘relaciones’ y
‘transacciones’.
 ‘Esa información’ de Zújar ‘se carga y se cruza con las facturas’ de los contribuyentes mediante
el programa Prometeo. Esto permite, por ejemplo, ver si hay diferencias, entre el IVA que declaró
un ciudadano y el que se le imputó.
 Para casos en los que el contribuyente no quiera colaborar, el programa Buscón analiza la
información contenida en discos duras y papeles, que será devuelta al usuario de forma
ordenada a través de un generador de informes.
 Si la Agencia decide compartir la información analizada con alguna entidad puede utilizar, de manera responsable
y controlada, Genio, que define los intercambios de datos. Por último, la AEAT cuenta con Teseo para observar las
relaciones existentes entre los contribuyentes, a modo de mapa de red social
Clasificación de BigData
 IBM propone un esquema de clasificación de características de BigData.
Capas de BigData
 IBM propone un esquema de clasificación de capas para una solución BigData.
OpenSource Hadoop
Open Source
Desarrollado originalmente por Yahoo
Administrado por Apache Software Foundation
Diseñado para trabajar con petabytes de datos
Pensado para implementarse con hardware económico
Ofrece alta disponibilidad
Escala horizontalmente
Muchas tecnologías de desarrollo están basadas en Hadoop
Buena aceptación en el mercado
Curva de aprendizaje elevada
No es una base de datos
No es una aplicación en tiempo real
The Apache Hadoop software library is a
framework
that allows for the distributed processing
of large data sets across clusters of
computers using a simple programming
model
Qué es Hadoop?
La biblioteca de software Apache Hadoop es un framework que permite el
procesamiento distribuido de grandes conjuntos de datos a través de grupos de
computadores que utilizan modelos de programación simples. Hadoop está
diseñado para escalar desde un servidor individual hasta miles de máquinas en
cluster, cada una con capacidad de procesamiento y almacenamiento local. En
lugar de confiar en el hardware para ofrecer alta disponibilidad, la biblioteca en
sí está diseñada para detectar y controlar los errores en la capa de aplicación,
por lo que la entrega de un servicio de alta disponibilidad como controlador de
un cluster (grupo) de computadoras, cada una de las cuales pueden ser
propensos a las fallas.
Hadoop es básicamente procesamiento paralelo en forma masiva construido
sobre un algoritmo de programación distribuida.
Se basa en el paradigma de procesamiento económico: La información se
procesa donde se encuentra.
Cómo funcionaHadoop?
 La clave de Hadoop es MapReduce, en la arquitectura de desarrollo los
programadores deben "romper" el trabajo en distintos segmentos que deben
cumplir las siguientes características:
 Autónomos
 Digeribles
 Se debe poder procesar en forma independiente
 Con la posibilidad de recuperarse a fallas en cualquier punto del proceso.
MapReduce
 MapReduce es un framework (modelo de programación) utilizado por Google para
dar soporte a la computación paralela sobre grandes colecciones de datos en grupos
de computadoras y al commodity computing. El nombre del framework está inspirado
en los nombres de dos importantes métodos, macros, o funciones en programación
funcional: Map y Reduce.
 Las funciones Map y Reduce se aplican sobre pares de datos (clave, valor).
 Map toma como entrada un par (clave,valor) y devuelve una lista de pares
(clave2,valor2)
 Esta operación se realiza en paralelo para cada par de datos de entrada.
 Luego el framework MapReduce (como Hadoop MapReduce) agrupa todos los pares
generados con la misma clave de todas las listas, creando una lista por cada una de
las claves generadas.
 Reduce se realiza en paralelo tomando como entrada cada lista de las obtenidas en
el Map y produciendo una colección de valores
MapReduce
 La siguiente figura clarifica el funcionamiento de MapReduce
MapReduce
 El ejemplo clásico de MapReduce, la función para contar palabras.
Cloudera
 Es la empresa lider en desarrollo de tecnología BigData con productos OpenSource.
 Su producto estrella es de código abierto, el mismo que es denominado CDH
(Cloudera Distribution incluyendo Apache Hadoop), e incluye un conjunto de
productos open source (Apache Hive, Apache Avro, Apache HBase, etc) que se
combinan para formar la plataforma Hadoop
 Cuenta en sus filas con el arquitecto diseñador de Hadoop, Dougg Cutting, el mismo
que es una autoridad en el ámbito de tecnologías asociadas a BigData.
 Cloudera ha logrado alianzas importantes con grandes compañías como HP, DELL,
Cisco para el desarrollo y fortalecimiento de la plataforma Hadoop.
 Son los impulsadores del proyecto Impala, el mismo que permite hacer una
conjunción entre el análisis de datos estructurados y no estructurados, así como
consultas en tiempo real reforzando el potencial y poder de BigData.
Cloudera
 La siguiente figura muestra la arquitectura referencial de Cloudera.
Arquitectura Cloudera
 La siguiente imagen muestra la arquitectura de Cloudera con un mayor
nivel de detalle
Cloudera
 La siguiente muestra los componentes de la arquitectura de Cloudera
Cloudera - Impala
Impala es un motor open source de queries SQL interactivas para analizar
datos almacenados en Hadoop en tiempo real.
Las principales características de Impala son:
 Rápida: permite ejecutar queries SQL en Hadoop en segundos
 Flexible: permite hacer queries sobre datos sin procesar o formatos
Hadoop
 Integrado en Hadoop
 Abierta
 Extensible: certificado en aplicaciones BI como SAP, Microstrategy
Cloudera - Impala
La siguiente figura muestra la arquitectura de alto nivel de Impala:
Latinus – Arquitectura de referencia Big Data
La siguiente figura muestra la arquitectura propuesta de Latinus para
implementaciones de Big Data
Ejemplo de arquitectura de Big Data
BigData

Más contenido relacionado

La actualidad más candente

Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesStratebi
 
Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Stratebi
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open SourceStratebi
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
Big Data para analizar las redes sociales
Big Data para analizar las redes socialesBig Data para analizar las redes sociales
Big Data para analizar las redes socialesDatKnoSys
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Ris Fernandez
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivassgcuadrado
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Peter Kroll
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
Big data, Big Objects
Big data, Big ObjectsBig data, Big Objects
Big data, Big ObjectsNimacloud
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeEduardo Castro
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosEduardo Castro
 

La actualidad más candente (20)

Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)
 
Big Data & RRHH
Big Data & RRHHBig Data & RRHH
Big Data & RRHH
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
Big Data para analizar las redes sociales
Big Data para analizar las redes socialesBig Data para analizar las redes sociales
Big Data para analizar las redes sociales
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Qué es big data
Qué es big dataQué es big data
Qué es big data
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Big data, Big Objects
Big data, Big ObjectsBig data, Big Objects
Big data, Big Objects
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
 
Big data presentacion diapositiva
Big data presentacion diapositivaBig data presentacion diapositiva
Big data presentacion diapositiva
 
Obtención de Datos en #BigData
Obtención de Datos en #BigDataObtención de Datos en #BigData
Obtención de Datos en #BigData
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 

Similar a BigData

Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaMiguel Angel Macias
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelEduardo Castro
 
Base de datos 217 1bn
Base de datos 217 1bnBase de datos 217 1bn
Base de datos 217 1bnjuanjosetn
 
Exploradata - A new BigData Company
Exploradata - A new BigData CompanyExploradata - A new BigData Company
Exploradata - A new BigData CompanyExploradata
 
Introducción a BigData - up - 2015
Introducción a BigData - up - 2015Introducción a BigData - up - 2015
Introducción a BigData - up - 2015Gabriel Eisbruch
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datosBBVA API Market
 
Revista TicNews Edición Junio 2014
Revista TicNews Edición Junio 2014Revista TicNews Edición Junio 2014
Revista TicNews Edición Junio 2014Edicion Ticnews
 
Empleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosEmpleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosAntonio Santos Ramos
 

Similar a BigData (20)

Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura LambdaCluster Multinodo en Apache Hadoop - Arquitectura Lambda
Cluster Multinodo en Apache Hadoop - Arquitectura Lambda
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
Big data
Big dataBig data
Big data
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Introduccion big data
Introduccion  big dataIntroduccion  big data
Introduccion big data
 
Big data y hadoop
Big data y hadoopBig data y hadoop
Big data y hadoop
 
CASO PRACTICO 2.pptx
CASO PRACTICO 2.pptxCASO PRACTICO 2.pptx
CASO PRACTICO 2.pptx
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot Excel
 
Big data
Big dataBig data
Big data
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
Cloud computing
Cloud computingCloud computing
Cloud computing
 
Base de datos 217 1bn
Base de datos 217 1bnBase de datos 217 1bn
Base de datos 217 1bn
 
Exploradata - A new BigData Company
Exploradata - A new BigData CompanyExploradata - A new BigData Company
Exploradata - A new BigData Company
 
Introducción a BigData - up - 2015
Introducción a BigData - up - 2015Introducción a BigData - up - 2015
Introducción a BigData - up - 2015
 
big data
big  databig  data
big data
 
Academy Journal Morelia 2018
Academy Journal Morelia 2018Academy Journal Morelia 2018
Academy Journal Morelia 2018
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datos
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Revista TicNews Edición Junio 2014
Revista TicNews Edición Junio 2014Revista TicNews Edición Junio 2014
Revista TicNews Edición Junio 2014
 
Empleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosEmpleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datos
 

Último

Buscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la webBuscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la webDecaunlz
 
libro de Ciencias Sociales_6to grado.pdf
libro de Ciencias Sociales_6to grado.pdflibro de Ciencias Sociales_6to grado.pdf
libro de Ciencias Sociales_6to grado.pdfFAUSTODANILOCRUZCAST
 
Institucion educativa la esperanza sede la magdalena
Institucion educativa la esperanza sede la magdalenaInstitucion educativa la esperanza sede la magdalena
Institucion educativa la esperanza sede la magdalenadanielaerazok
 
INSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENA
INSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENAINSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENA
INSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENAdanielaerazok
 
COMPETENCIAS CIUDADANASadadadadadadada .pdf
COMPETENCIAS CIUDADANASadadadadadadada .pdfCOMPETENCIAS CIUDADANASadadadadadadada .pdf
COMPETENCIAS CIUDADANASadadadadadadada .pdfOscarBlas6
 
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdfNUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdfisrael garcia
 
COMOGANARAMIGODPARACRISTOIGLESIAADVENTISTANECOCLI,COM
COMOGANARAMIGODPARACRISTOIGLESIAADVENTISTANECOCLI,COMCOMOGANARAMIGODPARACRISTOIGLESIAADVENTISTANECOCLI,COM
COMOGANARAMIGODPARACRISTOIGLESIAADVENTISTANECOCLI,COMcespitiacardales
 
Guia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdfGuia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdflauradbernals
 
12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdf12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdfedwinmelgarschlink2
 
institucion educativa la esperanza sede magdalena
institucion educativa la esperanza sede magdalenainstitucion educativa la esperanza sede magdalena
institucion educativa la esperanza sede magdalenajuniorcuellargomez
 

Último (10)

Buscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la webBuscadores, SEM SEO: el desafío de ser visto en la web
Buscadores, SEM SEO: el desafío de ser visto en la web
 
libro de Ciencias Sociales_6to grado.pdf
libro de Ciencias Sociales_6to grado.pdflibro de Ciencias Sociales_6to grado.pdf
libro de Ciencias Sociales_6to grado.pdf
 
Institucion educativa la esperanza sede la magdalena
Institucion educativa la esperanza sede la magdalenaInstitucion educativa la esperanza sede la magdalena
Institucion educativa la esperanza sede la magdalena
 
INSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENA
INSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENAINSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENA
INSTITUCION EDUCATIVA LA ESPERANZA SEDE MAGDALENA
 
COMPETENCIAS CIUDADANASadadadadadadada .pdf
COMPETENCIAS CIUDADANASadadadadadadada .pdfCOMPETENCIAS CIUDADANASadadadadadadada .pdf
COMPETENCIAS CIUDADANASadadadadadadada .pdf
 
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdfNUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
NUVO PROGRAMAS DE ESCUELAS NUEVO-ACUERDO-CTE.pdf
 
COMOGANARAMIGODPARACRISTOIGLESIAADVENTISTANECOCLI,COM
COMOGANARAMIGODPARACRISTOIGLESIAADVENTISTANECOCLI,COMCOMOGANARAMIGODPARACRISTOIGLESIAADVENTISTANECOCLI,COM
COMOGANARAMIGODPARACRISTOIGLESIAADVENTISTANECOCLI,COM
 
Guia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdfGuia para el registro en el sitio slideshare.pdf
Guia para el registro en el sitio slideshare.pdf
 
12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdf12 Clasificacion de las Computadoras.pdf
12 Clasificacion de las Computadoras.pdf
 
institucion educativa la esperanza sede magdalena
institucion educativa la esperanza sede magdalenainstitucion educativa la esperanza sede magdalena
institucion educativa la esperanza sede magdalena
 

BigData

  • 1.
  • 2. Qué es Big Data  Big Data describe conjuntos de datos tan grandes que se convierte en difíciles de manejar con las herramientas de bases de datos tradicionales a un costo razonable.  En términos generales podríamos referirnos a Big Data como a la tendencia en el avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semi estructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos relacional para su análisis.  El concepto de Big Data aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big Data no se refiere a alguna cantidad de información en específico, ya que es usualmente utilizado cuando se habla en términos de petabytes y exabytes de datos.  En términos de datos:  Gigabyte = 109 = 1,000,000,000 Terabyte = 1012 = 1,000,000,000,000 Petabyte = 1015 = 1,000,000,000,000,000 Exabyte = 1018 = 1,000,000,000,000,000,000
  • 3. Qué es Big Data  Además del gran volumen de información, la misma también existe en una gran variedad de datos que pueden ser representados de diversas maneras en todo el mundo, por ejemplo de dispositivos móviles, audio, video, sistemas GPS, incontables sensores digitales en equipos industriales, automóviles, medidores eléctricos, veletas, anemómetros, etc., los cuales pueden medir y comunicar el posicionamiento, movimiento, vibración, temperatura, humedad y hasta los cambios químicos que sufre el aire, de tal forma que las aplicaciones que analizan estos datos requieren que la velocidad de respuesta sea lo demasiado rápida para lograr obtener la información correcta en el momento preciso. Y toda la información que se procese debe poseer además validez (información verídica o verificable). Estas son las características principales de una oportunidad para Big Data.  Estas son las 3 V de BigData: Volumen, Variedad, Velocidad a las que hemos adicionado una V más que es que la información debe ser además Válida. Estas características en su conjunto proporcionan el verdadero valor de la información que es el conocimiento  Volumen + Variedad + Velocidad + Valor = Conocimiento
  • 4. Qué es Big Data
  • 5. Qué es Big Data  La información crece exponencialmente. 1GB de información almacenado puede generar 1PB de información en tránsito.
  • 6. Campos de Aplicación de Big Data  La exigencia tecnológica de un Big Data es alta dado el gran volumen de información, la velocidad de evolución y volatilidad de ésta y la complejidad al combinar gran variedad de tipologías de datos no estructurados.  Las principales plataformas Big Data incluyen aplicaciones de Búsqueda y exploración de datos (data discovery), organización de la información, procedimientos de inteligencia y establecimiento de reglas de operación, conectores con aplicaciones comerciales, herramientas de análisis y capas de presentación
  • 7. Campos de Aplicación de Big Data  La siguiente figura muestra ejemplos de uso de tecnología Big Data en aplicaciones del mundo real.
  • 8. Campos de Aplicación de Big Data  El siguiente texto describe el uso de Big Data por parte de la Agencia Tributaria española:  Los sistemas de control de la Agencia Tributaria se dividen en ‘extensivos’, que suponen un análisis automatizado para el conjunto de contribuyentes (como en la renta), e ‘intensivos’, donde ‘se selecciona a los que son más probables de hacer fraude’ y ‘cumplen condiciones que se consideran más favorables a que se cometan los peores fraudes’. La última forma comprende acciones como ‘ir al lugar y ver trabajadores’.  El uso de sistemas de análisis de la AEAT se ha ido intensificando desde 2008 ‘pero últimamente más’ ya que ‘cada vez tenemos más datos, la realidad es más compleja y la tecnología cada vez permite más’.  Zújar, tras una primera versión en 1993, ha permitido a la Agencia elaborar un excell con 173 conceptos con datos de los ciudadanos como ‘inmuebles’, ‘vehículos’, ‘relaciones’ y ‘transacciones’.  ‘Esa información’ de Zújar ‘se carga y se cruza con las facturas’ de los contribuyentes mediante el programa Prometeo. Esto permite, por ejemplo, ver si hay diferencias, entre el IVA que declaró un ciudadano y el que se le imputó.  Para casos en los que el contribuyente no quiera colaborar, el programa Buscón analiza la información contenida en discos duras y papeles, que será devuelta al usuario de forma ordenada a través de un generador de informes.  Si la Agencia decide compartir la información analizada con alguna entidad puede utilizar, de manera responsable y controlada, Genio, que define los intercambios de datos. Por último, la AEAT cuenta con Teseo para observar las relaciones existentes entre los contribuyentes, a modo de mapa de red social
  • 9. Clasificación de BigData  IBM propone un esquema de clasificación de características de BigData.
  • 10. Capas de BigData  IBM propone un esquema de clasificación de capas para una solución BigData.
  • 11. OpenSource Hadoop Open Source Desarrollado originalmente por Yahoo Administrado por Apache Software Foundation Diseñado para trabajar con petabytes de datos Pensado para implementarse con hardware económico Ofrece alta disponibilidad Escala horizontalmente Muchas tecnologías de desarrollo están basadas en Hadoop Buena aceptación en el mercado Curva de aprendizaje elevada No es una base de datos No es una aplicación en tiempo real The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple programming model
  • 12. Qué es Hadoop? La biblioteca de software Apache Hadoop es un framework que permite el procesamiento distribuido de grandes conjuntos de datos a través de grupos de computadores que utilizan modelos de programación simples. Hadoop está diseñado para escalar desde un servidor individual hasta miles de máquinas en cluster, cada una con capacidad de procesamiento y almacenamiento local. En lugar de confiar en el hardware para ofrecer alta disponibilidad, la biblioteca en sí está diseñada para detectar y controlar los errores en la capa de aplicación, por lo que la entrega de un servicio de alta disponibilidad como controlador de un cluster (grupo) de computadoras, cada una de las cuales pueden ser propensos a las fallas. Hadoop es básicamente procesamiento paralelo en forma masiva construido sobre un algoritmo de programación distribuida. Se basa en el paradigma de procesamiento económico: La información se procesa donde se encuentra.
  • 13. Cómo funcionaHadoop?  La clave de Hadoop es MapReduce, en la arquitectura de desarrollo los programadores deben "romper" el trabajo en distintos segmentos que deben cumplir las siguientes características:  Autónomos  Digeribles  Se debe poder procesar en forma independiente  Con la posibilidad de recuperarse a fallas en cualquier punto del proceso.
  • 14. MapReduce  MapReduce es un framework (modelo de programación) utilizado por Google para dar soporte a la computación paralela sobre grandes colecciones de datos en grupos de computadoras y al commodity computing. El nombre del framework está inspirado en los nombres de dos importantes métodos, macros, o funciones en programación funcional: Map y Reduce.  Las funciones Map y Reduce se aplican sobre pares de datos (clave, valor).  Map toma como entrada un par (clave,valor) y devuelve una lista de pares (clave2,valor2)  Esta operación se realiza en paralelo para cada par de datos de entrada.  Luego el framework MapReduce (como Hadoop MapReduce) agrupa todos los pares generados con la misma clave de todas las listas, creando una lista por cada una de las claves generadas.  Reduce se realiza en paralelo tomando como entrada cada lista de las obtenidas en el Map y produciendo una colección de valores
  • 15. MapReduce  La siguiente figura clarifica el funcionamiento de MapReduce
  • 16. MapReduce  El ejemplo clásico de MapReduce, la función para contar palabras.
  • 17. Cloudera  Es la empresa lider en desarrollo de tecnología BigData con productos OpenSource.  Su producto estrella es de código abierto, el mismo que es denominado CDH (Cloudera Distribution incluyendo Apache Hadoop), e incluye un conjunto de productos open source (Apache Hive, Apache Avro, Apache HBase, etc) que se combinan para formar la plataforma Hadoop  Cuenta en sus filas con el arquitecto diseñador de Hadoop, Dougg Cutting, el mismo que es una autoridad en el ámbito de tecnologías asociadas a BigData.  Cloudera ha logrado alianzas importantes con grandes compañías como HP, DELL, Cisco para el desarrollo y fortalecimiento de la plataforma Hadoop.  Son los impulsadores del proyecto Impala, el mismo que permite hacer una conjunción entre el análisis de datos estructurados y no estructurados, así como consultas en tiempo real reforzando el potencial y poder de BigData.
  • 18. Cloudera  La siguiente figura muestra la arquitectura referencial de Cloudera.
  • 19. Arquitectura Cloudera  La siguiente imagen muestra la arquitectura de Cloudera con un mayor nivel de detalle
  • 20. Cloudera  La siguiente muestra los componentes de la arquitectura de Cloudera
  • 21. Cloudera - Impala Impala es un motor open source de queries SQL interactivas para analizar datos almacenados en Hadoop en tiempo real. Las principales características de Impala son:  Rápida: permite ejecutar queries SQL en Hadoop en segundos  Flexible: permite hacer queries sobre datos sin procesar o formatos Hadoop  Integrado en Hadoop  Abierta  Extensible: certificado en aplicaciones BI como SAP, Microstrategy
  • 22. Cloudera - Impala La siguiente figura muestra la arquitectura de alto nivel de Impala:
  • 23. Latinus – Arquitectura de referencia Big Data La siguiente figura muestra la arquitectura propuesta de Latinus para implementaciones de Big Data
  • 24. Ejemplo de arquitectura de Big Data