Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

Exposicion big data

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Próximo SlideShare
Big data diapositivas
Big data diapositivas
Cargando en…3
×

Eche un vistazo a continuación

1 de 40 Anuncio

Más Contenido Relacionado

Presentaciones para usted (20)

Similares a Exposicion big data (20)

Anuncio

Exposicion big data

  1. 1. B I G D A T AB I G D A T A
  2. 2. (del inglés… grandes datos ) “conjuntos de datos que crecen tan rápidamente que no pueden ser manipulados por las herramientas de gestión de bases de datos tradicionales”.
  3. 3. En estos momentos hablamos de (aproximadamente): 1 terabyte (TB) = 1.000 gigabytes(GB) 1 petabyte (PB) = 1.000.000gigabytes (GB) 1 exabyte (EB) = 1.000.000.000 gigabytes (GB) 1 zettabyte (ZB) = 1.000.000.000.000 Gigabytes(GB) Una supercomputadora se habla de FLOPS(“ floating point operations per second”), es decir, la cantidad de operaciones que procesa por segundo…. teras y petas.
  4. 4. El IBM Institute for Business Value y la Saïd Business School de University of Oxford, introducen el concepto de las “4 V del BD” :
  5. 5. Volumen: las empresas están cubiertas de una cantidad cada vez mayor de datos de todo tipo, acumulando fácilmente terabytes, incluso petabytes, de información. Volumen: las empresas están cubiertas de una cantidad cada vez mayor de datos de todo tipo, acumulando fácilmente terabytes, incluso petabytes, de información. Velocidad: En ocasiones 2 minutos es demasiado. Para procesos que dependen especialmente del tiempo, como son identificar fraudes, Big data actúa en el sentido de potencializar la eficacia de los sistemas que son sensibles en tiempo. Velocidad: En ocasiones 2 minutos es demasiado. Para procesos que dependen especialmente del tiempo, como son identificar fraudes, Big data actúa en el sentido de potencializar la eficacia de los sistemas que son sensibles en tiempo. Variedad: Big data, es todo tipo de información, estructurada y no estructurada, como texto, lecturas de sensores, videos, clicks, archivos, logs y mucho mas. Y además, nuevos conceptos aparecen cunado se ponen diferentes tipos de archivos juntos. Variedad: Big data, es todo tipo de información, estructurada y no estructurada, como texto, lecturas de sensores, videos, clicks, archivos, logs y mucho mas. Y además, nuevos conceptos aparecen cunado se ponen diferentes tipos de archivos juntos. Veracidad: 1 de cada 3 lideres de negocios no confían en la información que utilizan para tomar decisiones. Como puede actuar en base a una información en la que no confías?. Establecer confianza en Big data representa un gran desafío conforme a la variedad y el numero de fuentes crece. Veracidad: 1 de cada 3 lideres de negocios no confían en la información que utilizan para tomar decisiones. Como puede actuar en base a una información en la que no confías?. Establecer confianza en Big data representa un gran desafío conforme a la variedad y el numero de fuentes crece.
  6. 6. ¿Quién genera esos grandes volúmenes de datos? Los medios y las redes sociales (todos nosotros estamos generando datos) Los instrumentos científicos (recogida de todo tipo de datos) Los dispositivos móviles (seguimiento de todos los datos todo el tiempo) Sensor de tecnología y redes (medición de todo tipo de datos)
  7. 7. Hay que prepararse: Por qué un evento de Big Data AHORA La explosión de datos no estructurados y las aplicaciones móviles generarán una gran oportunidad para la creación de valor en los negocios, ya que si estos datos se pueden gestionar y acceder de manera eficiente se convertirán en una ventaja competitiva y un apoyo al momento de tomar decisiones. El enorme crecimiento de datos hará que sea imposible replicar o realizar una copia de seguridad por medios tradicionales.
  8. 8. Cinco puntos que debería saber ¿Está ajustando su plan para “Big data”? 1. Haga un balance de sus datos:1. Haga un balance de sus datos: hacer un inventario de los datos creados internamente 2. Deje que prevalezcan las necesidades del2. Deje que prevalezcan las necesidades del negocio:negocio: es responsabilidad del área de TI de tomar control sobre cómo los conceptos de “Data Sharing” y “Data Federation” (muchas fuentes sin crear redundancia) 3. Reevalue la infraestructura3. Reevalue la infraestructura:: reunir estos sistemas dispersos y asilados y construir un sistema de sistemas.
  9. 9. 4. Estructure sus datos:4. Estructure sus datos: bases de datos en columnas y equipos para “data warehouses” (almacenes de datos) 5. Prepare a su equipo:5. Prepare a su equipo: expertos en Hadoop o científicos de datos HadoopHadoop es probablemente la tecnología para big data más conocida; es un marco de software de código abierto gratuito y ampliamente disponible que nació en el seno de Google y que es utilizado profusamente por Yahoo; desde entonces se ha convertido en el estándar de facto para el almacenamiento, procesamiento y análisis de cientos de terabytes e incluso peta bytes de datos.
  10. 10. El procesamiento masivo en paralelo (MPP) es lo que ha hecho a Hadoop tan popular; se pueden utilizar muchos procesadores informáticos funcionando en paralelo para analizar datos; las empresas pequeñas pueden utilizar sus redes de ordenadores de oficina para analizar datos complejos a un coste relativamente reducido.
  11. 11. Empresas dedicadas al servicio: es una compañía colombiana de base tecnológica dedicada a proveer productos y servicios de Investigación, Desarrollo e Innovación en tecnologías de la información, que permitan optimizar los procesos organizacionales de nuestros clientes.
  12. 12. Herramientas:Herramientas: SAS dio a conocer SAS Visual Analytics, que permite analizar una cantidad masiva de datos, explorar los datos a la velocidad de la vista y compartir nuevos insights (ideas) con cualquiera, en cualquier lugar, por medio de la web o un iPad. Entre más datos sean utilizados para el análisis, más precisos serán los resultados.
  13. 13. Apache Pig plataforma para el análisis de grandes conjuntos de datos lenguaje de alto nivel para expresar programas de análisis de evaluación. Tiene un compilador que produce secuencias MapReduce, que los usuarios de Hadoop analizan los datos y menos tiempo en desarrollar aplicaciones; el lenguaje es Pig Latin, crea estructuras tipo SQL (SQL-like), de manera que crea un script el cual es paralelizado y distribuido a través de un clúster.
  14. 14. Yahoo!, fue el creador de Pig, lo usa tanto para los procesos de búsqueda web como al incorporarlo en Hadoop; también están: LinkedIn: utiliza Hadoop y Pig para ofrecer recomendaciones de conocidos, páginas y empleos de interés. Twitter: utiliza Pig para procesar estos logs de datos AOL y WhitePages: Pig para filtrar registros en sus procesos de búsqueda de información. IBM InfoSphere BigInsights™: análisis de grandes volúmenes de información mediante Hadoop. Facilita la instalación, integración y seguimiento de esta tecnología de código abierto.
  15. 15. Bidoop, basándose en Hadoop, aporta un valor añadido en cuanto a las herramientas que utiliza, Ofrece los siguientes productos:
  16. 16. Software AG se ha basado en tecnología de Terracotta para lanzar su plataforma in-memory para la gestión del Big Data, denominada In-Genius, capaz de trabajar en entornos Oracle, SAP Hana y Hadoop; el sistema puede trasladar toda la información desde las tradicionales y lentas unidades de disco a memoria RAM de forma extremadamente rápida, permitiendo realizar análisis de cientos de terabytes de datos en arrays de memoria.. Todo ello en tiempo real.
  17. 17. Herramientas más punteras y que están jugando un mayor papel en lo referente a Big Data. Es una interfaz web que permite implementar y administrar clústers de Apache Hadoop. Su desarrollo está siendo dirigido por ingenieros de Hortonworoks, que incluyen en su plataforma de datos “Ambari Hortonworks”.
  18. 18. Es un sistema de serialización de datos optimizado para Hadoop/MapReduce. Es compacto, flexible y admitir varios lenguajes de programación, lo cual lo posiciona como una alternativa muy buena a los SequenceFiles (de Hadoop) o ProtoBuf (de Google).
  19. 19. es una BD distribuida desarrollada por Facebook. Para manejar grandes cantidades de datos distribuidos a través de servidores commodity, tiene como características un arquitectura de tipo "key/value", el no tener ningún punto único de fallo (SPOF), un método de replicación de información basado en "gossip protocol" y la problemática "eventual consistency".
  20. 20. Chukwa es un subproyecto dedicado a la carga masiva de varios ficheros texto dentro de un Clúster Hadoop (ETL). Se construye bajo el sistema de archivos distribuido (HDFS) y el marco MapReduce y hereda la escalabilidad y robustez de Hadoop. Incluye un conjunto de herramientas flexible y potente para la visualización y análisis de los resultados.
  21. 21. Flume es un marco para aportar datos a Hadoop. Los agentes están poblados de toda las infraestructura de TI - dentro de los servidores web, servidores de aplicaciones y dispositivos móviles, para recoger esos datos e integrarlos en Hadoop.
  22. 22. Hama es una plataforma de computación distribuida basada en técnicas computación paralela masiva para, por ejemplo cálculos científicos, matriz, gráfico y algoritmos de redes.
  23. 23. es una BD NoSQL; se trata de la versión java opensource de Hadoop de la famosa BBDD NoSQL de Google: BigTable. Principales características : Datos almacenados en columnas, sistema de versioning de los datos, consistencia de las escrituras y lecturas, recuperación automática en caso de fallos. Ha sido elegido por Facebook, entre otras cosas, para almacenar todos los correos de los usuarios de la misma plataforma.
  24. 24. (Hadoop Distributed File System), la capa de almacenamiento de Hadoop, es un sistema de fichero distribuido escrito en java, escalable, tolerante a fallos. HDFS es totalmente compatible con MapReduce y ofrecer la optimización de "localidad de los datos", lo cual lo convierte en la solución "natural" de Hadoop.
  25. 25. Impala es el nuevo motor de query desarrollado por Cloudera. Inspirado en software Dremel de Google, permite realizar consultas SQL muy parecidas a la sintaxis HQL de Hive, pero sin pasar por ningún proceso MapReduce. Esto le permite ser hasta 50 veces más rápido que Hive y lo transforma en la herramienta ideal para acceder a los datos en tiempo real.
  26. 26. (desarrollado por LinkedIn) Es un sistema distribuido de publicación- suscripción de mensajería que ofrece una solución capaz de manejar toda la actividad del flujo de datos y procesar estos datos en un sitio web de gran consumo. Este tipo de datos (páginas vistas, búsquedas y otras acciones del usuario) son un ingrediente clave en la web social actual.
  27. 27. MapReduce es un marco de software que sirve como capa informática de Hadoop. Los trabajos se dividen en dos: La función "Map" divide una consulta en múltiples partes y procesa los datos a nivel de nodo. “Reduce", como su nombre indica, reduce los agregados función de los resultados de la función "Map" para determinar la "respuesta" a la consulta.
  28. 28. Hadoop User Experience es proyecto de código abierto que crea un interfaz web, el cual facilita el uso de Apache Hadoop. Cuenta con un explorador de archivos para HDFS; una aplicación para la creación de flujos de trabajo en Oozie; un diseñador de trabajo para MapReduce; una interfaz de usuario Impala; una colección de Hadoop API; y mucho más.
  29. 29. R es un lenguaje y un entorno para computación y gráficos estadísticos. Es un proyecto GNU, que es similar al lenguaje S. R ofrece una gran variedad de estadísticas (modelos lineales y no lineales, tests estadísticos clásicos, análisis de series de tiempo, clasificación, clustering, ...) y las técnicas gráficas. Además es altamente extensible.
  30. 30. es un sistema de computación distribuida en tiempo real, libre y de código abierto, nacido en el seno de Twitter. Hace fácil procesar de manera fiable flujos no estructurados de datos, haciendo en el ámbito del procesamiento en tiempo real, lo que hizo Hadoop para el procesamiento por lotes.
  31. 31. Ejemplos de empresas que utilizan big data Big Data, la gran oportunidad para la banca: nadie parece realmente seguro de lo que es. ¿Cómo utilizar el Big Data?, ¿Big Data transformará el futuro del marketing financiero? utiliza herramientas Big Data para combatir el fraude en tiempo real: Aplicando diversos filtros de "Fraud Management“ desarrolló un proceso de detección de fraude basados en datasets masivos que son analizados.
  32. 32. Axa adopta Teradata Data Warehouse Appliance para iniciativas de Business Intelligence: AXA Bélgica, para ayudar a los empleados en las líneas del frente de la institución para tomar la mejor decisión posible “banco de inversiones y agente de bolsa”; Permite manejar petabytes de datos que no son escuchados en el mundo de las bases de datos tradicionales” dice el director ejecutivo de la empresa
  33. 33. hace que la sincronización de datos sea una tarea enorme Monitorización en tiempo real de los clientes para analizar sus patrones de compra: Con RetailNext, fue capaz de interpretar secuencias de vídeo digital y reconocer los seres humanos moviéndose a través de las tiendas, para medir el comportamiento del comprador en el interior de su entorno
  34. 34. El sector de la salud se "apunta" a la tecnología Big Data: Debido a la prisa en las salas de emergencia y la saturación de las plantas de hospitalización, muchos pacientes sólo reciben una rápida revisión de su salud Analizando los datos de pacientes para un mejor control médico: proyecta un servicio a empleados y consumidores con una operación de investigación con muchos datos, donde sus consumidores se vuelven pacientes responsables (e-pacientes) que pueden tomar mejores decisiones
  35. 35. San Diego Gas & Electric, intentando conectar clientes a smart grid: La iniciativa incluye un despliegue de 1,4 millones en medidores de electricidad inteligentes objeto de seguimiento en tiempo real Destaca la importancia del Big Data para su éxito: El presidente de la empresa afirma que sin la tecnología Big Data encontrar y explotar nuevas fuentes de recursos naturales sería casi imposible. El trafico de IT diario de es de1,5 Terabytes
  36. 36. El Big Data ayuda a predecir huracanes: investigadores de la Northwestern University y sus colaboradores han desarrollado un nuevo método basado en la análisis de datos masivos para pronosticarlos.
  37. 37. Big Data - DiseñosBig Data - Diseños Aplicaciones verticales Aplicaciones verticales Medios de Comunicación Medios de Comunicación Negocios Inteligentes Negocios Inteligentes Analítica y Visualización Analítica y Visualización Servicios de DatosServicios de Datos Aplicación para registro de datos Aplicación para registro de datos Infraestructura AnaliticaInfraestructura Analitica Infraestructura Operacional Infraestructura Operacional Infraestructura como un servicio Infraestructura como un servicio Estructura de Base de Datos Estructura de Base de Datos TecnologiaTecnologia
  38. 38. MUCHAS GRACIAS

×