Big Data es un concepto que hace referencia a un gran conjunto datos complejos, de formato heterogéneos y que donde las aplicaciones y mecanismos tradicionales de procesamiento no resultan ser los más adecuados para procesarlos. Los desafíos dentro del Big Data incluyen el análisis, la captura, la transformación de datos, búsqueda, intercambio, almacenamiento, transferencia, visualización y privacidad de la información.
Inmerso en este nuevo ecosistema de datos de gran tamaño y sin formato, se encuentra Apache Hadoop, un framework de Software desarrollado en un principio por Yahoo, y que ha sido y está siendo el standard de la industria para el procesamiento masivo de datos dentro de un cluster de computadores.
En el presente meetup realizamos una breve descripción de la arquitectura de este framwork y cómo Hadoop puede integrarse con otras diferentes soluciones empresariales. A su vez revisamos como grandes empresas tecnológicas han visto y apostado por Apache Hadoop como una herramienta para construcción de soluciones y procesamiento de datos en entornos de Big Data.
En esta presentacion explicamos el concepto de Big Data y Business Intelligence (Inteligencia de negocio), asi como tambien presentamos las herramientas basadas en software open source como son Hadoop y Pentaho que permiten implementar soluciones, hablamos de los ecosistemas disponibles y mas.
En esta presentacion explicamos el concepto de Big Data y Business Intelligence (Inteligencia de negocio), asi como tambien presentamos las herramientas basadas en software open source como son Hadoop y Pentaho que permiten implementar soluciones, hablamos de los ecosistemas disponibles y mas.
Hadoop es un framework Open Source diseñado para el almacenamiento de datos de manera distribuida. Su capacidad para gestionar rápidamente enormes cantidades de información lo han convertido en una de las mejores opciones para las aplicaciones Big Data, donde encuentra en las soluciones Cloud Computing a su mejor aliado. En este whitepaper te explicamos las principales características de Hadoop, sus componentes y casos de uso, para que puedas sacarle el máximo partido.
Más información en el blog de Arsys: https://www.arsys.es/blog
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
En esta presentación vemos los conceptos de Big Data y cómo podemos integrar las herramientas de BI de SQL Server 2012 con Hadoop y con HDInsigth Server y con PowerPivot.
Saludos
Ing. Eduardo Castro
Microsoft SQL Server MVP
Presentación introductoria al Big Data, y su aplicación en los negocios, impartida en la jornada organizada por Ascentic y PCTCAN en Santander, 12/05/2016
Big Data - Desarrollando soluciones efectivasJoseph Lopez
Como continuación a la presentación titulada "Introducción al mundo de las Bodegas de datos", esta presentación le explicará qué es Big Data y sus beneficios, incluyendo casos de uso. Así mismo, discutiremos cómo Hadoop, la nube y procesamiento masivamente paralelo (MPP) está cambiando la forma en los almacenes de datos se están construyendo. Hablaremos de arquitecturas híbridas que combinan datos in situ con datos en la nube, así como datos relacionales y no relacionales de datos (no estructurados). Veremos también los beneficios del MPP en SMP y cómo integrar datos desde dispositivos en la Internet (IoT). Aprenderemos también lo que debería verse como un almacén de datos moderno y cómo cuadra su papel de un mar de datos y Hadoop. Al finalizar esta exposición, tendremos una orientación sobre la mejor solución para el almacén de datos en el futuro.
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
Breve sinopsis sobre como comprender todo el escenario en la manipulación de datos procedentes del Big Data, de los Almacenes de Datos Empresariales con motor de datos SQL Azure bajo Plataforma BI
En esta presentación se incentiva el desarrollo de aplicaciones para la resolución de problemas comunes de hoy en día que implican el manejo de grandes volúmenes de información, desde el enfoque de Big Data.
Se propone la combinación de OpenStack y Hadoop para apoyar el desarrollo de soluciones, que permitan extraer información valiosa a partir de grandes volúmenes de datos.
Hadoop es un framework Open Source diseñado para el almacenamiento de datos de manera distribuida. Su capacidad para gestionar rápidamente enormes cantidades de información lo han convertido en una de las mejores opciones para las aplicaciones Big Data, donde encuentra en las soluciones Cloud Computing a su mejor aliado. En este whitepaper te explicamos las principales características de Hadoop, sus componentes y casos de uso, para que puedas sacarle el máximo partido.
Más información en el blog de Arsys: https://www.arsys.es/blog
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
En esta presentación vemos los conceptos de Big Data y cómo podemos integrar las herramientas de BI de SQL Server 2012 con Hadoop y con HDInsigth Server y con PowerPivot.
Saludos
Ing. Eduardo Castro
Microsoft SQL Server MVP
Presentación introductoria al Big Data, y su aplicación en los negocios, impartida en la jornada organizada por Ascentic y PCTCAN en Santander, 12/05/2016
Big Data - Desarrollando soluciones efectivasJoseph Lopez
Como continuación a la presentación titulada "Introducción al mundo de las Bodegas de datos", esta presentación le explicará qué es Big Data y sus beneficios, incluyendo casos de uso. Así mismo, discutiremos cómo Hadoop, la nube y procesamiento masivamente paralelo (MPP) está cambiando la forma en los almacenes de datos se están construyendo. Hablaremos de arquitecturas híbridas que combinan datos in situ con datos en la nube, así como datos relacionales y no relacionales de datos (no estructurados). Veremos también los beneficios del MPP en SMP y cómo integrar datos desde dispositivos en la Internet (IoT). Aprenderemos también lo que debería verse como un almacén de datos moderno y cómo cuadra su papel de un mar de datos y Hadoop. Al finalizar esta exposición, tendremos una orientación sobre la mejor solución para el almacén de datos en el futuro.
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
Breve sinopsis sobre como comprender todo el escenario en la manipulación de datos procedentes del Big Data, de los Almacenes de Datos Empresariales con motor de datos SQL Azure bajo Plataforma BI
En esta presentación se incentiva el desarrollo de aplicaciones para la resolución de problemas comunes de hoy en día que implican el manejo de grandes volúmenes de información, desde el enfoque de Big Data.
Se propone la combinación de OpenStack y Hadoop para apoyar el desarrollo de soluciones, que permitan extraer información valiosa a partir de grandes volúmenes de datos.
Amid uncertain economic times, U.S. employees expressed continued optimism about the direction of their companies and loyalty to their employers, according to the second annual employee engagement survey conducted by APCO Worldwide and Gagen MacDonald.
The survey results, however, indicate employees continue to believe their employers are not nearly as committed to them. There also is a widening gap between the perceived performance of CEOs and immediate supervisors, with employees expressing far more confidence in the performance of and communication from middle managers.
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
http://university.solidq.com
Introducción a Big Data. Gracias a la nueva tecnología Microsoft Hadoop, tanto on-premise como en la nube, y a sus capacidades de almacenamiento, procesamiento y escalabilidad, podemos analizar grandes volúmenes de datos del orden de Terabytes o Petabytes de una forma rápida y con buen rendimiento. Es ahora el momento de familiarizarnos con la nueva forma de trabajar en Hadoop a la hora de extraer esa información distribuida por nuestros nodos. De la misma forma que hacemos con SQL Server, en esta sesión aprenderemos a desplegar y almacenar esa información en nuestros nodos, a crear consultas para extraer las partes que nos sean más útiles.
http://summit.solidq.com
Es innegable que los motores de BBDD transaccionales deben adaptarse a la posibilidad de gestionar datos no estructurados. Microsoft en SQL Server 2016 incluye un motor nuevo (llamado Polybase) que permite acceder con lenguaje Transact SQL a datos no estructurados y poder mezclarlos con datos estructurados. En esta sesión conocerá este nuevo motor y cómo empezar a integrar datos no estructurados en sus bases de datos transaccionales.
Charla impartida por Marco Antonio Sanz Molina Prados, Fundador de CloudAppi, que repasa las tecnologías más habituales del mundo Big Data y su aplicación en el desarrollo de las Apis.
En la ponencia se tratan os siguientes puntos:
• Arquitectura Lambda
• Arquitectura de APIs
• Bases de datos noSQL
• Datawarehouses Big Data
• Ejemplos de arquitecturas
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ
Presentación de Javier Torrenteras en el SolidQ Business Analytics Day en Valencia (España)
- ¿Por qué Big data?
- Entonces...Haddoop ¿Qué es?
- ventajas y Componentes de Hadoop
-HD Insight, Windows Azure HDInsight
-Grandes DW
www.bisql.com
Profundo análisis de las tecnologías Big Data y como aplicarlas en el desarrollo de las Apis. Se analizan las bases de datos noSQL y aquellas tecnologías (Storm, Hadoop...) que pueden ayudar al desarrollo. Además, se analizan ejemplos de arquitecturas de Apis Big Data y como se han aplicado estas tecnologías.
Presentación de la conferencia CorunaDev 2015 ( Coruña developers)
El Big Data ha llegado para quedarse. Y lo está cambiando todo. Cualquier aplicación reciente necesita funcionalidades Big Data. Hacer aplicaciones como antes tiene cada vez menos sentido.
Y sí, *como programador te afecta. Y mucho.*
Las opciones de almacenamiento, paralelización, concurrencia, escalabilidad o arquitecturas de aplicación están evolucionado rápidamente.
Programación reactiva, microservicios, cassandra, hadoop, spark,
¿Te atreves a ponerte al día en 40 min?
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Primera Sesión sobre el Curso de Enpresa Digitala "Monta una Infraestructura Big Data en tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea. Hablaremos de Hadoop y de su ecosistema de herramientas.
Conociendo los servicios adicionales en big dataSpanishPASSVC
Todos han empezado a usar y a conocer Hadoop y HDInsight, en parte los lenguajes usados para su consumo, pero poco se hablado de los servicios complementarios que pueden enriquecer la experiencia BigData, conozca estos servicios y su aplicación.
An Evening with Agile lean design_thinkingArkhotech
"Nuestros equipos de tecnología están aprendiendo ágil. Nuestros equipos de productos están aprendiendo lean y nuestros equipos de diseño están aprendiendo design Thinking. ¿Cuál es la correcta?"
Daremos un enfoque pragmático para así entender la mejor forma de adoptar una estrategia clara e integral para nuestros productos digitales.
En la primera sesión de Microservicios vimos el origen de esta arquitectura, conceptos básicos, y discutimos sobre sus beneficios y diferencias con arquitecturas tradicionales y otras con algunos rasgos similares. Finalmente revisamos un pequeño ejemplo de funcionamiento con Eureka.
Ahora, en esta segunda sesión se analizará un proyecto de ejemplo utilizando diferentes devops que nos permitirán no sólo la implementación sino además ejemplos reales de escalimiento. Será una sesión donde nos pondremos el overol y nos ensuciaremos las manos. Es tiempo de programar!
Rust es un nuevo lenguaje de programación orientado a velocidad y seguridad. ¿Qué es? ¿Cómo funciona? ¿Porque lo aman tanto?. Estos fueron los conceptos y características que lo hacen único, y que analizamos en nuestro meetup.
Go es un lenguaje de programación de código abierto lanzado por Google en 2009, creado con la motivación de manejar el nivel de programación que tiene Google en cuanto a número de líneas de código y la cantidad de ingenieros que trabajan en el código. Además, para facilitar la interconexión de programas dentro de sistemas distribuidos de miles de máquinas.
En este meetup revisamos este lenguaje, sus principales características, qué empresas lo usan, cómo dar los primeros pasos y una aplicación de ejemplo.
Docker, una tecnología en creciente desarrollo y adopción, ha revolucionado con un nuevo paradigma la forma en la que se desarrollan y se despliegan las aplicaciones de software.
Esta tecnología ha facilitado el desarrollo de microservicios, al encapsular ambientes y aplicaciones, junto con la promesa de correr en cualquier lugar y sin importar la plataforma.
En este meetup nos concentraremos en comprender qué es docker y su medio ambiente de ejecución; pasaremos por contenedores, compose y plataformas para alta disponibilidad con docker swarm.
An evening with "Rework" - Reinventando nuestra forma de trabajarArkhotech
En esta sesión revisamos algunas reflexiones sobre la lectura del libro "Rework" de 37signals, compañía creadora del framework Ruby on Rails y del software de gestión de proyectos Basecamp.
La motivación es reinventar la forma de trabajar por lo que en algunos contextos se consideraría una anti-forma de trabajo;
Su contraportada resume en gran parte su línea editorial:
- ASAP is poison
- UNDERDO the competition
- Meetings are TOXIC
- Fire the WORKAHOLICS
- Emulate DRUG Dealers
- Pick a FIGHT
- Planning is GUESSING
- Inspiration is PERISHABLE
An evening with... Microservices - Session 1Arkhotech
Si bien la tecnología de microservicios tiene ya un par de años, su uso más formal con implementaciones importantes en ambientes productivos es bastante reciente. En este meetup se hará un introducción mundo de los microservicios comenzando por los aspectos más teóricos, pasando por la descripción de arquitectura y buenas prácticas, para finalizar con un ejemplo práctico de implementación y un primer acercamiento al escalamiento.
Scrum es un framework que permite entregar el máximo valor, mediante iteraciones cortas y de gran colaboración. Scrum permite adaptar los equipos a las condiciones complejas de la construcción de productos y del entorno.
En este meetup revisamos lo que SCRUM consiste como marco de trabajo, sumado a nuestra experiencia en el desarrollo de proyectos de software y el por qué consideramos es tan importante hoy en día en el mercado
Liquibase es un librería Open Source basada en Java, que independiente del motor de base de datos, permite hacer un seguimiento centralizado a los constantes cambios que sufren los modelos de datos (sobre todo en la etapa de desarrollo) y facilitan la vida cuando tenemos múltiples ambientes de trabajo (Producción, pre-producción, desarrollo, QA, ...).
En este meetup revisamos desde la teoría a la práctica, desarrollando algunos ejemplos con diferentes niveles de complejidad.
Además revisamos cómo un equipo de desarrollo se puede ver beneficiado con el uso de esta herramienta y cómo es posible integrar su uso a procesos de integración continua.
DevOps es un conjunto de prácticas que automatizan los procesos entre el desarrollo de software y los equipos de infraestructura, de manera que el software pueda ser construido, probado y puesto en producción más rápidamente y con la misma confiabilidad.
El concepto de DevOps esta fundamentado en la construcción de una cultura de colaboración entre equipos que históricamente son silos. Los beneficios aparentes incluyen confianza mutua, más rápidos ciclos de puesta en producción, habilidad para resolución de incidentes más rápidamente y mejor adaptación a los cambios.
En esta sesión revisamos conceptos clave de DevOps, el estado del arte y algunas de las tecnologías involucradas.
An evening with ... Ionic Framework Meetup Arkhotech
Ionic es un framework de desarrollo híbrido móvil de amplio uso en la industria. Entre sus principales características se destacan el desempeño, integración con AngularJS, similitud de interfaces finales con las nativas y el soporte a integración de hardware vía Apache Cordova.
En este meetup usamos un proyecto real Ionic creado para uno de nuestros clientes, para analizar todo el proceso de construcción (de más de 3 meses), conociendo las principales características de la implementación y todos las experiencias que enfrentamos en este reto de equipo. Revisaremos todo lo que hicimos: la estructura de equipo, tecnologías, método de trabajo, obstáculos, etc. compartiendo con los asistentes el caso de éxito de una experiencia real.
El objetivo de la gestión de procesos de negocio (BPM, Business Process Management por sus siglas en inglés), es mejorar su desempeño (eficiencia y eficacia) y optimizacion dentro de una organización. Para esto, los procesos deben ser diseñados, modelados, organizados, documentados y modularizados de forma continua, permitiendo determinar puntos de fallo y acelerando la automatización para la reducción de los riesgos.
Para el logro exitoso de este enfoque en una organización, es necesario llevar a cabo un gran cambio, migrando desde una operación funcional a una operación gestionada por procesos. Esta nueva operación, debe contar con el soporte de un conjunto de herramientas para cumplir con el ciclo de vida de BPM, éstas son comunmente llamadas Business Process Management Software (BPMS).
En este meetup, analizamos las funcionalidades Jboss BPM Suite de Redhat, y mostramos con un demo simple, como se comporta en la realidad, desde la definición de un proceso hasta la interacción con el usuario final.
An evening with... Continuous Integration and Bamboo intro MeetupArkhotech
Si bien en la actualidad existen variadas técnicas y metodologías que permiten agilizar el desarrollo de aplicaciones, aún hay procesos dentro del ciclo de desarrollo que significan no sólo una enorme inversión de tiempo (que crece exponencialmente según el tamaño del proyecto) sino que tienden a ir en desmedro de la calidad producto, a pesar de la buena intención de los equipos de desarrollo de avanzar lo más rápido posible.
El proceso de integración continua pretende precisamente atacar esta problemática mediante la automatización de las tareas de despliegue y pruebas, lo que permitirá no sólo disminuir los retrasos (entiéndase también H/H) resultantes entre despliegue y despliegue sino que permitirá también realizar de forma inmediata y "sin esfuerzo" las pruebas necesarias para mantener la calidad de nuestro software.
En este meetup pretendemos dar una visión global del concepto de Integración Contínua CI y el uso de algunas herramientas que nos ayudarán a comenzar en este mundo.
Los marcos de trabajo ágiles como Scrum y Kanban, son de uso ampliamente conocido en la industria del desarrollo. Para gran parte de nosotros, no es desconocido el tradicional ciclo incremental y de retroalimentación continua de Scrum y la forma en que el trabajo es completado, por un equipo con objetivos comunes en un Sprint.
No obstante, menos conocido es el hecho del conocimiento y uso de métricas ágiles, en apoyo a la retroalimentación objetiva. Las métricas de agile permiten a los equipos construir hábitos de mejoramiento continuo, ayudan a visualizar el trabajo y la efectividad, y facilitan la identificación de debilidades, mediante el monitoreo de la experimentación.
Las métricas no deben ser usadas en reemplazo de la comunicación directa y continua: son más bien usadas para iniciar una conversación. Las mediciones objetivas ayudan a los equipos a tomar decisiones correctivas, para alinearse mejor a los objetivos y crear un ecosistema de crecimiento, más adecuado para el proyecto y equipo. Las métricas son de especial importancia en equipos y organizaciones, que inician una transición a métodos ágiles, pues proporcionan información objetiva y concreta, respecto de las iniciativas.
En esta presentación, conoceremos acerca de las métricas ágiles como Velocity, Feature Progression, Backlog Health, etc., estableciendo su propósito, forma de medición, aspecto de proyecto que retroalimentan y la forma en que apoyan a la creación de un equipo verdaderamente ágil.
Polymer fue anunciado por Google y nació con el propósito de permitir trabajar a los desarrolladores con web components así como con las low-level APIs (HTML imports, shadow DOM, HTML templates y custom elements) antes de que estas funcionalidades estuvieran soportadas por los navegadores.
La idea era facilitar el trabajo con web components dentro de un sólido entorno de desarrollo. En este meetup revisamos estos estándares, en donde Polymer simplifica y acelera la creación de cualquier elemento, desde un botón a una aplicación completa en desktop y en móvil.
La personalización en internet permite crear experiencias consistentes, únicas y relevantes para los usuarios. Esta estrategia, desempeña un papel fundamental en contextos de negocio como e-commerce (por ejemplo en retails, telecomunicaciones, etc.), en el cual las experiencias personalizadas, tienen mayor probabilidad de aumentar la conversión. Oracle Endeca Guided Search, un motor de indexación y búsqueda word-class, proporciona características asociadas a la personalización y la facilidad de búsqueda de contenido por múltiples factores y características. Oracle Endeca Experience Manager, permite definir reglas de negocio para personalización del comportamiento de un sitio. Ambas herramientas partes de la suite de Oracle Customer Experience, representan un rol crítico en el logro de iniciativas de negocio en internet.
En este meetup, dimos un vistazo a las principales características de estos dos productos, compartiendo información técnica y analizando oportunidades de negocio. Finalmente, revisamos un demo funcional de las dos suites, analizando en la práctica las características más relevantes de estos productos.
As more of the world goes online, including the physical world, the more opportunity there is for enterprises (and consumers) to use data in new ways. The “Third Platform” of the digital age, a platform built upon a foundation of cloud computing, mobility, social networking, and big data.
The need to analyze and handle data in new an improved ways, the NoSQL databases are now here. Characterized by not using the relational model, running well on clusters and using schema-less technologies, they are built for the 21st century.
In this presentation we explore basic concepts for different kinds of NoSQL Databases (Wide column, Document, Graph and Key-Value store) and we explore MongoDB, a leading Document base NoSQL implementation.
Escaneo y eliminación de malware en el equiponicromante2000
El malware tiene muchas caras, y es que los programas maliciosos se reproducen en los ordenadores de diferentes formas. Ya se trate de virus, de programas espía o de troyanos, la presencia de software malicioso en los sistemas informáticos siempre debería evitarse. Aquí te muestro como trabaja un anti malware a la hora de analizar tu equipo
Si bien los hospitales conjuntan a profesionales de salud que atienden a la población, existe un equipo de organización, coordinación y administración que permite que los cuidados clínicos se otorguen de manera constante y sin obstáculos.
Mario García Baltazar, director del área de Tecnología (TI) del Hospital Victoria La Salle, relató la manera en la que el departamento que él lidera, apoyado en Cirrus y Estela, brinda servicio a los clientes internos de la institución e impulsa una experiencia positiva en el paciente.
Conoce el Hospital Victoria La Salle
Ubicado en Ciudad Victoria, Tamaulipas, México
Inició operaciones en el 2016
Forma parte del Consorcio Mexicanos de Hospitales
Hospital de segundo nivel
21 habitaciones para estancia
31 camas censables
13 camillas
2 quirófanos
+174 integrantes en su plantilla
+120 equipos médicos de alta tecnología
+900 pacientes atendidos
Servicios de +20 especialidades
Módulos utilizados de Cirrus
HIS
EHR
ERP
Estela - Business Intelligence
Los desafíos de calidad de software que nos trae la IA y los LLMsFederico Toledo
En esta charla, nos sumergiremos en los desafíos emergentes que la inteligencia artificial (IA) y los Large Language Models (LLMs) traen al mundo de la calidad del software y el testing. Exploraremos cómo la integración, uso o diseño de modelos de IA plantean nuevos retos, incluyendo la calidad de datos y detección de sesgos, sumando la complejidad de probar algo no determinístico. Revisaremos algunas propuestas que se están llevando adelante para ajustar nuestras tareas de testing al desarrollo de este tipo de sistemas, incluyendo enfoques de pruebas automatizadas y observabilidad.
2. • Un espacio para compartir
experiencias y conocimiento
• Un espacio para hacer relaciones
entre equipos con intereses afines
• Un espacio para pasarla bien
Gracias por su asistencia!!!
3. Agenda
1.Qué es ? Introducción Apache Hadoop.
2.MapReduce.
3.Integración Apache Hadoop y otras plataformas.
4.Escenarios claves.
5.Hadoop as a service (HaaS).
6.Hadoop en la industria de la salud.
5. Introducción Apache Hadoop
• Framework Open Source que permite el procesamiento distribuido de grandes volúmenes de
datos a través de un cluster de servidores.
• Data mining utilizando clustering.
• Diseñado para escalar desde uno a varios servidores.
• Fault tolerance, High Available Service
• Procesamiento paralelo masivo de datos no estructurados.
9. Componentes principales
• Job Tracker
• Administra la ejecución de los trabajos en cada uno de
los nodos
• Mantiene información de nodos: cercanía, carga datos
• Sabe donde esta la información
• Reprograma las tareas fallidas
• Task Tracker
• Es el encargado de ejecutar la tarea
• Fair Scheduler:
• Encargado de organización del trabajo
• Distribución de los trabajos en pool y colas
10. HDFS
• Principalmente es un sistema de archivos distribuido
• Fue diseñado para se usado con Hardware Básico
• Tiene la capacidad de almacenar un archivo gigante en varias maquinas
• Existe redundancia para tolerar fallos
• Hadoop tiene una interfaz de comandos para usar con HDFS
• Tal como unix también tiene la capacidad de usar permisos de archivos
11. • Namenode
• Es el master de todos los nodos
• Maneja la metadata. ( nombres de archivos y rutas por ejemplo)
• Regula el acceso a los archivos
• Controlas las operaciones de I/O
• Datanode
• Mantienen la información concretamente
• Es donde se ejecutan las operaciones de lectura-escritura
• Bloque
• Es la unidad de almacenamiento de HDFS.
• Tamaño por defecto 64MB, normalmente es 128MB. Más de 512MB no recomendable.
HDFS
13. 2. MapReduce
• Modelo de programación para procesamiento de gran volumen de datos.
• Divide el procesamiento en dos faces: map() & reduce()
• Estructurados en tuplas del tipo (clave, valor)
• La función map() se ejecuta en todas las máquinas del cluster.
• El resultado de la función map() es utilizado como input de la función reduce()
15. 3. Integración Apache Hadoop y
otras plataformas
• Conciliación de datos estructurados y no-estructurados (web logs,
datos de maquina, datos no estructurados, censores, audio, video,
imágenes, etc).
• Procesamiento batch donde el tiempo de procesamiento es menos
crítico para el negocio.
• Proveer storage de bajo costo y procesamiento de grandes
volúmenes de datos.
16. Integración Apache Hadoop y otras
plataformas
• Procesamiento complejo a gran velocidad.
• Permite evaluar consultas que no son fácilmente expresadas
mediante SQL.
• BI y minería de datos y en donde procesos de negocio pueden
cambiar rápidamente o generar muchos datos en poco tiempo.
23. Hadoop as a Flexible Data Store
Escenario Descripción Caso de uso Comentario
Datos referenciales Copia de grandes data sets de datos
referenciales
Encuestas, información geo- referencial,
datos meteorológicos
Almacenar datos en un solo lugar
para facilitar el proceso analítico
Auditoria y análisis
de riesgo
Captura de eventos de negocio desde
múltiples fuentes para un posterior
análisis de riesgo y auditoria.
Transacciones de desde sistemas ERP u
otros sistemas externos (ej, call
centers).
Correlacionar y analizar datos
desde sistemas externos para
ayudar en la identificación de
riesgos
Repositorio de
documentos
Captura y almacenamiento de
documentos generados o recibidos por
el negocio
Medicina, aseguradoras o cualquier otra
industria que deba generar documentos
y ser almacenados por largos periodos.
Almacenar un numero ilimitados
de documentos utilizando por
ejemplo Hbase.
Data archive Captura de logs históricos que de otra
forma serian enviados a sistemas de
almacenamiento off-line
Logs de sistemas. Menor costo comparado con otras
soluciones de almacenamiento
convencional.
25. Hadoop as a simple database
Escenario Descripción Caso de uso Comentario
ETL desde otros sistemas hacia
Hadoop
Ingresar data hacia Hadoop
desde sistemas externos
tal como SAP HANA o algún
data warehouse.
Combinar datos en fuentes
analíticas con datos desde
Hadoop.
SAP Data Service provee ETL
para transferencia de datos
desde Hadoop.
Disponer de una base de datos
para el almacenamiento de
volúmenes de documentos de
gran tamaño
Rápido almacenamiento y
recuperación de “blobs”
utilizando HBase
Almacenamiento de archivos
PDF, imágenes o video.
Esta funcionalidad es utilizada
por Facebook para para
almacenar y recuperar datos.
27. Hadoop as a processing engine
Escenario Descripción Caso de uso Comentario
Minería de datos Búsqueda de patrones, clustering y
correlaciones de datos almacenados en
Hadoop
Análisis de comportamiento de
clientes a través de diversos
sistemas. Análisis de datos de
máquina para mantenimiento
preventivo
Utilización de Mahout en
conjunto con Hadoop
Análisis de riesgo Búsqueda de patrones en datos dentro de
Hadoop que sugiera comportamiento de
riesgo
Gestión de riesgo, análisis de
fuga, transacciones fraudulentas.
DM puede ayudar en la
identificación de patrones de
comportamiento riesgoso.
Identificación de
diferencia en los datos
Identificación de diferencia en data sets
similares y de gran volumen
Identificación de diferencias en
cadenas de ADN
MapReduce puede ser mas rápido
que los enfoques tradicionales.
29. Hadoop for data analytics
Escenario Descripción Caso de uso Comentario
Client-side federation Aplicaciones BI ejecutan consultas de
forma separada y consolidan resultados
en otras plataformas tales como SAS
Enterprise Miner
Cualquier caso de procesamiento analítico
en donde los datos a ser analizados se
encuentran en Hadoop y además en otro
sistema.
Práctico cuando el volumen de
datos retornado por Hadoop es
relativamente pequeño.
Stand-alone federation Aplicaciones BI analizan data
directamente en Hadoop
Cualquier caso de procesamiento analítico
en donde los datos a ser analizados se
encuentran en Hadoop
Útil cuando el análisis de los datos
se realiza en diferentes fuentes.
Query-federation El DW consulta a diferentes fuentes
para luego consolidar y combinar los
resultados.
Cualquier caso de procesamiento analítico
en donde los datos a ser analizados se
encuentran en Hadoop y además en otro
sistema.
Útil cuando los datos retornados por
Hadoop son de gran tamaño.
31. Hadoop As a Service (HAaS)
• Solución de cloud computing que hace el procesamiento de datos de
gran escala accesible, fácil y económico.
• Oportunidad para clientes que no cuentan con el “know how” y/o
infraestructura necesaria.
32. Hadoop As a Service (HAaS)
Deplegar Hadoop en minutos
Proporcionar una
plataforma distribuida y
tolerante a fallas
Plataforma integrada de
backup y DR
Almacenar, procesar y
analizar gran volumen de
datos del tipo relacionados y
no-relacionados
Foco está en el desarrollo
de aplicaciones y
responder preguntas
complejas del negocio
Pagar solo por el poder
de computo y no en la
adquisición de HW
Escalamiento a la medida
de los requerimientos del
negocio
33. 7. Hadoop en la industria de la salud
• Gran cantidad de datos
heterogéneos.
• Registro de sintomatología.
• Hallazgos médicos.
• Medicación y seguimiento.
• Historiales médicos.
Síntomas
Medicamentos
Historial clínico
Exámenes
Big Data
Analytics
Evidencia
Reducción
de costos
Mejora en el
diagnostico
34. Hadoop en la industria de la salud
• Procesamiento de imágenes (HIPI – Hadoop Image Processing Interface)
• Almacenamiento de bajo costo y alto poder de computo.
• Posibilidad de realizar procesamiento analítico sobre el cluster.
• La industria requiere de análisis en tiempo real.
• Necesidad de aplicar el proceso KDD (Knowledge Discovery in Databases) para
identificar patrones validos y útiles tanto para los pacientes como para los médicos.
• Almacenamiento en la nube potencia soluciones de HAaS.
35. • Monitoreo constante de los efectos de tratamiento médico.
• Diagnóstico asistido.
• Detección de fraudes .
• Monitoreo de pacientes.
• Análisis de imágenes.
• Repositorio de referencia a búsquedas de enfermedades y síntomas de pacientes.
• Análisis de laboratorio.
Hadoop en la industria de la salud