En esta presentación se incentivará el desarrollo de aplicaciones para la resolución de problemas comunes de hoy en día que implican el manejo de grandes volúmenes de información, desde el enfoque de Big Data.
Se propone la combinación de OpenStack y Hadoop para apoyar el desarrollo de soluciones, que permitan extraer información valiosa a partir de grandes volúmenes de datos.
Openstack es un proyecto global para crear una plataforma de cómputo en la Nube para desplegar tanto nubes públicas como privadas, independientemente de su tamaño, que sea fácil de implementar y masivamente escalable. Por otra parte, Hadoop es una plataforma para el procesamiento distribuido de enormes conjuntos de datos. Tanto OpenStack como Hadoop son de código abierto y están desarrollados en Python y Java, respectivamente.
Al finalizar la presentación, el oyente tendrá un panorama general de cómo utilizar la nube y un entorno de almacenamiento distribuido, en concreto, OpenStack y Hadoop para hacer frente a problemas de Big Data.
Víctor Barrera es ingeniero con estudios de posgrado en toma de decisiones basada en datos y modelos estadísticos. Actualmente se desempeña como Científico de Datos en KIO Networks.
Guillermo Alvarado es Ingeniero en sistemas computacionales con especialidad en ingeniería de software, egresado del Instituto Tecnológico de Morelia. Actualmente se desempeña como DevOps en la Dirección de Tecnología en KIO Networks donde participa en el despliegue de la nube pública de KIO Networks basada en la tecnología OpenStack.
Introducción a Hadoop y sus herramientas. Presentación de las herramientas de integración que ofrece SQL Server Integration Services 2016 con Hadoop y HDInsight
Taller sobre la creación de un clúster de Apache Hadoop y aplicaciones de su entorno de las XIII Xornadas Libres de Gpul en la Universidade da Coruña http://gpul.es/e/2014/xornadas-libres/
Introducción a Hadoop y sus herramientas. Presentación de las herramientas de integración que ofrece SQL Server Integration Services 2016 con Hadoop y HDInsight
Taller sobre la creación de un clúster de Apache Hadoop y aplicaciones de su entorno de las XIII Xornadas Libres de Gpul en la Universidade da Coruña http://gpul.es/e/2014/xornadas-libres/
Tutorial Introductorio a Big Data, Hadoop y sus tecnologías asociadas (Hive, Pig, HBase, HDFS), etc. Presentado en el XVIII Congreso Iberoamericano de Ingenieria del Software (CIBSE). Peru. Lima. Abril del 2015.
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
Abstract de la charla realizada en SUGAR - Scala User Group Argentina
Apache Spark [1] es un framework para procesamiento distribuído diseñado para ser amigable para Data-Scientists y programadores, con soporte nativo a muchos lenguajes y diversidad de formatos de datos es extramadamente flexible. Cambiando el modelo establecido por Hadoop v1 de Map-Reduce por un grafo de ejecución (DAG) y manteniendo los pasos intermédios en RAM, Spark brinda excelente performance y una API muy expresiva.
Gustavo Arjones [2], CTO de Socialmetrix, va contar la experiencia que tuvieron al cambiarse de Hadoop a Spark y lo que los llevaron a este cambio. Esta charla es una introducción teorica y practica a Spark y sus distintos componentes.
Los tópicos a discutir son:
• Qué és?
• Aspectos que hacen Spark tan atractivo para la comunidad
• Plataforma unificada para Data Science (Batch, Stream, ML, Graph)
• Soporte a distintos lenguajes
• Ejecución: RDD y DAG / Task Scheduller
• Tracción de la comunidad (# commits, # commiters)
• testing, etc
• Demos:
• Spark-shell: Explicar paso a paso el WordCount
• LogAnalytics - compilar y submeter al cluster
• SQL/DataFrames: Demostrar que se puede consumir directamente JSON y hacer queries con SQL
[1] http://spark.apache.org
[2] https://linkedin.com/in/arjones
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
Breve sinopsis sobre como comprender todo el escenario en la manipulación de datos procedentes del Big Data, de los Almacenes de Datos Empresariales con motor de datos SQL Azure bajo Plataforma BI
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
Tercera y última sesión del curso "Monta una Infraestructura para Big Data en tu Empresa" impartida por Urko Zurutuza de Mondragon Unibertsitatea para Enpresa Digitala. En esta sesión se muestran ejercicios prácticos y guiados que darán pie a probar algunas de las herramientas que dispone la distribucion Hadoop Cloudera CDH5.
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Primera Sesión sobre el Curso de Enpresa Digitala "Monta una Infraestructura Big Data en tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea. Hablaremos de Hadoop y de su ecosistema de herramientas.
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
Segunda parte del Taller "Monta una Infraestructura Big Data para tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea en Enpresa Digitala. En esta segunda parte, se aborda la instalación de un cluster mediante Cloudera Manager 5
Tutorial Introductorio a Big Data, Hadoop y sus tecnologías asociadas (Hive, Pig, HBase, HDFS), etc. Presentado en el XVIII Congreso Iberoamericano de Ingenieria del Software (CIBSE). Peru. Lima. Abril del 2015.
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
Abstract de la charla realizada en SUGAR - Scala User Group Argentina
Apache Spark [1] es un framework para procesamiento distribuído diseñado para ser amigable para Data-Scientists y programadores, con soporte nativo a muchos lenguajes y diversidad de formatos de datos es extramadamente flexible. Cambiando el modelo establecido por Hadoop v1 de Map-Reduce por un grafo de ejecución (DAG) y manteniendo los pasos intermédios en RAM, Spark brinda excelente performance y una API muy expresiva.
Gustavo Arjones [2], CTO de Socialmetrix, va contar la experiencia que tuvieron al cambiarse de Hadoop a Spark y lo que los llevaron a este cambio. Esta charla es una introducción teorica y practica a Spark y sus distintos componentes.
Los tópicos a discutir son:
• Qué és?
• Aspectos que hacen Spark tan atractivo para la comunidad
• Plataforma unificada para Data Science (Batch, Stream, ML, Graph)
• Soporte a distintos lenguajes
• Ejecución: RDD y DAG / Task Scheduller
• Tracción de la comunidad (# commits, # commiters)
• testing, etc
• Demos:
• Spark-shell: Explicar paso a paso el WordCount
• LogAnalytics - compilar y submeter al cluster
• SQL/DataFrames: Demostrar que se puede consumir directamente JSON y hacer queries con SQL
[1] http://spark.apache.org
[2] https://linkedin.com/in/arjones
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
Breve sinopsis sobre como comprender todo el escenario en la manipulación de datos procedentes del Big Data, de los Almacenes de Datos Empresariales con motor de datos SQL Azure bajo Plataforma BI
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
Tercera y última sesión del curso "Monta una Infraestructura para Big Data en tu Empresa" impartida por Urko Zurutuza de Mondragon Unibertsitatea para Enpresa Digitala. En esta sesión se muestran ejercicios prácticos y guiados que darán pie a probar algunas de las herramientas que dispone la distribucion Hadoop Cloudera CDH5.
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Primera Sesión sobre el Curso de Enpresa Digitala "Monta una Infraestructura Big Data en tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea. Hablaremos de Hadoop y de su ecosistema de herramientas.
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
Segunda parte del Taller "Monta una Infraestructura Big Data para tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea en Enpresa Digitala. En esta segunda parte, se aborda la instalación de un cluster mediante Cloudera Manager 5
JavaOne 2016: Code Generation with JavaCompiler for Fun, Speed and Business P...Juan Cruz Nores
On-the-fly bytecode generation is generally known to be super efficient, but also super difficult to implement and debug. Instead of trying to generate bytecode for the JVM, you can leverage the built-in Java compiler; generate Java code as a string, compile that to bytecode and then have that executed. This gives you better code efficiency, is easier to implement, and is straight-forward to debug. We’ll cover on-the-fly code generation, execution and debugging, working with HotSpot and G1 using dynamic code, as well as how to optimize for engineer implementation time; maximum gain in minimum time. We’ll use practical examples and code snippets, so you can be ready to make the core processing for your business 10x faster.
El Cloud computing nos permite ofrecer servicios a través de Internet de una forma rápida y sencilla. Ofrecemos Cloud Services, de forma auto-escalable y elástica que nos permite centrarnos en el negocio, ahorrar costes, facilita la innovación y aporta un time to market menor.
Ponencia presentada en el Congreso Academy Jornal 2019 celebrado enel Instituto Tecnologico de Morelia con Impplementacion de un cluster de alta dispniiblidad para aplicaciones administrativas mediante multiproceso. Presentacion morelia 2019 mrl0580
Inteligencia artificial in house con servicios cognitivos y dockerLuis Beltran
Los servicios cognitivos de Azure permiten a los desarrolladores crear poderosas soluciones informáticas basadas en Inteligencia Artificial, brindando capacidades como la visión de computadora o análisis de texto de una forma ágil y práctica, simplemente enviando los datos a un API disponible en la nube.
Sin embargo, existen escenarios donde el acceso a Internet es limitado, o donde el control sobre los datos es elevado por cuestiones de confidencialidad. Gracias al soporte de contenedores Docker, es posible construir aplicaciones con Inteligencia Artificial integrada donde los datos permanecen en sitio.
En esta sesión se describirá cómo integrar los Servicios Cognitivos de Azure en contenedores Docker y se mostrarán varios demos con esta funcionalidad incorporada.
http://summit.solidq.com
Es innegable que los motores de BBDD transaccionales deben adaptarse a la posibilidad de gestionar datos no estructurados. Microsoft en SQL Server 2016 incluye un motor nuevo (llamado Polybase) que permite acceder con lenguaje Transact SQL a datos no estructurados y poder mezclarlos con datos estructurados. En esta sesión conocerá este nuevo motor y cómo empezar a integrar datos no estructurados en sus bases de datos transaccionales.
Docker: la revolución en virtualizaciónMarcelo Ochoa
Durante el último año la evolución de proyectos como LXC concluyo en el mundialmente reconocido proyecto Docker, un sistema de virtualización open source ultra delgado que permite optimizar por medio de la automatización vía scripts la provisión de ambientes para desarrollo, test y producción.
Entre las principales ventajas de este ambiente de virtualización podemos encontrar:
– Nativo en Linux, sin requerimientos de virtualización hardware, cero impacto en la performance
– Definición/Creación del entorno vía scripts
– Ultra liviano, se pueden correr hasta 2048 maquinas virtuales con un servidor Web en un simple micro-computador Raspberry PI
– Disponible en otras plataformas como Windows/Solaris
Presentación de Daniel Concepción Pérez, Director de Sistemas Globales de Produban, empresa propiedad del Grupo Santander, e Iñaki Murcia García, Director Regional de Nextel S.A.-Madrid durante el evento Securmática 2012.
Jt2013 Exprimiendo la Infraestructura TIC con OpenNebulaJordi Guijarro
Analizando la evolución que durante los últimos años han sufrido nuestras infraestructuras TIC marcada en gran medida por la situación económica actual, es necesario prestar atención a la necesidad de definir una estrategia frente a posibles modelos para su gestión. Este trabajo pretende dar una visión sobre los beneficios que pueden aportar la implementación de tecnología/arquitecturas de “Cloud Computing” dentro de las instituciones de la red académica, en base a un caso real, dónde el papel de los centros de respaldo junto con las necesidades de las propias aplicaciones/servicios están provocando una transformación del paradigma al cuál estábamos acostumbrados.
Similar a Big Data para desarrolladores utilizando Hadoop y OpenStack (20)
Estructuras de datos avanzadas: Casos de uso realesSoftware Guru
La utilización de estructuras de datos adecuadas para cada problema hace que se simplifiquen en gran medida los tiempos de respuestas y la cantidad de cómputo realizada.
Por Nelson González
Onboarding new members into an engineering team is not easy on anyone. In a short period of time, the new team member is required to be able to bring professional
Por Victoriya Kalmanovich
El secreto para ser un desarrollador SeniorSoftware Guru
En esta charla platicaremos sobre el “secreto” y el camino para llegar a ser un desarrollador Senior, experiencia, consejos y recomendaciones que en estos 8 años
Por René Sandoval
Apache Airflow es una plataforma en la que podemos crear flujos de datos de manera programática, planificarlos y monitorear de manera centralizada.
Por Yesi Díaz
How thick data can improve big data analysis for business:Software Guru
En esta presentación hablaré sobre cómo el Análisis de Datos Gruesos, específicamente el análisis antropológico y semiótico, puede ayudar a mejorar los resultados del Big Data
Por Martin Cuitzeo
CoDi® es la nueva forma de realizar pagos digitales desarrollada por el Banco de México. Por medio de CoDi puedes realizar cobros y pagos desde tu celular, utilizando una cuenta bancaria o de alguna institución financiera, sin comisiones.
Por Cristian Jaramillo
Gestionando la felicidad de los equipos con Management 3.0Software Guru
En las metodologías agiles hablamos de equipos colaborativos, autogestionados y felices. hablamos de lideres serviciales. El management 3.0 nos ayuda a cultivar el mindset correcto, aquel que servirá como el terreno fértil para que la agilidad florezca.
Por Andrea Vélez Cárdenas
Taller: Creación de Componentes Web re-usables con StencilJSSoftware Guru
Hoy por hoy las experiences de usuario pueden ser enriquecidas mediante el uso de Web Components, que son un estándar de la W3C soportado por la mayoría de los navegadores web modernos.
Por Alex Arriaga
Así publicamos las apps de Spotify sin stressSoftware Guru
En Spotify tenemos 1600+ ingenieros, trabajando en 280+ squads. Aún a esta escala, hemos logrado adoptar prácticas que nos han permitido acelerar la forma en que desarrollamos nuestro producto. Presentado por Erick Camacho en SG Virtual Conference 2020
Achieving Your Goals: 5 Tips to successfully achieve your goalsSoftware Guru
he measure of the executive, Peter F. Drucker reminds us, is the ability to "get the right things done." This involves having clarity on what are the right things as well as avoiding what is unproductive. Intelligence, creativity, and knowledge may all be wasted if not put to work on the things that matter.
Presentado por Cristina Nistor en SG Virtual Conference 2020
Acciones de comunidades tech en tiempos del Covid19Software Guru
Acciones de Comunidades Tech en tiempo del COVID-19 es una platica para informar acerca de las acciones que están realizando algunas comunidades de tecnología en México para luchar contra la propagación del COVID-19. Desde análisis de datos, visualizaciones, simulaciones de contagio, etc.
Presentado por Juana Martínez, Adriana Vallejo y Eduardo Ramírez en SG Virtual Conference 2020
De lo operativo a lo estratégico: un modelo de management de diseñoSoftware Guru
La charla presenta un modelo claro, generado por la ponente, para atender los niveles desde lo operativo a lo estratégico.
Presentado por Gabriela Salinas en SG Virtual Conference
Escaneo y eliminación de malware en el equiponicromante2000
El malware tiene muchas caras, y es que los programas maliciosos se reproducen en los ordenadores de diferentes formas. Ya se trate de virus, de programas espía o de troyanos, la presencia de software malicioso en los sistemas informáticos siempre debería evitarse. Aquí te muestro como trabaja un anti malware a la hora de analizar tu equipo
Si bien los hospitales conjuntan a profesionales de salud que atienden a la población, existe un equipo de organización, coordinación y administración que permite que los cuidados clínicos se otorguen de manera constante y sin obstáculos.
Mario García Baltazar, director del área de Tecnología (TI) del Hospital Victoria La Salle, relató la manera en la que el departamento que él lidera, apoyado en Cirrus y Estela, brinda servicio a los clientes internos de la institución e impulsa una experiencia positiva en el paciente.
Conoce el Hospital Victoria La Salle
Ubicado en Ciudad Victoria, Tamaulipas, México
Inició operaciones en el 2016
Forma parte del Consorcio Mexicanos de Hospitales
Hospital de segundo nivel
21 habitaciones para estancia
31 camas censables
13 camillas
2 quirófanos
+174 integrantes en su plantilla
+120 equipos médicos de alta tecnología
+900 pacientes atendidos
Servicios de +20 especialidades
Módulos utilizados de Cirrus
HIS
EHR
ERP
Estela - Business Intelligence
Los desafíos de calidad de software que nos trae la IA y los LLMsFederico Toledo
En esta charla, nos sumergiremos en los desafíos emergentes que la inteligencia artificial (IA) y los Large Language Models (LLMs) traen al mundo de la calidad del software y el testing. Exploraremos cómo la integración, uso o diseño de modelos de IA plantean nuevos retos, incluyendo la calidad de datos y detección de sesgos, sumando la complejidad de probar algo no determinístico. Revisaremos algunas propuestas que se están llevando adelante para ajustar nuestras tareas de testing al desarrollo de este tipo de sistemas, incluyendo enfoques de pruebas automatizadas y observabilidad.
4. Openstack
OpenStack es producto de la colaboración mundial de
desarrolladores y administradores de sistemas DevOps
que dan como resultado una plataforma Cloud de
código abierto que entrega soluciones para todo tipo de
nubes.
8. Openstack
Habilidades requeridas para incursionar en
Openstack
➢ Python
○ Openstack está escrito en este lenguaje
➢ Linux (Command line navigation)
○ Openstack y sus componente corren sobre Linux
➢ Programación Bash (Linux scripting)
9. Openstack
¿Quién utiliza OpenStack? Destacan: PayPal,
MercadoLibre, Comcast, NSA, Rackspace, Cisco,
PlayStation, Dream Host, el CERN y Kio Networks
como pionero en Latinoamérica.
Visita http://www.openstack.org/user-stories/
14. Hadoop
➢ Problemas con sistemas tradicionales
○ Procesadores más rápidos y más RAM en una única máquina
➢ Problemas con sistemas distribuidos
○ Sincronización de datos, ancho de banda, fallos parciales
➢ Era Big-Data
○ Terabytes de datos por día
➢ Requerimientos para un nuevo enfoque
○ Speculative execution
○ Replicación
○ Escalabilidad
15. Hadoop
➢ Surge a partir de 2 publicaciones realizadas por
Google en 2003 y 2004
➢ Los datos son replicados múltiples veces en el
sistema de archivos
○ Éstos son divididos en archivos más pequeños denominados
“blocks”
➢ El nodo principal o master
○ Designa tareas a los nodos esclavos o datanodes
○ Reasigna tareas cuando un nodo falla o sale de operación
20. Hadoop
➢ Hadoop resuelve un problema real y por tal razón estará con nosotros
por varias décadas
➢ Hadoop es una habilidad profesional que vale la pena adquirir
22. Hadoop
Habilidades requeridas para incursionar en Hadoop
➢ Java
○ Hadoop está escrito en este lenguaje
➢ Linux (Command line navigation)
○ Hadoop y sus componente corren sobre Linux
➢ Programación Bash (Linux scripting)
➢ Hadoop Streaming
○ Python
○ Rubi
○ C
25. Arquitecturas en la nube
Las Arquitecturas Cloud son los diseños y desarrollo de
elementos de infraestructura virtual y software que
hacen un uso eficiente de los servicios en Cloud.
26.
27. Arquitecturas en la nube
➢Son interoperables.
➢Ejecutan de forma óptima las tareas para cubrir una
necesidad de negocio.
➢Sólo hacen uso de la infraestructura que es necesaria
en cada momento.
➢Escalan basándose en la demanda.
28.
29. Arquitecturas en la nube
¿El problema? Son tareas concurrentes, repetitivas.
Dejemos de perder el tiempo, automaticemos. Desde
un enfoque DevOps.
Heat es el proyecto de OpenStack para Orquestación.
30. Arquitecturas en la nube
Heat permiten la creación y gestión de:
IPs flotantes, Instancias de computo, Redes, Virtuales, Volúmenes de
almacenamiento, Grupo de seguridad/Firewall, Usuarios
Funciones avanzadas:
Alta disponibilidad, autoscaling, software de terceros, recovery.
Además es compatible con Cloud Formation de AWS.
32. Arquitecturas en la nube
Plantillas
Archivos de texto con formato YAML, son un documento que detalla la
orquestación.
Heat Orchestration Template
(HOT), es el lenguaje nativo de Heat para escribir una plantilla.
33. Arquitecturas en la nube
Las plantillas también pueden especificar las relaciones
entre los recursos, por ejemplo, este volumen está
conectado a este servidor.
37. Openstack & Hadoop
Time To Provision
Time To Market
A Hadoop le viene como anillo al dedo Openstack y su
elasticidad
38. Openstack & Hadoop
➢ Tecnologías libres y de código abierto
➢ IDC estima un crecimiento alto (15%) de soluciones
cloud y Big Data para 2014
○ “Will big data make IT infraestructure sexy again?“, Mike Barlow,
O’Reilly, 2014)
➢ Tecnologías y soluciones Big Data abarcarán el
89% de las inversiones en IT durante 2014
➢ 70% de los datawarehouse experimentan problemas
de procesamiento y almacenamiento, Gartner
40. Benchmark
Cantidad de nodos de datos (datanodes)
➢ IBM tiene el cluster más grande con 1000 nodos de datos
➢ En promedio los cluster tienen 14 nodos de datos
41. Benchmark
➢ IBM, CISCO y HP son los cluster más rápidos
➢ KIO/DATTLAS es el 8º más rápido con 40 minutos para ordenar
1TB de datos
Tiempo transcurrido ordenando un 1TB de datos
42. Benchmark
➢ CISCO tiene el cluster más eficiente con ~225 MB/seg por datanode
➢ IBM tiene el cluster más inificiente con 9,5MB/seg procesados por
datanode
Velocidad de procesamiento por datanode
43. Benchmark
➢ Los fabricantes tienen un promedio de 1170 GB RAM
➢ Nótese que a mayor memoria RAM, menor el tiempo de procesamiento
Memoria RAM total instalada
46. Openstack & Hadoop
El futuro:
Sahara by Openstack. Disponible para Juno.
Proyecto que proporciona un medio sencillo para
aprovisionar un cluster Hadoop sobre Openstack.
Configuración de varios parámetros:
versión de Hadoop, la topología del cluster, los detalles de los nodos, etc.
47. Openstack & Hadoop
➢ Con un solo clic, autoservicio de aprovisionamiento
basado en plantillas
➢ Escalamiento dinámico, disparadores de workloads.
➢ Medición de recursos de manera sencilla, Hadoop
as a Service.
48. Openstack & Hadoop
➢ API´s para ejecutar tareas Map/Reduce, Oozie
workflows, consutas Hive/Pig.
➢ Administración y monitoreo centralizado.
➢ Accesos a datos controlados.
➢ Acceso a UI integrado, como Hive y Pig.
49. Openstack & Hadoop
➢ Infraestructura
○ Nube privada o pública (OpenStack)
○ Alojamiento de servidores (Co-location)
➢ Misión crítica, datacenter diseño TIER IV
➢ Operación
○ Help desk 24/7
➢ Big Data
○ Generación de modelos matemáticos
○ Hadoop as a Service
○ Data-Analytics as a Service