Este documento presenta una introducción a Hadoop, incluida su arquitectura, características y componentes clave. Explica que Hadoop es un marco de código abierto que permite el procesamiento distribuido de grandes conjuntos de datos a través de clústeres de hardware básico de manera escalable, tolerante a fallos y económica. Sus componentes principales son HDFS para almacenamiento distribuido de datos y YARN para programación y ejecución de aplicaciones.
Este documento presenta Polybase en SQL Server 2016. Polybase permite consultar y combinar datos estructurados y no estructurados almacenados en SQL Server y Hadoop. Se describen los escenarios de uso como combinar datos de diferentes orígenes, permitir que científicos de datos lean grandes volúmenes de datos, y almacenar datos de forma barata. Finalmente, se explican los pasos para instalar y configurar Polybase, como habilitarlo, enlazarlo con un clúster Hadoop y crear tablas externas.
Este documento introduce el concepto de Big Data y Hadoop. Explica que Big Data se refiere a grandes volúmenes y variedad de datos que requieren nuevas formas de procesamiento. Describe las características clave de Hadoop, incluyendo HDFS para almacenamiento distribuido de datos y MapReduce para procesamiento paralelo. También presenta el ecosistema Hadoop y casos de uso comunes como recomendaciones, detección de fraude y análisis de sentimiento en redes sociales.
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
Este documento presenta una introducción a Big Data, incluyendo las tendencias de la industria, definiciones de Big Data, ejemplos de datos masivos, y utilidades de Big Data. También describe escenarios de análisis empresarial utilizando herramientas como Hadoop, Hive y HDInsight, y cómo Microsoft Excel puede usarse para explotar y analizar grandes conjuntos de datos.
Este documento presenta una introducción al entorno de datos de Microsoft Cloud. Comienza introduciendo al orador, Jose Redondo, y su experiencia. Luego presenta una breve agenda que incluye definiciones de nube, Microsoft Azure y nube híbrida, así como demostraciones de Azure IaaS y PaaS. Finalmente, ofrece descripciones generales de conceptos clave como qué es la nube, Microsoft Azure, nube híbrida y los beneficios de usar la nube.
Este documento propone un esquema DevOps para implementar un flujo ágil de despliegues en la nube utilizando herramientas como Bitbucket, AWS y pipelines de integración y entrega continua. El esquema incluye estrategias de branching, integración continua, despliegue continuo, monitoreo y alertas, y rollback. Se aplicaría inicialmente para el caso de uso SDLF - Objetos, el cual crea tablas y esquemas en Athena para el módulo StageA de SDLF.
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
Esta presentación es la que utilicé como ponente de Mondragon Unibertsitatea para introducir al público asistente a la jornada de "Mitos y Realidades del Big Data" de Enpresa Digitala en su nodo de Goiru (http://www.euskadinnova.net/es/enpresa-digitala/agenda/mitos-realidades-data/8956.aspx?utm_source=rss_feed&utm_medium=rss&utm_campaign=accesos_rss). Se trata de una presentación donde se explican qué es y qué no es Big Data, enfocando sobre todo en la parte de almacenamiento, infraestructura, y análisis de los datos.
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
Este documento compara Hadoop y Spark, argumentando que Spark es una mejor opción debido a su capacidad de procesamiento de datos in-memory, su interfaz más expresiva y su naturaleza de plataforma unificada que permite procesamiento por lotes y en tiempo real con un solo código. El documento también discute algunos desafíos de Spark como trabajos largos y problemas de serialización.
Este documento presenta Polybase en SQL Server 2016. Polybase permite consultar y combinar datos estructurados y no estructurados almacenados en SQL Server y Hadoop. Se describen los escenarios de uso como combinar datos de diferentes orígenes, permitir que científicos de datos lean grandes volúmenes de datos, y almacenar datos de forma barata. Finalmente, se explican los pasos para instalar y configurar Polybase, como habilitarlo, enlazarlo con un clúster Hadoop y crear tablas externas.
Este documento introduce el concepto de Big Data y Hadoop. Explica que Big Data se refiere a grandes volúmenes y variedad de datos que requieren nuevas formas de procesamiento. Describe las características clave de Hadoop, incluyendo HDFS para almacenamiento distribuido de datos y MapReduce para procesamiento paralelo. También presenta el ecosistema Hadoop y casos de uso comunes como recomendaciones, detección de fraude y análisis de sentimiento en redes sociales.
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
Este documento presenta una introducción a Big Data, incluyendo las tendencias de la industria, definiciones de Big Data, ejemplos de datos masivos, y utilidades de Big Data. También describe escenarios de análisis empresarial utilizando herramientas como Hadoop, Hive y HDInsight, y cómo Microsoft Excel puede usarse para explotar y analizar grandes conjuntos de datos.
Este documento presenta una introducción al entorno de datos de Microsoft Cloud. Comienza introduciendo al orador, Jose Redondo, y su experiencia. Luego presenta una breve agenda que incluye definiciones de nube, Microsoft Azure y nube híbrida, así como demostraciones de Azure IaaS y PaaS. Finalmente, ofrece descripciones generales de conceptos clave como qué es la nube, Microsoft Azure, nube híbrida y los beneficios de usar la nube.
Este documento propone un esquema DevOps para implementar un flujo ágil de despliegues en la nube utilizando herramientas como Bitbucket, AWS y pipelines de integración y entrega continua. El esquema incluye estrategias de branching, integración continua, despliegue continuo, monitoreo y alertas, y rollback. Se aplicaría inicialmente para el caso de uso SDLF - Objetos, el cual crea tablas y esquemas en Athena para el módulo StageA de SDLF.
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
Esta presentación es la que utilicé como ponente de Mondragon Unibertsitatea para introducir al público asistente a la jornada de "Mitos y Realidades del Big Data" de Enpresa Digitala en su nodo de Goiru (http://www.euskadinnova.net/es/enpresa-digitala/agenda/mitos-realidades-data/8956.aspx?utm_source=rss_feed&utm_medium=rss&utm_campaign=accesos_rss). Se trata de una presentación donde se explican qué es y qué no es Big Data, enfocando sobre todo en la parte de almacenamiento, infraestructura, y análisis de los datos.
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
Este documento compara Hadoop y Spark, argumentando que Spark es una mejor opción debido a su capacidad de procesamiento de datos in-memory, su interfaz más expresiva y su naturaleza de plataforma unificada que permite procesamiento por lotes y en tiempo real con un solo código. El documento también discute algunos desafíos de Spark como trabajos largos y problemas de serialización.
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
Breve sinopsis sobre como comprender todo el escenario en la manipulación de datos procedentes del Big Data, de los Almacenes de Datos Empresariales con motor de datos SQL Azure bajo Plataforma BI
Presentación de Computación en la Nube en el Colegio Cedes Don Bosco, en Alajuelita. Los 5 Pilares de la Computación en la Nube de Oracle. 18 de setiembre del 2013. "La Internet ha madurado. Ya nos más se le llama así. El Internet ha evolucionado y ahora se le llama Computación en la Nube.
Este documento describe la computación en la nube y ownCloud. Explica que la computación en la nube permite acceder a servicios a través de Internet desde cualquier lugar y que ownCloud es una herramienta de software libre que permite almacenar archivos en la nube de forma privada al instalarse en un servidor propio. También describe las características y el funcionamiento básico de ownCloud para sincronizar archivos entre dispositivos a través de un servidor ownCloud.
Webinar sobre de las ventajas que aporta trabajar con la herramienta de integración ODI 12c y además abordar la migración de Oracle Warehouse Builder (OWB) y ODI 11g, con todas las garantías, hacia ODI 12c.
SQL Server 2014 y La Plataforma de DatosJoseph Lopez
Un análisis objetivo y amplio (Vista rápida) sobre las nuevas características en la versión 2014, aplicadas al desempeño y ejecución de escenarios empresariales de alto desempeño como lo es In-Memory for OLTP, Update Capable Column Store Index, Alta Disponibilidad y Misión Critica sobre altos volúmenes de transaccionalidad de datos.
Sql server 2014 y la plataforma de datosSpanishPASSVC
Un análisis objetivo y amplio (Vista rápida) sobre las nuevas características en la versión 2014, aplicadas al desempeño y ejecución de escenarios empresariales de alto desempeño como lo es In-Memory for OLTP, Update Capable Column Store Index, Alta Disponibilidad y Misión Critica sobre altos volúmenes de transaccionalidad de datos.
El documento explica conceptos clave de Hadoop como HDFS, MapReduce y YARN. Describe que HDFS almacena los datos de forma fragmentada en múltiples nodos para tolerar fallos, y que MapReduce procesa los datos de forma distribuida mediante las fases de map y reduce. También cubre la instalación de un clúster Hadoop simple usando Docker para probar aplicaciones como el contador de palabras.
Drupalcamp 2014 reconstruir un medio digital idealista newsMartín .
http://2014.drupalcamp.es/reconstruir-y-migrar-un-medio-digital-idealistanews
Durante 3 meses y medio hemos reconstruido desde 0 un nuevo portal de noticias en Drupal 7, idealista/news, que es una tríada de países (ES, IT, PT), migrando y adaptando más de 14 años de contenido y comentarios de un Drupal 6.
Queremos compartir toda la experiencia adquirida y problemas que nos hemos encontramos. La charla no será un autobombo, aunque se mostrarán muchos ejemplos, y los temas son:
Cómo adaptar todo tu viejo contenido a un diseño responsive
Migrate, problemas más allá de los ejemplos con "article", su escalabilidad y rendimiento
El problema de cambiar la jerarquía de la información
Mantener el posicionamiento en buscadores aún cambiandolo todo
Legacy code ¿qué hacer con él?
Features para 3 webs y entornos distintos
Pase a producción sin downtime
Reconstruir un medio digital: idealista/news - Drupalcamp Spain 2014Rodrigo Alfaro
Slides de la charla: http://2014.drupalcamp.es/reconstruir-y-migrar-un-medio-digital-idealistanews
Durante 3 meses y medio hemos reconstruido desde 0 un nuevo portal de noticias en Drupal 7, idealista/news, que es una tríada de países (ES, IT, PT), migrando y adaptando más de 14 años de contenido y comentarios de un Drupal 6.
Queremos compartir toda la experiencia adquirida y problemas que nos hemos encontramos. La charla no será un autobombo, aunque se mostrarán muchos ejemplos, y los temas son:
Cómo adaptar todo tu viejo contenido a un diseño responsive
Migrate, problemas más allá de los ejemplos con "article", su escalabilidad y rendimiento
El problema de cambiar la jerarquía de la información
Mantener el posicionamiento en buscadores aún cambiandolo todo
Legacy code ¿qué hacer con él?
Features para 3 webs y entornos distintos
Pase a producción sin downtime
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIGFreddy Angarita
Presentación de HDInsight donde la nube y Big Data se encuentran. HDInsight es basado en Hadoop para proveer capacidades de almacenamiento y análisis de grandes volúmenes de datos en la nube (Azure)
Este documento resume la computación en la nube y ownCloud. Explica que la computación en la nube permite acceder a servicios a través de Internet desde cualquier lugar y que ownCloud es una herramienta de software libre que permite almacenar archivos en la nube de forma privada al instalarse en un servidor propio. También describe cómo ownCloud sincroniza directorios entre un servidor y clientes instalados en diferentes dispositivos para permitir el acceso y almacenamiento compartido de archivos.
Paradox es una base de datos relacional anteriormente disponible para MS-DOS y Linux desarrollada actualmente por Corel. Aunque fue rediseñada para Windows, su cuota de mercado es menor que Access debido a que usa el lenguaje Pascal en lugar de Visual Basic. Filemaker permite crear soluciones personalizadas de negocio para distintas plataformas. IBM DB2 ofrece un alto rendimiento y escalabilidad en Linux, UNIX y Windows para cargas de trabajo de alto volumen. InterBase es una base de datos relacional de alto rendimiento y baja congestión que puede integr
Este documento compara los sistemas gestores de bases de datos Oracle y Postgre SQL. Oracle surgió a finales de los 70 y sigue siendo líder en el mercado. Postgre SQL es un SGBD relacional de código abierto. Ambos sistemas permiten definir, construir y manipular bases de datos, pero Oracle tiene mayores capacidades y es de pago mientras que Postgre SQL es gratuito pero menos potente.
Este documento proporciona una introducción a Big Data y HDInsight. Explica conceptos clave como Hadoop, HDFS, MapReduce, Hive y Pig. También describe las ventajas de HDInsight como una plataforma escalable en la nube para procesar y analizar grandes volúmenes de datos estructurados y no estructurados.
Optimizando con Open Source y Postgres en espanolEDB
Recientes avances en Postgres han propulsado la base de datos a entornos donde debe enfrentarse a los retos tecnológicos de hoy en día. En algunas de las compañías más grandes del mundo, PostgreSQL juega un papel esencial en el control del coste y en la reducción de la dependencia de los proveedores tradicionales.
Juan Zamora abordará los siguientes puntos:
* Qué cargas de trabajo son las más apropiadas para la introducción de Postgres en su entorno
* Las métricas que se deben tener en cuenta para evaluar el 'cuándo y cómo' de la expansión de las instalaciones de Postgres
* Avances claves en las últimas versiones de Postgres que soportan nuevos tipos de datos y permiten afrontar nuevos retos
Este documento describe la computación en la nube, incluyendo qué es, sus características, tipos de servicios, ventajas y desventajas. Explica herramientas de software libre como Eucalyptus, OpenNebula y OpenStack. También cubre almacenamiento en la nube, proporcionando ejemplos como Dropbox y Google Drive, y describe ownCloud como una alternativa de código abierto para almacenamiento privado en la nube.
Este documento resume diferentes tipos de bases de datos. Describe bases de datos relacionales tradicionales que se organizan por campos, registros y archivos. También describe bases de datos distribuidas para dispositivos móviles como DB2 Everyplace y Adaptive Server Anywhere de Sybase. Finalmente, resume bases de datos no relacionales como Cassandra, BigTable y MongoDB, destacando que no usan SQL y están optimizadas para escalabilidad y rendimiento.
El documento describe las tendencias emergentes en TI como la movilidad, la computación en la nube, los grandes datos y la seguridad, y cómo HP está posicionando soluciones de infraestructura convergente para satisfacer estas necesidades. Incluye información sobre productos y tecnologías de HP como almacenamiento 3PAR, redes definidas por software y servidores Moonshot para entornos de gran densidad y bajo consumo.
El documento compara tres sistemas de administración de bases de datos: PervasiveSQL, PostgreSQL y Sybase IQ. Describe las características clave y ventajas de cada uno. PervasiveSQL ofrece rendimiento rápido, compatibilidad con múltiples plataformas e integración con herramientas de desarrollo. PostgreSQL es de código abierto, gratuito y extensible. Sybase IQ proporciona consultas ultrarrápidas, bajos costos de mantenimiento y almacenamiento compacto.
Oracle Forms&Reports es una solución muy útil para diseñar y construir aplicaciones empresariales e interactuar rápida y eficientemente con la base de datos. Oracle ha ido incluyendo numerosas mejoras periódicamente, adaptando Forms a los nuevos requisitos de los clientes y a la evolución tecnológica.
En paralelo, durante los últimos años, hemos visto la explosión del modelo cloud para el despliegue de los aplicativos de las empresas por sus ventajas en costes, flexibilidad y escalabilidad.
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
Breve sinopsis sobre como comprender todo el escenario en la manipulación de datos procedentes del Big Data, de los Almacenes de Datos Empresariales con motor de datos SQL Azure bajo Plataforma BI
Presentación de Computación en la Nube en el Colegio Cedes Don Bosco, en Alajuelita. Los 5 Pilares de la Computación en la Nube de Oracle. 18 de setiembre del 2013. "La Internet ha madurado. Ya nos más se le llama así. El Internet ha evolucionado y ahora se le llama Computación en la Nube.
Este documento describe la computación en la nube y ownCloud. Explica que la computación en la nube permite acceder a servicios a través de Internet desde cualquier lugar y que ownCloud es una herramienta de software libre que permite almacenar archivos en la nube de forma privada al instalarse en un servidor propio. También describe las características y el funcionamiento básico de ownCloud para sincronizar archivos entre dispositivos a través de un servidor ownCloud.
Webinar sobre de las ventajas que aporta trabajar con la herramienta de integración ODI 12c y además abordar la migración de Oracle Warehouse Builder (OWB) y ODI 11g, con todas las garantías, hacia ODI 12c.
SQL Server 2014 y La Plataforma de DatosJoseph Lopez
Un análisis objetivo y amplio (Vista rápida) sobre las nuevas características en la versión 2014, aplicadas al desempeño y ejecución de escenarios empresariales de alto desempeño como lo es In-Memory for OLTP, Update Capable Column Store Index, Alta Disponibilidad y Misión Critica sobre altos volúmenes de transaccionalidad de datos.
Sql server 2014 y la plataforma de datosSpanishPASSVC
Un análisis objetivo y amplio (Vista rápida) sobre las nuevas características en la versión 2014, aplicadas al desempeño y ejecución de escenarios empresariales de alto desempeño como lo es In-Memory for OLTP, Update Capable Column Store Index, Alta Disponibilidad y Misión Critica sobre altos volúmenes de transaccionalidad de datos.
El documento explica conceptos clave de Hadoop como HDFS, MapReduce y YARN. Describe que HDFS almacena los datos de forma fragmentada en múltiples nodos para tolerar fallos, y que MapReduce procesa los datos de forma distribuida mediante las fases de map y reduce. También cubre la instalación de un clúster Hadoop simple usando Docker para probar aplicaciones como el contador de palabras.
Drupalcamp 2014 reconstruir un medio digital idealista newsMartín .
http://2014.drupalcamp.es/reconstruir-y-migrar-un-medio-digital-idealistanews
Durante 3 meses y medio hemos reconstruido desde 0 un nuevo portal de noticias en Drupal 7, idealista/news, que es una tríada de países (ES, IT, PT), migrando y adaptando más de 14 años de contenido y comentarios de un Drupal 6.
Queremos compartir toda la experiencia adquirida y problemas que nos hemos encontramos. La charla no será un autobombo, aunque se mostrarán muchos ejemplos, y los temas son:
Cómo adaptar todo tu viejo contenido a un diseño responsive
Migrate, problemas más allá de los ejemplos con "article", su escalabilidad y rendimiento
El problema de cambiar la jerarquía de la información
Mantener el posicionamiento en buscadores aún cambiandolo todo
Legacy code ¿qué hacer con él?
Features para 3 webs y entornos distintos
Pase a producción sin downtime
Reconstruir un medio digital: idealista/news - Drupalcamp Spain 2014Rodrigo Alfaro
Slides de la charla: http://2014.drupalcamp.es/reconstruir-y-migrar-un-medio-digital-idealistanews
Durante 3 meses y medio hemos reconstruido desde 0 un nuevo portal de noticias en Drupal 7, idealista/news, que es una tríada de países (ES, IT, PT), migrando y adaptando más de 14 años de contenido y comentarios de un Drupal 6.
Queremos compartir toda la experiencia adquirida y problemas que nos hemos encontramos. La charla no será un autobombo, aunque se mostrarán muchos ejemplos, y los temas son:
Cómo adaptar todo tu viejo contenido a un diseño responsive
Migrate, problemas más allá de los ejemplos con "article", su escalabilidad y rendimiento
El problema de cambiar la jerarquía de la información
Mantener el posicionamiento en buscadores aún cambiandolo todo
Legacy code ¿qué hacer con él?
Features para 3 webs y entornos distintos
Pase a producción sin downtime
Azure Data Usando HDInsight Ejemplo Hadoop: MadReduce, HIVE, PIGFreddy Angarita
Presentación de HDInsight donde la nube y Big Data se encuentran. HDInsight es basado en Hadoop para proveer capacidades de almacenamiento y análisis de grandes volúmenes de datos en la nube (Azure)
Este documento resume la computación en la nube y ownCloud. Explica que la computación en la nube permite acceder a servicios a través de Internet desde cualquier lugar y que ownCloud es una herramienta de software libre que permite almacenar archivos en la nube de forma privada al instalarse en un servidor propio. También describe cómo ownCloud sincroniza directorios entre un servidor y clientes instalados en diferentes dispositivos para permitir el acceso y almacenamiento compartido de archivos.
Paradox es una base de datos relacional anteriormente disponible para MS-DOS y Linux desarrollada actualmente por Corel. Aunque fue rediseñada para Windows, su cuota de mercado es menor que Access debido a que usa el lenguaje Pascal en lugar de Visual Basic. Filemaker permite crear soluciones personalizadas de negocio para distintas plataformas. IBM DB2 ofrece un alto rendimiento y escalabilidad en Linux, UNIX y Windows para cargas de trabajo de alto volumen. InterBase es una base de datos relacional de alto rendimiento y baja congestión que puede integr
Este documento compara los sistemas gestores de bases de datos Oracle y Postgre SQL. Oracle surgió a finales de los 70 y sigue siendo líder en el mercado. Postgre SQL es un SGBD relacional de código abierto. Ambos sistemas permiten definir, construir y manipular bases de datos, pero Oracle tiene mayores capacidades y es de pago mientras que Postgre SQL es gratuito pero menos potente.
Este documento proporciona una introducción a Big Data y HDInsight. Explica conceptos clave como Hadoop, HDFS, MapReduce, Hive y Pig. También describe las ventajas de HDInsight como una plataforma escalable en la nube para procesar y analizar grandes volúmenes de datos estructurados y no estructurados.
Optimizando con Open Source y Postgres en espanolEDB
Recientes avances en Postgres han propulsado la base de datos a entornos donde debe enfrentarse a los retos tecnológicos de hoy en día. En algunas de las compañías más grandes del mundo, PostgreSQL juega un papel esencial en el control del coste y en la reducción de la dependencia de los proveedores tradicionales.
Juan Zamora abordará los siguientes puntos:
* Qué cargas de trabajo son las más apropiadas para la introducción de Postgres en su entorno
* Las métricas que se deben tener en cuenta para evaluar el 'cuándo y cómo' de la expansión de las instalaciones de Postgres
* Avances claves en las últimas versiones de Postgres que soportan nuevos tipos de datos y permiten afrontar nuevos retos
Este documento describe la computación en la nube, incluyendo qué es, sus características, tipos de servicios, ventajas y desventajas. Explica herramientas de software libre como Eucalyptus, OpenNebula y OpenStack. También cubre almacenamiento en la nube, proporcionando ejemplos como Dropbox y Google Drive, y describe ownCloud como una alternativa de código abierto para almacenamiento privado en la nube.
Este documento resume diferentes tipos de bases de datos. Describe bases de datos relacionales tradicionales que se organizan por campos, registros y archivos. También describe bases de datos distribuidas para dispositivos móviles como DB2 Everyplace y Adaptive Server Anywhere de Sybase. Finalmente, resume bases de datos no relacionales como Cassandra, BigTable y MongoDB, destacando que no usan SQL y están optimizadas para escalabilidad y rendimiento.
El documento describe las tendencias emergentes en TI como la movilidad, la computación en la nube, los grandes datos y la seguridad, y cómo HP está posicionando soluciones de infraestructura convergente para satisfacer estas necesidades. Incluye información sobre productos y tecnologías de HP como almacenamiento 3PAR, redes definidas por software y servidores Moonshot para entornos de gran densidad y bajo consumo.
El documento compara tres sistemas de administración de bases de datos: PervasiveSQL, PostgreSQL y Sybase IQ. Describe las características clave y ventajas de cada uno. PervasiveSQL ofrece rendimiento rápido, compatibilidad con múltiples plataformas e integración con herramientas de desarrollo. PostgreSQL es de código abierto, gratuito y extensible. Sybase IQ proporciona consultas ultrarrápidas, bajos costos de mantenimiento y almacenamiento compacto.
Oracle Forms&Reports es una solución muy útil para diseñar y construir aplicaciones empresariales e interactuar rápida y eficientemente con la base de datos. Oracle ha ido incluyendo numerosas mejoras periódicamente, adaptando Forms a los nuevos requisitos de los clientes y a la evolución tecnológica.
En paralelo, durante los últimos años, hemos visto la explosión del modelo cloud para el despliegue de los aplicativos de las empresas por sus ventajas en costes, flexibilidad y escalabilidad.
mi sector es muy tranquilo
los vecinos siempre colaboran , lo que mas me gusta de mi sector es el parque salazar, la iglesia el huerto de Dios donde congrego y el complejo deportivo de manco capac
2. Certified Big Data & Hadoop Training – DataFlair
Agenda
Introducción a Hadoop
Nodos y demos de Hadoop
Arquitectura de Hadoop
Características
Características de Hadoop
3. Certified Big Data & Hadoop Training – DataFlair
What is Hadoop?
La tecnología que empodera a Yahoo, Facebook, Twitter, Walmart y otros
Hadoop
4. Certified Big Data & Hadoop Training – DataFlair
What is Hadoop?
Un marco de código abierto que
permite el procesamiento distribuido
de grandes conjuntos de datos en
todo el clúster de hardware básico
5. Certified Big Data & Hadoop Training – DataFlair
What is Hadoop?
Un marco de código abierto que
permite el procesamiento distribuido
de grandes conjuntos de datos en
todo el clúster de hardware básico
Código abierto
El código fuente está disponible
gratuitamente
Puede ser redistribuido y
modificado
6. Certified Big Data & Hadoop Training – DataFlair
What is Hadoop?
Un marco de código abierto que
permite el procesamiento distribuido
de grandes conjuntos de datos en
todo el clúster de hardware básico
Procesamiento distribuido
Los datos se procesan
distribuidamente en múltiples
nodos / servidores
Varias máquinas procesan los datos
de forma independiente
7. Certified Big Data & Hadoop Training – DataFlair
What is Hadoop?
Un marco de código abierto que
permite el procesamiento distribuido
de grandes conjuntos de datos en
todo el clúster de hardware básico
Cluster
Múltiples máquinas conectadas
entre sí
Los nodos se conectan a través de
LAN
8. Certified Big Data & Hadoop Training – DataFlair
What is Hadoop?
An open source framework that
allows distributed processing of
large data-sets across the cluster
of Commodity Hardware
Hardware básico
Máquinas económicas /
asequibles
Normalmente hardware de bajo
rendimiento
9. Certified Big Data & Hadoop Training – DataFlair
¿Qué es Hadoop?
• Marco de código abierto escrito en Java
• Inspirado en el modelo de programación Map-Reduce de Google, así
como en su sistema de archivos (GFS)
•
10. Certified Big Data & Hadoop Training – DataFlair
Hadoop defeated
Super computer
Hadoop se convirtió en
proyecto de primer nivel
lanzó Hive,
Compatibilidad con SQL para Hadoop
Desarrollo de
comenzó como subproyecto Lucene
publicado GFS &
Documentos de MapReduce
2002 2003 2005 2006 2008
Doug Cutting comenzó
trabajando en
Doug Cutting agregó
DFS y MapReduce
en
convertido 4TB de
archivos de imágenes sobre
100 instancias EC2
Doug Cutting
Se unio a Cloudera
2009
2004
Historia de Hadoop
2007
11. Certified Big Data & Hadoop Training – DataFlair
Componentes de Hadoop
Hadoop consta de tres partes clave
12. Certified Big Data & Hadoop Training – DataFlair
Nodo maestro Nodo esclavo
Hadoop Nodes
Nodes
13. Certified Big Data & Hadoop Training – DataFlair
Nodo maestro
Slave Node
Hadoop Daemons
Administrador
de recursos
NombreNode
Nodo
Director
DataNode
Nodes
14. Certified Big Data & Hadoop Training – DataFlair
Sub Work Sub Work Sub Work Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Work
Sub Work Sub Work Sub Work Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Sub Work
Arquitectura básica de Hadoop
15. Certified Big Data & Hadoop Training – DataFlair
Características de Hadoop
16. Certified Big Data & Hadoop Training – DataFlair
Código abierto
• El código fuente está
disponible gratuitamente
• Se puede redistribuir
• Se puede modificar
•
Free
Affordable
Community
Transparent
Inter-
operable
No vendor
lock
Open
Source
17. Certified Big Data & Hadoop Training – DataFlair
Procesamiento distribuido
• Los datos se procesan de
forma distribuida en el clúster
• Varios nodos del clúster
procesan los datos de forma
independiente
• Centralized Processing
Distributed Processing
18. Certified Big Data & Hadoop Training – DataFlair
Fault Tolerance
• La falla de los nodos se
recupera automáticamente
• Framework se encarga de la
falla del hardware, así como de
las tareas
•
19. Certified Big Data & Hadoop Training – DataFlair
Reliability
• Los datos se almacenan de
forma fiable en el clúster de
máquinas a pesar de los fallos
de la máquina
• La falla de los nodos no causa
pérdida de datos
•
20. Certified Big Data & Hadoop Training – DataFlair
High Availability
• Los datos son de alta
disponibilidad y accesibles a
pesar de la falla de hardware
• No habrá tiempo de inactividad
para la aplicación del usuario
final debido a los datos
•
21. Certified Big Data & Hadoop Training – DataFlair
Scalability
• Escalabilidad vertical: se
puede agregar nuevo
hardware a los nodos
• Escalabilidad horizontal: se
pueden agregar nuevos
nodos sobre la marcha
•
22. Certified Big Data & Hadoop Training – DataFlair
Economic
• No es necesario comprar una licencia costosa
• No es necesario comprar hardware costoso
•
Economic
Open Source
Commodity
Hardware =
+
23. Certified Big Data & Hadoop Training – DataFlair
Easy to Use
• Los desafíos de la computación
distribuida son manejados por el
marco
• El cliente solo necesita
concentrarse en la lógica de
negocios
•
24. Certified Big Data & Hadoop Training – DataFlair
Data Locality
• Mover la computación a los datos
en lugar de los datos a la
computación
• Los datos se procesan en los
nodos donde se almacenan
•
Storage Servers App Servers
Data Data
Data
Data
Servers
Data Data
Data
Data
Algorithm
Algo Algo
Algo
Algo
25. Certified Big Data & Hadoop Training – DataFlair
Summary
• Todos los días generamos 2,3 billones de GB de datos
• Hadoop maneja grandes volúmenes de datos de manera eficiente
• Hadoop utiliza el poder de la computación distribuida
• HDFS y Yarn son dos componentes principales de Hadoop
• Es altamente tolerante a fallos, confiable y disponible
•
26. Certified Big Data & Hadoop Training – DataFlair
Thank You
DataFlair
/c/DataFlairWS /DataFlairWS