El documento presenta una introducción a Hadoop y técnicas para el análisis de grandes volúmenes de datos. Explica brevemente qué es Hadoop, sus componentes principales como HDFS y MapReduce. Luego describe herramientas como Flume y Sqoop para capturar datos de diferentes fuentes e importarlos a Hadoop. Finalmente, menciona algunas tecnologías como Hive y workflows para procesar y analizar los datos almacenados en Hadoop.
Tutorial Introductorio a Big Data, Hadoop y sus tecnologías asociadas (Hive, Pig, HBase, HDFS), etc. Presentado en el XVIII Congreso Iberoamericano de Ingenieria del Software (CIBSE). Peru. Lima. Abril del 2015.
Tutorial Introductorio a Big Data, Hadoop y sus tecnologías asociadas (Hive, Pig, HBase, HDFS), etc. Presentado en el XVIII Congreso Iberoamericano de Ingenieria del Software (CIBSE). Peru. Lima. Abril del 2015.
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
Breve sinopsis sobre como comprender todo el escenario en la manipulación de datos procedentes del Big Data, de los Almacenes de Datos Empresariales con motor de datos SQL Azure bajo Plataforma BI
En esta presentación se incentiva el desarrollo de aplicaciones para la resolución de problemas comunes de hoy en día que implican el manejo de grandes volúmenes de información, desde el enfoque de Big Data.
Se propone la combinación de OpenStack y Hadoop para apoyar el desarrollo de soluciones, que permitan extraer información valiosa a partir de grandes volúmenes de datos.
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
Tercera y última sesión del curso "Monta una Infraestructura para Big Data en tu Empresa" impartida por Urko Zurutuza de Mondragon Unibertsitatea para Enpresa Digitala. En esta sesión se muestran ejercicios prácticos y guiados que darán pie a probar algunas de las herramientas que dispone la distribucion Hadoop Cloudera CDH5.
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Primera Sesión sobre el Curso de Enpresa Digitala "Monta una Infraestructura Big Data en tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea. Hablaremos de Hadoop y de su ecosistema de herramientas.
Introducción a Hadoop y sus herramientas. Presentación de las herramientas de integración que ofrece SQL Server Integration Services 2016 con Hadoop y HDInsight
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
Segunda parte del Taller "Monta una Infraestructura Big Data para tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea en Enpresa Digitala. En esta segunda parte, se aborda la instalación de un cluster mediante Cloudera Manager 5
Introducción (en Español) al framework de procesamiento distribuido en memoria Apache Spark. Elementos básicos de Spark, RDD, incluye demo de las librerías SparkSQL y Spark Streaming
Presentado en www.nardoz.com
http://arjon.es/2014/08/14/introduccion-a-apache-spark-en-espanol/
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
Abstract de la charla realizada en SUGAR - Scala User Group Argentina
Apache Spark [1] es un framework para procesamiento distribuído diseñado para ser amigable para Data-Scientists y programadores, con soporte nativo a muchos lenguajes y diversidad de formatos de datos es extramadamente flexible. Cambiando el modelo establecido por Hadoop v1 de Map-Reduce por un grafo de ejecución (DAG) y manteniendo los pasos intermédios en RAM, Spark brinda excelente performance y una API muy expresiva.
Gustavo Arjones [2], CTO de Socialmetrix, va contar la experiencia que tuvieron al cambiarse de Hadoop a Spark y lo que los llevaron a este cambio. Esta charla es una introducción teorica y practica a Spark y sus distintos componentes.
Los tópicos a discutir son:
• Qué és?
• Aspectos que hacen Spark tan atractivo para la comunidad
• Plataforma unificada para Data Science (Batch, Stream, ML, Graph)
• Soporte a distintos lenguajes
• Ejecución: RDD y DAG / Task Scheduller
• Tracción de la comunidad (# commits, # commiters)
• testing, etc
• Demos:
• Spark-shell: Explicar paso a paso el WordCount
• LogAnalytics - compilar y submeter al cluster
• SQL/DataFrames: Demostrar que se puede consumir directamente JSON y hacer queries con SQL
[1] http://spark.apache.org
[2] https://linkedin.com/in/arjones
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
Esta presentación es la que utilicé como ponente de Mondragon Unibertsitatea para introducir al público asistente a la jornada de "Mitos y Realidades del Big Data" de Enpresa Digitala en su nodo de Goiru (http://www.euskadinnova.net/es/enpresa-digitala/agenda/mitos-realidades-data/8956.aspx?utm_source=rss_feed&utm_medium=rss&utm_campaign=accesos_rss). Se trata de una presentación donde se explican qué es y qué no es Big Data, enfocando sobre todo en la parte de almacenamiento, infraestructura, y análisis de los datos.
Material utilizado en la sesión técnica que tuvo lugar el 5 de mayo de 2016. A lo largo de la sesión Óscar Miró presentó ejemplos de qué es lo que funciona (y lo que no funciona) a nivel de análisis en proyectos de Big Data.
Sobre el ponente: Oscar Marín Miró (outliers.es)
Ingeniero de Telecomunicaciones, trabaja e investiga desde el año 2001 en lo que ahora llamamos ‘Big Data’. Especializado en el análisis de texto, redes sociales, datos urbanos y visualización de datos. Fundador del colectivo Outliers, desde donde se fomenta la aplicación del valor de los datos a todos los campos (Ciencia, Periodismo, Urbanismo, Sociología, Marketing…).
Miembro del equipo de investigación transdisciplinar DatAnalysis15m, enfocado en el análisis entre la viralidad y el contenido emocional del mensaje. En la faceta docente, imparte cursos regularmente sobre análisis y visualización de datos, en diversas Universidades, Compañías e Instituciones (UOC, UAB, Telenoika Audiovisual Community, Convent de Sant Agustí, Telefónica Digital).
Conociendo los servicios adicionales en big dataSpanishPASSVC
Todos han empezado a usar y a conocer Hadoop y HDInsight, en parte los lenguajes usados para su consumo, pero poco se hablado de los servicios complementarios que pueden enriquecer la experiencia BigData, conozca estos servicios y su aplicación.
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
http://university.solidq.com
Introducción a Big Data. Gracias a la nueva tecnología Microsoft Hadoop, tanto on-premise como en la nube, y a sus capacidades de almacenamiento, procesamiento y escalabilidad, podemos analizar grandes volúmenes de datos del orden de Terabytes o Petabytes de una forma rápida y con buen rendimiento. Es ahora el momento de familiarizarnos con la nueva forma de trabajar en Hadoop a la hora de extraer esa información distribuida por nuestros nodos. De la misma forma que hacemos con SQL Server, en esta sesión aprenderemos a desplegar y almacenar esa información en nuestros nodos, a crear consultas para extraer las partes que nos sean más útiles.
http://summit.solidq.com
Es innegable que los motores de BBDD transaccionales deben adaptarse a la posibilidad de gestionar datos no estructurados. Microsoft en SQL Server 2016 incluye un motor nuevo (llamado Polybase) que permite acceder con lenguaje Transact SQL a datos no estructurados y poder mezclarlos con datos estructurados. En esta sesión conocerá este nuevo motor y cómo empezar a integrar datos no estructurados en sus bases de datos transaccionales.
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ
Presentación de Javier Torrenteras en el SolidQ Business Analytics Day en Valencia (España)
- ¿Por qué Big data?
- Entonces...Haddoop ¿Qué es?
- ventajas y Componentes de Hadoop
-HD Insight, Windows Azure HDInsight
-Grandes DW
www.bisql.com
En esta presentacion explicamos el concepto de Big Data y Business Intelligence (Inteligencia de negocio), asi como tambien presentamos las herramientas basadas en software open source como son Hadoop y Pentaho que permiten implementar soluciones, hablamos de los ecosistemas disponibles y mas.
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
Breve sinopsis sobre como comprender todo el escenario en la manipulación de datos procedentes del Big Data, de los Almacenes de Datos Empresariales con motor de datos SQL Azure bajo Plataforma BI
En esta presentación se incentiva el desarrollo de aplicaciones para la resolución de problemas comunes de hoy en día que implican el manejo de grandes volúmenes de información, desde el enfoque de Big Data.
Se propone la combinación de OpenStack y Hadoop para apoyar el desarrollo de soluciones, que permitan extraer información valiosa a partir de grandes volúmenes de datos.
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
Tercera y última sesión del curso "Monta una Infraestructura para Big Data en tu Empresa" impartida por Urko Zurutuza de Mondragon Unibertsitatea para Enpresa Digitala. En esta sesión se muestran ejercicios prácticos y guiados que darán pie a probar algunas de las herramientas que dispone la distribucion Hadoop Cloudera CDH5.
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Primera Sesión sobre el Curso de Enpresa Digitala "Monta una Infraestructura Big Data en tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea. Hablaremos de Hadoop y de su ecosistema de herramientas.
Introducción a Hadoop y sus herramientas. Presentación de las herramientas de integración que ofrece SQL Server Integration Services 2016 con Hadoop y HDInsight
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
Segunda parte del Taller "Monta una Infraestructura Big Data para tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea en Enpresa Digitala. En esta segunda parte, se aborda la instalación de un cluster mediante Cloudera Manager 5
Introducción (en Español) al framework de procesamiento distribuido en memoria Apache Spark. Elementos básicos de Spark, RDD, incluye demo de las librerías SparkSQL y Spark Streaming
Presentado en www.nardoz.com
http://arjon.es/2014/08/14/introduccion-a-apache-spark-en-espanol/
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
Abstract de la charla realizada en SUGAR - Scala User Group Argentina
Apache Spark [1] es un framework para procesamiento distribuído diseñado para ser amigable para Data-Scientists y programadores, con soporte nativo a muchos lenguajes y diversidad de formatos de datos es extramadamente flexible. Cambiando el modelo establecido por Hadoop v1 de Map-Reduce por un grafo de ejecución (DAG) y manteniendo los pasos intermédios en RAM, Spark brinda excelente performance y una API muy expresiva.
Gustavo Arjones [2], CTO de Socialmetrix, va contar la experiencia que tuvieron al cambiarse de Hadoop a Spark y lo que los llevaron a este cambio. Esta charla es una introducción teorica y practica a Spark y sus distintos componentes.
Los tópicos a discutir son:
• Qué és?
• Aspectos que hacen Spark tan atractivo para la comunidad
• Plataforma unificada para Data Science (Batch, Stream, ML, Graph)
• Soporte a distintos lenguajes
• Ejecución: RDD y DAG / Task Scheduller
• Tracción de la comunidad (# commits, # commiters)
• testing, etc
• Demos:
• Spark-shell: Explicar paso a paso el WordCount
• LogAnalytics - compilar y submeter al cluster
• SQL/DataFrames: Demostrar que se puede consumir directamente JSON y hacer queries con SQL
[1] http://spark.apache.org
[2] https://linkedin.com/in/arjones
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
Esta presentación es la que utilicé como ponente de Mondragon Unibertsitatea para introducir al público asistente a la jornada de "Mitos y Realidades del Big Data" de Enpresa Digitala en su nodo de Goiru (http://www.euskadinnova.net/es/enpresa-digitala/agenda/mitos-realidades-data/8956.aspx?utm_source=rss_feed&utm_medium=rss&utm_campaign=accesos_rss). Se trata de una presentación donde se explican qué es y qué no es Big Data, enfocando sobre todo en la parte de almacenamiento, infraestructura, y análisis de los datos.
Material utilizado en la sesión técnica que tuvo lugar el 5 de mayo de 2016. A lo largo de la sesión Óscar Miró presentó ejemplos de qué es lo que funciona (y lo que no funciona) a nivel de análisis en proyectos de Big Data.
Sobre el ponente: Oscar Marín Miró (outliers.es)
Ingeniero de Telecomunicaciones, trabaja e investiga desde el año 2001 en lo que ahora llamamos ‘Big Data’. Especializado en el análisis de texto, redes sociales, datos urbanos y visualización de datos. Fundador del colectivo Outliers, desde donde se fomenta la aplicación del valor de los datos a todos los campos (Ciencia, Periodismo, Urbanismo, Sociología, Marketing…).
Miembro del equipo de investigación transdisciplinar DatAnalysis15m, enfocado en el análisis entre la viralidad y el contenido emocional del mensaje. En la faceta docente, imparte cursos regularmente sobre análisis y visualización de datos, en diversas Universidades, Compañías e Instituciones (UOC, UAB, Telenoika Audiovisual Community, Convent de Sant Agustí, Telefónica Digital).
Conociendo los servicios adicionales en big dataSpanishPASSVC
Todos han empezado a usar y a conocer Hadoop y HDInsight, en parte los lenguajes usados para su consumo, pero poco se hablado de los servicios complementarios que pueden enriquecer la experiencia BigData, conozca estos servicios y su aplicación.
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
http://university.solidq.com
Introducción a Big Data. Gracias a la nueva tecnología Microsoft Hadoop, tanto on-premise como en la nube, y a sus capacidades de almacenamiento, procesamiento y escalabilidad, podemos analizar grandes volúmenes de datos del orden de Terabytes o Petabytes de una forma rápida y con buen rendimiento. Es ahora el momento de familiarizarnos con la nueva forma de trabajar en Hadoop a la hora de extraer esa información distribuida por nuestros nodos. De la misma forma que hacemos con SQL Server, en esta sesión aprenderemos a desplegar y almacenar esa información en nuestros nodos, a crear consultas para extraer las partes que nos sean más útiles.
http://summit.solidq.com
Es innegable que los motores de BBDD transaccionales deben adaptarse a la posibilidad de gestionar datos no estructurados. Microsoft en SQL Server 2016 incluye un motor nuevo (llamado Polybase) que permite acceder con lenguaje Transact SQL a datos no estructurados y poder mezclarlos con datos estructurados. En esta sesión conocerá este nuevo motor y cómo empezar a integrar datos no estructurados en sus bases de datos transaccionales.
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ
Presentación de Javier Torrenteras en el SolidQ Business Analytics Day en Valencia (España)
- ¿Por qué Big data?
- Entonces...Haddoop ¿Qué es?
- ventajas y Componentes de Hadoop
-HD Insight, Windows Azure HDInsight
-Grandes DW
www.bisql.com
En esta presentacion explicamos el concepto de Big Data y Business Intelligence (Inteligencia de negocio), asi como tambien presentamos las herramientas basadas en software open source como son Hadoop y Pentaho que permiten implementar soluciones, hablamos de los ecosistemas disponibles y mas.
Big Data es un concepto que hace referencia a un gran conjunto datos complejos, de formato heterogéneos y que donde las aplicaciones y mecanismos tradicionales de procesamiento no resultan ser los más adecuados para procesarlos. Los desafíos dentro del Big Data incluyen el análisis, la captura, la transformación de datos, búsqueda, intercambio, almacenamiento, transferencia, visualización y privacidad de la información.
Inmerso en este nuevo ecosistema de datos de gran tamaño y sin formato, se encuentra Apache Hadoop, un framework de Software desarrollado en un principio por Yahoo, y que ha sido y está siendo el standard de la industria para el procesamiento masivo de datos dentro de un cluster de computadores.
En el presente meetup realizamos una breve descripción de la arquitectura de este framwork y cómo Hadoop puede integrarse con otras diferentes soluciones empresariales. A su vez revisamos como grandes empresas tecnológicas han visto y apostado por Apache Hadoop como una herramienta para construcción de soluciones y procesamiento de datos en entornos de Big Data.
Log -Analytics con Apache-Flume Elasticsearch HDFS KibanaFelix Rodriguez
I’ve recently started learning more about the tools and technologies that fall under the loose umbrella term of Big Data, let´s try to include getting Apache log data into Hadoop, and bringing Twitter data into Hadoop via ElasticSearch.
Log -Analytics with Apache-Flume Elasticsearch HDFS KibanaFelix Rodriguez
I’ve recently started learning more about the tools and technologies that fall under the loose umbrella term of Big Data, let´s try to get Apache log data into Hadoop, and bringing Info data into Hadoop via ElasticSearch.
CustomeR Life Value - CLV
El valor de vida del cliente (CLV) está ganando cada vez más importancia como una métrica de marketing. El CLV una herramienta para gestionar y medir el éxito de su negocio.
Manuel Perez
zerep.manuel@gmail.com
Carlos Ortega
cof@qualityexcellence.es
Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...OpenAnalytics Spain
Recopilación, limpieza y organización, análisis y visualización. Estas cuatro fases conforman el proceso de realización del periodismo de datos y en todas ellas las herramientas open source pueden servirnos de gran ayuda. A partir de dos ejemplos prácticos (mapa de paro municipal y The Migrants Files) mostraremos las utilidades de cinco aplicaciones en el desarrollo, análisis y tratamiento de grandes cantidades de datos: Detective.io (organización), Open Refine (limpieza), OpenOffice (análisis), QGIS (tratamiento geoespacial) y CartoDB (visualización cartográfica).
Daniele Grasso (@danielegrasso) aterrizó en Madrid en 2009, después de una licenciatura en Filología Española en Milán. Ha empezado sus primeros pasos como periodista en el mundo freelance, escribiendo para diferentes diarios mientras cursaba un Máster en Periodismo en la Universidad Complutense de Madrid. Después de una etapa en un pequeño periódico digital, trabajó como corresponsal para una agencia y un periódico transalpinos. En Septiembre de 2012 empezó a cursar el Máster en Periodismo de Investigación, Datos y Visualización de la Universidad Rey Juan Carlos y la Escuela de Periodismo de Unidad Editorial. Actualmente mezcla números y palabras en el periódico El Confidencial.
Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...OpenAnalytics Spain
Partiendo de un modelo de datos existente de la red social GPMESS se contará como con el procesamiento de tecnologías BigData se ha realizado:
La extracción y agrupación de los temas relevantes (identificación de las palabras más importantes).
El análisis de crowded place, identificación y aviso automático de zonas en las que de repente se empiezan a crear yipis.
El análisis de información para saber sitios populares.
Open Analytics 2014 - Pedro Alves - Innovation though Open SourceOpenAnalytics Spain
Delivering the Future of Analytics: Innovation through Open Source Pentaho was born out of the desire to achieve positive, disruptive change in the business analytics market, dominated by bureaucratic megavendors offering expensive heavy-weight products built on outdated technology platforms. Pentaho’s open, embeddable data integration and analytics platform was developed with a strong open source heritage. This provided Pentaho a first-mover advantage to engage early with adopters of big data technologies and solve the difficult challenges of integrating both established and emerging data types to drive analytics. Continued technology innovations to support the big data ecosystem, have kept customers ahead of the big data curve. With the ability to drastically reduce the time to design, develop and deploy big data solutions, Pentaho counts numerous big data customers, both large and small, across the financial services, retail, travel, healthcare and government industries around the world.
Open Analytics 2014 - Emilio Arias - Intro evento + Business AnalyticsOpenAnalytics Spain
Durante la charla se comentará la situación actual del Business Intelligence, sus aplicaciones actuales y el futuro que depara al sector, con la aplicación de nuevas tendencias como Social Intelligence, Big Data, Análisis, Predictivo, Open Source, Open Data…..
Knime es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual y amigable. Su desarrollo está bajo licencia GPL y está programado sobre la plataforma Eclipse y Java.En la charla se mostrará cómo realizar un proyecto de minería de datos y análisis con algoritmos conocidos para clasificación, asociación o predicción de datos empresariales.
Presentado por Diego García :
Ingeniero informático e investigador en la Universidad de Cantabria. Profesor de asignaturas del grado en informática de DataMining, Inteligencia Artificial y Algoritmia. En el campo de la investigación busca detectar patrones de comportamiento en plataformas E-learning para mejorar la docencia.
Son muchas las herramientas de ETLs existentes en el mercado, pero pocas que estén al nivel de Talend. En esta charla se mostrará la herramienta Talend y un proceso ETL a Facebook. Por Eduardo Fernández. Experto en creación y desarollo de procesos ETL de Stratebi.
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics Spain
Diego García, joven investigador de a Universidad de Cantabria en proyectos de minería de datos en ambientes de aprendizaje e-learning, repasó los algoritmos de minería de datos y alternativas de software libre para abordar proyectos de Data Mining.
OpenAnalytics - Smartcities y Software libre por Ignacio BustilloOpenAnalytics Spain
Coordinador de proyectos I+D en Stratebi, empresa de analítica de datos, mostró el punto de vista de las SmartCities en el mundo Open Source y cómo el BigData aporta soluciones a este tipo de proyectos.
Desarrollador en el proyecto EspañaEnLlamas.com, caso de éxito de proyecto de Periodismo de datos, el cual busca visualizar y navegar por datos inéditos de todos los incendios forestales de 100 hectáreas o más ocurridos en España.
OpenAnalytics - OpenData orientado al mundo empresarial por Alberto AbellaOpenAnalytics Spain
Alberto Abella, presidente de la Open Knowledge Foundation de España, fundación del conocimiento abierto, repasó los beneficios que tiene el Open Data y su uso en los entornos empresariales y públicos para la toma de decisiones.
Iván del Prado, CEO de Datasalt y uno de los creadores de Pangool Hadoop API y Splout SQL repasó las necesidades de usar tecnologías y procesos BigData y las alternativas libres para abordar proyectos de diversa índole.
Open Analytics - Data Quality por Diego Martínez de EquifaxOpenAnalytics Spain
Diego Martínez, IT Project Manager de Data Quality de Equifax repasó cómo han abordado desde Equifax la integración de datos en el sector crediticio con herramientas Open Source como Pentaho Data Integration.
Emilio Arias, profesor asociado en la Universidad Oberta de Cataluña y creador del blog de referencia de Business Intelligence "Todobi.com" repasó en el evento las nuevas tecnologías y corrientes de análisis de datos de Business Intelligence.
En este documento analizamos ciertos conceptos relacionados con la ficha 1 y 2. Y concluimos, dando el porque es importante desarrollar nuestras habilidades de pensamiento.
Sara Sofia Bedoya Montezuma.
9-1.
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Telefónica
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0xWord escrito por Ibón Reinoso ( https://mypublicinbox.com/IBhone ) con Prólogo de Chema Alonso ( https://mypublicinbox.com/ChemaAlonso ). Puedes comprarlo aquí: https://0xword.com/es/libros/233-big-data-tecnologias-para-arquitecturas-data-centric.html
3Redu: Responsabilidad, Resiliencia y Respetocdraco
¡Hola! Somos 3Redu, conformados por Juan Camilo y Cristian. Entendemos las dificultades que enfrentan muchos estudiantes al tratar de comprender conceptos matemáticos. Nuestro objetivo es brindar una solución inclusiva y accesible para todos.
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...espinozaernesto427
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta intensidad son un tipo de lámpara eléctrica de descarga de gas que produce luz por medio de un arco eléctrico entre electrodos de tungsteno alojados dentro de un tubo de alúmina o cuarzo moldeado translúcido o transparente.
lámparas más eficientes del mercado, debido a su menor consumo y por la cantidad de luz que emiten. Adquieren una vida útil de hasta 50.000 horas y no generan calor alguna. Si quieres cambiar la iluminación de tu hogar para hacerla mucho más eficiente, ¡esta es tu mejor opción!
Las nuevas lámparas de descarga de alta intensidad producen más luz visible por unidad de energía eléctrica consumida que las lámparas fluorescentes e incandescentes, ya que una mayor proporción de su radiación es luz visible, en contraste con la infrarroja. Sin embargo, la salida de lúmenes de la iluminación HID puede deteriorarse hasta en un 70% durante 10,000 horas de funcionamiento.
Muchos vehículos modernos usan bombillas HID para los principales sistemas de iluminación, aunque algunas aplicaciones ahora están pasando de bombillas HID a tecnología LED y láser.1 Modelos de lámparas van desde las típicas lámparas de 35 a 100 W de los autos, a las de más de 15 kW que se utilizan en los proyectores de cines IMAX.
Esta tecnología HID no es nueva y fue demostrada por primera vez por Francis Hauksbee en 1705. Lámpara de Nernst.
Lámpara incandescente.
Lámpara de descarga. Lámpara fluorescente. Lámpara fluorescente compacta. Lámpara de haluro metálico. Lámpara de vapor de sodio. Lámpara de vapor de mercurio. Lámpara de neón. Lámpara de deuterio. Lámpara xenón.
Lámpara LED.
Lámpara de plasma.
Flash (fotografía) Las lámparas de descarga de alta intensidad (HID) son un tipo de lámparas de descarga de gas muy utilizadas en la industria de la iluminación. Estas lámparas producen luz creando un arco eléctrico entre dos electrodos a través de un gas ionizado. Las lámparas HID son conocidas por su gran eficacia a la hora de convertir la electricidad en luz y por su larga vida útil.
A diferencia de las luces fluorescentes, que necesitan un recubrimiento de fósforo para emitir luz visible, las lámparas HID no necesitan ningún recubrimiento en el interior de sus tubos. El propio arco eléctrico emite luz visible. Sin embargo, algunas lámparas de halogenuros metálicos y muchas lámparas de vapor de mercurio tienen un recubrimiento de fósforo en el interior de la bombilla para mejorar el espectro luminoso y reproducción cromática. Las lámparas HID están disponibles en varias potencias, que van desde los 25 vatios de las lámparas de halogenuros metálicos autobalastradas y los 35 vatios de las lámparas de vapor de sodio de alta intensidad hasta los 1.000 vatios de las lámparas de vapor de mercurio y vapor de sodio de alta intensidad, e incluso hasta los 1.500 vatios de las lámparas de halogenuros metálicos.
Las lámparas HID requieren un equipo de control especial llamado balasto para funcionar
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
Actualmente, y debido al desarrollo tecnológico de campos como la informática y la electrónica, la mayoría de las bases de datos están en formato digital, siendo este un componente electrónico, por tanto se ha desarrollado y se ofrece un amplio rango de soluciones al problema del almacenamiento de datos.
1. Fco.
Javier
Lahoz
Sevilla
Data
Analy6cs
con
Hadoop
Data
Analy6cs
Data
Value
Data
Ingest
2. Agenda
Fco.
Javier
Lahoz
Sevilla
– ¿Qué
es
Hadoop?
– Técnicas
para
capturar
datos
– Análisis
de
datos
con
Hadoop
– Casos
prác6cos
3. Myself
Ø Licenciado
en
CC.
Matemá6cas
e
Ingeniero
Técnico
en
Informá6ca
de
Ges6ón.
Ø Empecé
a
trabajar
en
IT
hace
más
de
14
años.
Ø Actualmente
trabajo
en
el
área
de
arquitectura
de
una
en6dad
financiera
como
Arquitecto
Big
Data
diseñando
soluciones
en
entornos
Big
Data.
Ø Instructor
de
Hadoop.
Ø Soy
un
entusiasta
de
la
analí6ca
de
los
datos
en
con6nua
formación
en
técnicas
de
Machine
Learning
y
Data
Mining.
Fco.
Javier
Lahoz
Sevilla
hUps://www.linkedin.com/in/fcojavierlahoz
4. What’s
that?
Hadoop
es
un
sistema
de
código
abierto
que
se
u6liza
para
almacenar,
procesar
y
explotar
grades
volúmenes
de
datos.
Hadoop
se
inspiró
en
los
documentos
de
Google
para
MapReduce
y
Google
File
System.
Componentes:
• HDFS.
El
Hadoop
Distributed
File
System
es
un
sistema
de
archivos
distribuido,
escalable
y
tolerante
a
fallos.
• MapReduce.
Paradigma
de
computación
paralela
donde
se
distribuyen
las
tareas
para
su
procesamiento
unitario
(Map)
y
se
agrupan
una
vez
procesados
(Reduce).
Fco.
Javier
Lahoz
Sevilla
5. Técnicas
para
capturar
datos
Se
pueden
capturar
datos
de
dis6nta
6pología:
Fco.
Javier
Lahoz
Sevilla
6. Técnicas
para
capturar
datos
Se
pueden
capturar
datos
de
dis6nta
6pología:
Fco.
Javier
Lahoz
Sevilla
7. Técnicas
para
capturar
datos
Se
pueden
capturar
datos
de
dis6nta
6pología:
Fco.
Javier
Lahoz
Sevilla
8. Técnicas
para
capturar
datos
Se
pueden
capturar
datos
de
dis6nta
6pología:
Fco.
Javier
Lahoz
Sevilla
9. Técnicas
para
capturar
datos
Para
poder
ingestar
este
variedad
de
datos
surge
la
necesidad
de
dis6ntas
herramientas:
Fco.
Javier
Lahoz
Sevilla
10. Técnicas
para
capturar
datos
Para
poder
ingestar
este
variedad
de
datos
surge
la
necesidad
de
dis6ntas
herramientas:
• Flume,
es
una
herramienta
distribuida,
fiable
y
escalable
para
la
recolección,
agregación
y
carga
de
grandes
can6dades
de
datos.
Fco.
Javier
Lahoz
Sevilla
11. Técnicas
para
capturar
datos
Para
poder
ingestar
este
variedad
de
datos
surge
la
necesidad
de
dis6ntas
herramientas:
• Flume,
es
una
herramienta
distribuida,
fiable
y
escalable
para
la
recolección,
agregación
y
carga
de
grandes
can6dades
de
datos.
• Sqoop,
está
diseñada
para
transferir
datos
de
manera
eficiente
y
escalable
de
bases
de
datos
relacionales
a
Hadoop.
Fco.
Javier
Lahoz
Sevilla
12. Técnicas
para
capturar
datos
-‐
Flume
Flume
6ene
una
arquitectura
simple
y
flexible
basada
en
el
streaming
de
datos.
Es
tolerante
a
fallos
y
escalable.
Se
basa
en
una
configuración
descentralizada
basada
en
ficheros
planos.
Fco.
Javier
Lahoz
Sevilla
13.
La
arquitectura
de
Flume
está
basada
en
agentes:
Agente
Técnicas
para
capturar
datos
-‐
Flume
Fco.
Javier
Lahoz
Sevilla
Source
Sink
Channel
Datos
Datos
14. Técnicas
para
capturar
datos
-‐
Sqoop
Con
Sqoop
se
puede
importar
datos
de
bases
de
datos
relacionales
a
HDFS,
Hive
o
HBase.
Algunas
bases
de
datos
serían:
– Oracle
– MySQL
– Teradata
– DB2
– ….
También
se
pueden
exportar
ficheros
de
HDFS
a
bases
de
datos
relacionales.
Fco.
Javier
Lahoz
Sevilla
15. Técnicas
para
capturar
datos
-‐
Sqoop
Caracterís6cas
de
Sqoop:
• Sqoop
puede
importar
una
tabla
o
una
esquema
de
base
de
datos.
• También
se
pueden
filtrar
los
datos
de
una
tabla,
por
ejemplo,
para
cargar
incrementales
basados
en
una
fecha
de
alta
o
modificación.
• Permite
proyectar
una
tabla
recuperando
sólo
los
campos
requeridos.
Fco.
Javier
Lahoz
Sevilla
16. Análisis
de
datos
con
Hadoop
Cuando
ya
tenemos
datos
cargados
en
nuestro
Cluster
de
Hadoop
existen
dis6ntas
herramientas
para
analizar
los
datos
según
el
lenguaje
a
u6lizar.
También
existen
herramientas
OpenSource
y
comerciales
que,
mediante
workflows,
nos
permiten
procesar
y
analizar
los
datos.
Fco.
Javier
Lahoz
Sevilla
17. Análisis
de
datos
con
Hadoop
Existen
diversas
tecnologías
para
analizar
los
datos
según
los
lenguajes
comentados
anteriormente.
Por
ejemplo:
• MapReduce,
framework
desarrollado
en
Java
para
procesamiento
batch.
Fco.
Javier
Lahoz
Sevilla
18. Análisis
de
datos
con
Hadoop
Existen
diversas
tecnologías
para
analizar
los
datos
según
los
lenguajes
comentados
anteriormente.
Por
ejemplo:
• MapReduce,
framework
desarrollado
en
Java
para
procesamiento
batch.
• Spark,
para
procesamiento
paralelo
en
memoria.
Se
puede
implementar
en
Scala,
Python
y
Java,
permi6endo
analizar
datos
a
través
de
SparkSQL
y
SparkStreaming,
entre
otros.
Fco.
Javier
Lahoz
Sevilla
19. Análisis
de
datos
con
Hadoop
Existen
diversas
tecnologías
para
analizar
los
datos
según
los
lenguajes
comentados
anteriormente.
Por
ejemplo:
• MapReduce,
framework
desarrollado
en
Java
para
procesamiento
batch.
• Spark,
para
procesamiento
paralelo
en
memoria.
Se
puede
implementar
en
Scala,
Python
y
Java,
permi6endo
analizar
datos
a
través
de
SparkSQL
y
SparkStreaming,
entre
otros.
• Hive,
abstraccion
por
encima
de
Hadoop
para
ejecutar
procesos
MapReduce
mediante
un
interfaz
SQL.
Fco.
Javier
Lahoz
Sevilla
20. Análisis
de
datos
con
Hadoop
Existen
diversas
tecnologías
para
analizar
los
datos
según
los
lenguajes
comentados
anteriormente.
Por
ejemplo:
• MapReduce,
framework
desarrollado
en
Java
para
procesamiento
batch.
• Spark,
para
procesamiento
paralelo
en
memoria.
Se
puede
implementar
en
Scala,
Python
y
Java,
permi6endo
analizar
datos
a
través
de
SparkSQL
y
SparkStreaming,
entre
otros.
• Hive,
abstraccion
por
encima
de
Hadoop
para
ejecutar
procesos
MapReduce
mediante
un
interfaz
SQL.
• Pig,
lenguaje
de
alto
nivel
para
el
procesamiento
de
procesos
MapReduce
mediante
flujos
de
datos.
Fco.
Javier
Lahoz
Sevilla
21. Análisis
de
datos
con
Hadoop
-‐
Hive
Hive
es
un
sistema
de
almacen
de
datos
(data
warehouse)
capaz
de
seleccionar
y
ges6onar
grandes
conjuntos
de
datos
almacenados
en
HDFS.
Se
implementa
en
SQL
(HiveQL).
Fco.
Javier
Lahoz
Sevilla
22. Análisis
de
datos
con
Hadoop
-‐
Hive
Hive
es
un
sistema
de
almacen
de
datos
(data
warehouse)
capaz
de
seleccionar
y
ges6onar
grandes
conjuntos
de
datos
almacenados
en
HDFS.
Se
implementa
en
SQL
(HiveQL).
Hive
NO
es
una
base
de
datos
y
usa
los
recursos
de
Hadoop
para
almacenar
y
procesar.
Sólo
implementa
un
subconjunto
del
estandard
SQL.
Tiene
latencias
grandes
(por
el
uso
de
MapReduce).
Fco.
Javier
Lahoz
Sevilla
23. Análisis
de
datos
con
Hadoop
-‐
Hive
Casos
de
Uso:
• Almacenamiento
histórico
ges6onado
con
par6ciones,
por
ejemplo
con
fecha
(año,
mes,
día).
• Para
repor6ng
tradicional
o
avanzado
a
través
de
herramientas
de
BI.
• Para
analí6ca
avanzada
mediante
paquetes
estadís6cos,
como
por
ejemplo,
R.
Fco.
Javier
Lahoz
Sevilla
24. Análisis
de
datos
con
Hadoop
-‐
Hive
Arquitectura
de
Hive:
• Hive
usa
un
schema
“on
read”
lo
que
implica
que
no
se
validan
los
datos
cuando
se
cargan
o
se
insertan
y
pueden
no
ser
correctos
cuando
se
consultan
devolviendo
valores
NULL.
• Los
datos
se
almacenan
en
ficheros
dentro
del
HDFS
en
el
siguiente
path
(por
defecto):
/user/hive/warehouse/<db_name>.db/<db_table>/
Fco.
Javier
Lahoz
Sevilla
25. Análisis
de
datos
con
Hadoop
-‐
Hive
• Los
metadatos
(estructuras)
se
almacenan
en
el
Metastore
que
está
compuesto
por
un
servicio
y
un
repositorio.
Hay
varios
6pos
de
metastore:
– Metastore
embebido
– Metastore
local
– Metastore
remoto:
Fco.
Javier
Lahoz
Sevilla
Metastore
MySQL
Hive
Cli
BI
Tools
HiveServer2
26. Análisis
de
datos
con
Hadoop
-‐
Pig
Pig
es
una
plataforma
para
el
análisis
de
grandes
conjuntos
de
datos
que
consiste
en
un
lenguaje
de
alto
nivel
para
expresar
programas
de
análisis
de
datos.
En
Pig
se
procesa
la
información
como
un
flujo
de
datos
encadenando
las
salidas
y
entradas
de
las
operaciones.
Las
operaciones
realizadas
en
Pig
se
transforman
en
procesos
MapReduce
que
se
ejecutan
sobre
el
Cluster.
Fco.
Javier
Lahoz
Sevilla
27. Análisis
de
datos
con
Hadoop
-‐
Pig
Arquitectura
de
Pig:
Pig
es
una
capa
que
está
por
encima
de
Hadoop.
Los
flujos
de
datos
se
procesarán
con
MapReduce
leyendo
y
escribiendo
en
HDFS
u
otras
fuentes
(MongoDB,
Cassandra,
HBase)
Fco.
Javier
Lahoz
Sevilla
Pig
Scrip6ng
MapReduce
HDFS
28. Análisis
de
datos
con
Hadoop
-‐
Pig
Flujo
de
ejecución
con
Pig:
Operaciones
Relacionales
Fco.
Javier
Lahoz
Sevilla
Datos
Datos
Load
Data
Transform
Data
Store
Data
29. Análisis
de
datos
con
Hadoop
-‐
Pig
Flujo
de
ejecución
con
Pig:
Operaciones
Relacionales
A
=
load
‘test.csv’
using
PigStorage(‘,’);
Fco.
Javier
Lahoz
Sevilla
Datos
Datos
Load
Data
Transform
Data
Store
Data
30. Análisis
de
datos
con
Hadoop
-‐
Pig
Flujo
de
ejecución
con
Pig:
Operaciones
Relacionales
A
=
load
‘test.csv’
using
PigStorage(‘,’);
B
=
foreach
A
generate
$0
as
id;
Fco.
Javier
Lahoz
Sevilla
Datos
Datos
Load
Data
Transform
Data
Store
Data
31. Análisis
de
datos
con
Hadoop
-‐
Pig
Flujo
de
ejecución
con
Pig:
Operaciones
Relacionales
A
=
load
‘test.csv’
using
PigStorage(‘,’);
B
=
foreach
A
generate
$0
as
id;
store
B
into
‘result.csv’
Fco.
Javier
Lahoz
Sevilla
Datos
Datos
Load
Data
Transform
Data
Store
Data
32. Casos
prác6cos
Fco.
Javier
Lahoz
Sevilla
Ø Análisis
de
Tweets
con
Hive
Ø Procesamiento
de
datos
mediante
Pig
33. ¿Ganas
de
más?
Ø Cursos
online
en
la
plataforma
SoyData.net
(BigData4Success):
Fco.
Javier
Lahoz
Sevilla
ü Introducción
a
Hadoop
e
instalación
en
AWS
ü Inges6ón
y
análisis
de
datos
con
casos
prác6cos
desplegados
en
AWS
Cupón
de
promoción:
PROMOLANZAMIENTO
34. Q
&
A
Thank
you
for
your
aUen6on!!
Fco.
Javier
Lahoz
Sevilla
35. Fco.
Javier
Lahoz
Sevilla
Data
Analy6cs
con
Hadoop
Data
Analy6cs
Data
Value
Data
Ingest