Primeros pasos con Spark dentro del Apache Spark Meetup group de Madrid (http://www.meetup.com/Madrid-Apache-Spark-meetup/events/198362002/)
Contenido:
- Introdución
- Conceptos básicos
- Ecosistema Spark
- Instalación del entorno
- Errores comunes
Tutorial en Apache Spark - Clasificando tweets en realtimeSocialmetrix
Apache Spark [1] es un nuevo framework de procesamiento distribuido para big data, escrito en Scala con wrappers para Python, que viene generando mucha atención de la comunidad por su potencia, simplicidad de uso y velocidad de procesamiento. Ya siendo llamado como el remplazo de Apache Hadoop.
Socialmetrix desarrolla soluciones en este framework para generar reportes y dashboards de información a partir de los datos extraídos de redes sociales.
Los participantes de este tutorial van aprender a levantar información de Twitter usando Spark Streaming, Desarrollar algoritmos para calcular hashtags más frecuentes, usuarios más activos en batch processing aplicarlos en realtime a los nuevos tweets que lleguen a través del stream.
Introducción (en Español) al framework de procesamiento distribuido en memoria Apache Spark. Elementos básicos de Spark, RDD, incluye demo de las librerías SparkSQL y Spark Streaming
Presentado en www.nardoz.com
http://arjon.es/2014/08/14/introduccion-a-apache-spark-en-espanol/
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
Abstract de la charla realizada en SUGAR - Scala User Group Argentina
Apache Spark [1] es un framework para procesamiento distribuído diseñado para ser amigable para Data-Scientists y programadores, con soporte nativo a muchos lenguajes y diversidad de formatos de datos es extramadamente flexible. Cambiando el modelo establecido por Hadoop v1 de Map-Reduce por un grafo de ejecución (DAG) y manteniendo los pasos intermédios en RAM, Spark brinda excelente performance y una API muy expresiva.
Gustavo Arjones [2], CTO de Socialmetrix, va contar la experiencia que tuvieron al cambiarse de Hadoop a Spark y lo que los llevaron a este cambio. Esta charla es una introducción teorica y practica a Spark y sus distintos componentes.
Los tópicos a discutir son:
• Qué és?
• Aspectos que hacen Spark tan atractivo para la comunidad
• Plataforma unificada para Data Science (Batch, Stream, ML, Graph)
• Soporte a distintos lenguajes
• Ejecución: RDD y DAG / Task Scheduller
• Tracción de la comunidad (# commits, # commiters)
• testing, etc
• Demos:
• Spark-shell: Explicar paso a paso el WordCount
• LogAnalytics - compilar y submeter al cluster
• SQL/DataFrames: Demostrar que se puede consumir directamente JSON y hacer queries con SQL
[1] http://spark.apache.org
[2] https://linkedin.com/in/arjones
Apache Spark es un framework para procesamiento de grandes cantidades de datos. Ha sido diseñado para ser el sucesor de Hadoop siendo hasta 100 veces mas rápido utilizando procesamiento en memoria. Provee interfaces de programación con Scala, Python y Java.
En este Webinar exploraremos las capacidades de Spark y su ecosistema para resolver problemas de Big Data así como su interoperabilidad con diferentes orígenes de datos HDFS, HBase y Apache Mesos. Exploraremos las principales librerías del ecosistema: Spark Streaming, SparkSQL, GraphX y MLlib.
Realizar análisis de datos cuando se tienen que cruzar grandes cantidades de información, procesarla y limpiarla es un reto difícil y dispendioso. Apache Spark es un framework para procesar grandes cantidades de información.
Tutorial en Apache Spark - Clasificando tweets en realtimeSocialmetrix
Apache Spark [1] es un nuevo framework de procesamiento distribuido para big data, escrito en Scala con wrappers para Python, que viene generando mucha atención de la comunidad por su potencia, simplicidad de uso y velocidad de procesamiento. Ya siendo llamado como el remplazo de Apache Hadoop.
Socialmetrix desarrolla soluciones en este framework para generar reportes y dashboards de información a partir de los datos extraídos de redes sociales.
Los participantes de este tutorial van aprender a levantar información de Twitter usando Spark Streaming, Desarrollar algoritmos para calcular hashtags más frecuentes, usuarios más activos en batch processing aplicarlos en realtime a los nuevos tweets que lleguen a través del stream.
Introducción (en Español) al framework de procesamiento distribuido en memoria Apache Spark. Elementos básicos de Spark, RDD, incluye demo de las librerías SparkSQL y Spark Streaming
Presentado en www.nardoz.com
http://arjon.es/2014/08/14/introduccion-a-apache-spark-en-espanol/
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
Abstract de la charla realizada en SUGAR - Scala User Group Argentina
Apache Spark [1] es un framework para procesamiento distribuído diseñado para ser amigable para Data-Scientists y programadores, con soporte nativo a muchos lenguajes y diversidad de formatos de datos es extramadamente flexible. Cambiando el modelo establecido por Hadoop v1 de Map-Reduce por un grafo de ejecución (DAG) y manteniendo los pasos intermédios en RAM, Spark brinda excelente performance y una API muy expresiva.
Gustavo Arjones [2], CTO de Socialmetrix, va contar la experiencia que tuvieron al cambiarse de Hadoop a Spark y lo que los llevaron a este cambio. Esta charla es una introducción teorica y practica a Spark y sus distintos componentes.
Los tópicos a discutir son:
• Qué és?
• Aspectos que hacen Spark tan atractivo para la comunidad
• Plataforma unificada para Data Science (Batch, Stream, ML, Graph)
• Soporte a distintos lenguajes
• Ejecución: RDD y DAG / Task Scheduller
• Tracción de la comunidad (# commits, # commiters)
• testing, etc
• Demos:
• Spark-shell: Explicar paso a paso el WordCount
• LogAnalytics - compilar y submeter al cluster
• SQL/DataFrames: Demostrar que se puede consumir directamente JSON y hacer queries con SQL
[1] http://spark.apache.org
[2] https://linkedin.com/in/arjones
Apache Spark es un framework para procesamiento de grandes cantidades de datos. Ha sido diseñado para ser el sucesor de Hadoop siendo hasta 100 veces mas rápido utilizando procesamiento en memoria. Provee interfaces de programación con Scala, Python y Java.
En este Webinar exploraremos las capacidades de Spark y su ecosistema para resolver problemas de Big Data así como su interoperabilidad con diferentes orígenes de datos HDFS, HBase y Apache Mesos. Exploraremos las principales librerías del ecosistema: Spark Streaming, SparkSQL, GraphX y MLlib.
Realizar análisis de datos cuando se tienen que cruzar grandes cantidades de información, procesarla y limpiarla es un reto difícil y dispendioso. Apache Spark es un framework para procesar grandes cantidades de información.
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Socialmetrix
Socialmetrix lleva 6 años desarrollando soluciones para capturar, limpiar, organizar, procesar, almacenar y presentar información.
Los desafíos involucraron siempre seguir escalando en volumen de procesamiento y las funcionalidades a nuestros clientes.
Estas directivas nos llevaron hacia una búsqueda de soluciones innovadoras y tecnologías que nos permitan competir en un mercado global manteniendo la inversión y los costos bajo control.
Esta charla presenta las técnicas y tecnologías involucradas en el desarrollo de nuestros productos junto con los errores que cometimos y lecciones que aprendimos durante el desarrollo.
Spark 2.0 estará entre nosotros en los próximos meses, nuestro amado Framework de procesamiento en paralelo va a sufrir un gran cambio y debemos estar preparados para afrontarlo.
Durante meses la comunidad y Databricks han estado trabajando en Spark para atender a todas las peticiones de usuarios, se han esforzado en desarrollar potentes utilidades y en continuar haciendo de Spark la herramienta numero uno de Big Data.
Taller: Limpieza y preparación de datos con Optimus y Apache SparkSoftware Guru
En este taller, impartido por uno de los desarrolladores de Optimus, aprenderás a realizar limpieza y preparación de datos utilizando Optimus en conjunto con Apache Spark y Python (PySpark).
Por Favio Vázquez
En esta plática exploraremos el modelo que Amazon utiliza para innovar. Compartiremos como lo ha aplicado en distintos negocios enfocados en diferentes mercados, cuáles son los pilares de su modelo de innovación, y como este modelo está íntimamente ligado a su cultura y procesos de negocio.
Por: Alejandro Flores
Machine learning usando Weka, en un entorno de cómputo distribuidoSoftware Guru
En esta sesión mostraremos lo sencillo que es implementar algoritmos de machine learning en un entorno de cómputo distribuido por medio de Weka. Weka es una herramienta de software libre para data mining y machine learning, la cual fue desarrollada por la Universidad de Waikato en Nueva Zelanda.
Por Alexandra Lemus (VinkOS)
En esta sesión daremos una vuelta completa al paralelismo en SQL Server, hablaremos de parámetros de configuración, planes de ejecución paralelos, operadores paralelos y mucho más. Además veremos cómo monitorizar y detectar problemas de paralelismo y las posibles soluciones.
¿Qué hace interesante esta ponencia? Aprovechar mejor el HW disponible para que el retorno de inversión sea mejor
¿Qué aprende nuestro público? Aprenderemos a entender que hay que tener presente siempre el HW sobre el que se está ejecutando nuestra consulta, para sacarle mayor provecho
Agenda:
CDB vs no-CDB
¿Qué es una PDB?
¿Qué es el Root?
¿Qué es el Seed?
Instancia en un CDB
Diccionario en un CDB
Común vs Local
Cloud y Oracle Multitenant
Introducción a Apache Spark a través de un caso de uso cotidianoSocialmetrix
Esta presentación está orientada a introducir Apache Spark a través de un caso de uso cotidiano. Mostraremos cómo diseñar una solución para generar código mantenible y testeable. Esto es crucial en ambientes con grandes volúmenes de datos y tiempos de procesamiento prolongados, donde un error implica un gran esfuerzo en el reproceso.
La charla fue realizada en la JavaConf 2014.
El source code está disponible acá: https://github.com/socialmetrix/spark-javaconf
This is achieved thanks to its generic architecture and the definition of a custom SQL-like language. Our language augments the classical SQL data manipulation language in order to add support for streaming queries. From the point of view of the user, a common logical view of the existing catalogs and datastores is presented independently of which cluster or technology stores a particular table.
Supporting multiple architectures imposes two main challenges: how to normalize the access to the datastores, and how to cope with datastore limitations. In order to be able to access multiple datastore technologies Crossdata defines a common unifying interface containing a basic set of operations that a datastore may support. New connectors can be easily added to Crossdata to increase its connectivity
Crossdata: an efficient distributed datahub with batch and streaming query ca...Álvaro Agea Herradón
Big Data analysis is commonly associated with batch processing of data stored in distributed file systems. The advent of streaming data is exposing the shortcomings of the traditional data analysis. Users aiming to combine both worlds - batch processing and streaming - had to turn to unreliable in-house developments. We propose Stratio META to meet this new need. META is a technology based on a structured NoSQL datastore with advanced indexing capabilities. META includes an efficient query planner designed from scratch. The planner determines which is the optimal path to execute a query and which components should be involved.
StratioDeep: an Integration Layer Between Spark and Cassandra - Spark Summit ...Álvaro Agea Herradón
We present StratioDeep, an integration layer between the Spark distributed computing framework and Cassandra, a NoSQL distributed database.
Cassandra brings together the distributed system technologies from Dynamo and the data model from Google’s BigTable. Like Dynamo, Cassandra is eventually consistent and based on a P2P model without a single point of failure. Like BigTable, Cassandra provides a ColumnFamily-based data model richer than typical key/value systems. For these reasons, C* is one of the most popular NoSQL databases, but one of its handicaps is that it’s necessary to model the schema on the executed queries. This is because C* is oriented to search by key.
Integrating C* and Spark gives us a system that combines the best of both worlds.
Existing integrations between the two systems are not satisfactory: they basically provide an HDFS abstraction layer over C*. We believe this solution is not efficient because introduces an important overhead between the two systems.
The purpose of our work has been to provide an much lower-level integration that not only performs better, it also opens to Cassandra the possibility to solve a wide range of new use cases thanks to the powerfulness of the Spark distributed computing framework.
We’ve already deployed this solution in real applications with diverse clients: pattern detection, log mining, fraud detection, sentiment analysis and financial transaction analysis.
In addition this integration is the building block for our challenging and novel Lambda architecture completely based on Cassandra.
In order to complete the integration, we provide a seamless extension to the Cassandra Query Language: CQL is oriented to key-based search. As such, it is not a good choice to perform queries that move an huge amount of data. We’ve extended CQL in order to provide a user-friendly interface. This is a new approach for batch processing over C*. It consists in an abstraction layer that translates custom CQL queries to Spark jobs and delegates the complexity of distributing the query itself over the underlying cluster of commodity machines to Spar
Presentación en castellano escrita por Alex Rayón, revisada y extendida por Diego López de Ipiña, cuyo objetivo es indicar el potencial del paradigma cloud computing para el mundo empresarial y los profesionales en Economía y Gestión empresarial
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Socialmetrix
Socialmetrix lleva 6 años desarrollando soluciones para capturar, limpiar, organizar, procesar, almacenar y presentar información.
Los desafíos involucraron siempre seguir escalando en volumen de procesamiento y las funcionalidades a nuestros clientes.
Estas directivas nos llevaron hacia una búsqueda de soluciones innovadoras y tecnologías que nos permitan competir en un mercado global manteniendo la inversión y los costos bajo control.
Esta charla presenta las técnicas y tecnologías involucradas en el desarrollo de nuestros productos junto con los errores que cometimos y lecciones que aprendimos durante el desarrollo.
Spark 2.0 estará entre nosotros en los próximos meses, nuestro amado Framework de procesamiento en paralelo va a sufrir un gran cambio y debemos estar preparados para afrontarlo.
Durante meses la comunidad y Databricks han estado trabajando en Spark para atender a todas las peticiones de usuarios, se han esforzado en desarrollar potentes utilidades y en continuar haciendo de Spark la herramienta numero uno de Big Data.
Taller: Limpieza y preparación de datos con Optimus y Apache SparkSoftware Guru
En este taller, impartido por uno de los desarrolladores de Optimus, aprenderás a realizar limpieza y preparación de datos utilizando Optimus en conjunto con Apache Spark y Python (PySpark).
Por Favio Vázquez
En esta plática exploraremos el modelo que Amazon utiliza para innovar. Compartiremos como lo ha aplicado en distintos negocios enfocados en diferentes mercados, cuáles son los pilares de su modelo de innovación, y como este modelo está íntimamente ligado a su cultura y procesos de negocio.
Por: Alejandro Flores
Machine learning usando Weka, en un entorno de cómputo distribuidoSoftware Guru
En esta sesión mostraremos lo sencillo que es implementar algoritmos de machine learning en un entorno de cómputo distribuido por medio de Weka. Weka es una herramienta de software libre para data mining y machine learning, la cual fue desarrollada por la Universidad de Waikato en Nueva Zelanda.
Por Alexandra Lemus (VinkOS)
En esta sesión daremos una vuelta completa al paralelismo en SQL Server, hablaremos de parámetros de configuración, planes de ejecución paralelos, operadores paralelos y mucho más. Además veremos cómo monitorizar y detectar problemas de paralelismo y las posibles soluciones.
¿Qué hace interesante esta ponencia? Aprovechar mejor el HW disponible para que el retorno de inversión sea mejor
¿Qué aprende nuestro público? Aprenderemos a entender que hay que tener presente siempre el HW sobre el que se está ejecutando nuestra consulta, para sacarle mayor provecho
Agenda:
CDB vs no-CDB
¿Qué es una PDB?
¿Qué es el Root?
¿Qué es el Seed?
Instancia en un CDB
Diccionario en un CDB
Común vs Local
Cloud y Oracle Multitenant
Introducción a Apache Spark a través de un caso de uso cotidianoSocialmetrix
Esta presentación está orientada a introducir Apache Spark a través de un caso de uso cotidiano. Mostraremos cómo diseñar una solución para generar código mantenible y testeable. Esto es crucial en ambientes con grandes volúmenes de datos y tiempos de procesamiento prolongados, donde un error implica un gran esfuerzo en el reproceso.
La charla fue realizada en la JavaConf 2014.
El source code está disponible acá: https://github.com/socialmetrix/spark-javaconf
This is achieved thanks to its generic architecture and the definition of a custom SQL-like language. Our language augments the classical SQL data manipulation language in order to add support for streaming queries. From the point of view of the user, a common logical view of the existing catalogs and datastores is presented independently of which cluster or technology stores a particular table.
Supporting multiple architectures imposes two main challenges: how to normalize the access to the datastores, and how to cope with datastore limitations. In order to be able to access multiple datastore technologies Crossdata defines a common unifying interface containing a basic set of operations that a datastore may support. New connectors can be easily added to Crossdata to increase its connectivity
Crossdata: an efficient distributed datahub with batch and streaming query ca...Álvaro Agea Herradón
Big Data analysis is commonly associated with batch processing of data stored in distributed file systems. The advent of streaming data is exposing the shortcomings of the traditional data analysis. Users aiming to combine both worlds - batch processing and streaming - had to turn to unreliable in-house developments. We propose Stratio META to meet this new need. META is a technology based on a structured NoSQL datastore with advanced indexing capabilities. META includes an efficient query planner designed from scratch. The planner determines which is the optimal path to execute a query and which components should be involved.
StratioDeep: an Integration Layer Between Spark and Cassandra - Spark Summit ...Álvaro Agea Herradón
We present StratioDeep, an integration layer between the Spark distributed computing framework and Cassandra, a NoSQL distributed database.
Cassandra brings together the distributed system technologies from Dynamo and the data model from Google’s BigTable. Like Dynamo, Cassandra is eventually consistent and based on a P2P model without a single point of failure. Like BigTable, Cassandra provides a ColumnFamily-based data model richer than typical key/value systems. For these reasons, C* is one of the most popular NoSQL databases, but one of its handicaps is that it’s necessary to model the schema on the executed queries. This is because C* is oriented to search by key.
Integrating C* and Spark gives us a system that combines the best of both worlds.
Existing integrations between the two systems are not satisfactory: they basically provide an HDFS abstraction layer over C*. We believe this solution is not efficient because introduces an important overhead between the two systems.
The purpose of our work has been to provide an much lower-level integration that not only performs better, it also opens to Cassandra the possibility to solve a wide range of new use cases thanks to the powerfulness of the Spark distributed computing framework.
We’ve already deployed this solution in real applications with diverse clients: pattern detection, log mining, fraud detection, sentiment analysis and financial transaction analysis.
In addition this integration is the building block for our challenging and novel Lambda architecture completely based on Cassandra.
In order to complete the integration, we provide a seamless extension to the Cassandra Query Language: CQL is oriented to key-based search. As such, it is not a good choice to perform queries that move an huge amount of data. We’ve extended CQL in order to provide a user-friendly interface. This is a new approach for batch processing over C*. It consists in an abstraction layer that translates custom CQL queries to Spark jobs and delegates the complexity of distributing the query itself over the underlying cluster of commodity machines to Spar
Presentación en castellano escrita por Alex Rayón, revisada y extendida por Diego López de Ipiña, cuyo objetivo es indicar el potencial del paradigma cloud computing para el mundo empresarial y los profesionales en Economía y Gestión empresarial
24 HOP edición Español - Machine learning - Cesar OviedoSpanishPASSVC
Microsoft ha lanzado una de las herramientas que tendrán más imparto para el Business Analytics y/o Data Mining. De momento ha pasado desapercibida por muchos a pesar de su gran potencial. En esta charla veremos que es Machine Learning y sus usos.
En esta charla miraremos al futuro introduciendo Spark como alternativa al clásico motor de Hadoop MapReduce. Describiremos las diferencias más importantes frente al mismo, se detallarán los componentes principales que componen el ecosistema Spark, e introduciremos conceptos básicos que permitan empezar con el desarrollo de aplicaciones básicas sobre el mismo.
Introduction: Technological and methodical pillars for Smarter Environment Enablement
Part I: Smarter Environments Theoretical Grounding
What is a Smart Environment?
Technological enablers: IoT, Web of Data and Persuasive Technologies
Technology mediated Human Collaboration: need for co-creation
Killer application domains: Open Government & Age-friendly cities
Part II: Review of core enablers for Smarter Environments
Co-creation methodologies: Service Design and Design for Thinking
Internet of Things and Web of Things
Web of Data: Linked Data, Crowdsourcing & Big Data
Persuasive technologies and Behaviour Change
Part III: Implications for CyberParks
European projects on enabling Smarter Environments: WeLive, City4Age, GreenSoul
Reflections on the need for collaboration among stakeholders mediated with technology to realize CyberParks
Conclusions and practical implications
Infraestructura Virtualizada:Cloud Computing
Cloud Computing es …
Evolución hacia Cloud Computing
Características de Cloud Computing
Clasificación de Cloud Computing
Fisonomía de Cloud Computing
Nivel de transferencia de responsabilidad
Arquitectura Cloud Computing
Ventajas y Retos de Cloud Computing
Proveedores Mayores
Previsión de Mercado y Proveedores Actuales
Amazon Web Services (AWS)
Microsoft Azure
Google Cloud Platform
Internet de las Cosas: IoT
¿Qué es Big Data?
Introducción a las bases de datos NoSQL
Concepto y campos relacionados
Principales características
Arquitectura de las bases de datos NoSQL
Taxonomía de soluciones NoSQL
Empresas que usan bases de datos NoSQL
MongoDB: una BBDD NoSQL orientada a Documentos
Introducción: características y arquitectura
Instalación sobre diferentes sistemas operativos
Utilidades de mongoDB: mongo, mongostat, mongotop, etc.
Características principales:
Consultas Ad hoc
Indexación
Replicación
Balanceo de carga
Almacenamiento de archivos
Agregación
Programación en MongoDB
Ejecución de JavaScript del lado del servidor
Programación de MongoDB desde Java y Python
Desarrollo de una aplicación avanzada con MongoDB
Conclusiones
Otras alternativas destacables: CouchDB
Aplicabilidad a mi empresa
Introducción (en Español) al framework de procesamiento distribuido en memoria Apache Spark. Elementos básicos de Spark, RDD, incluye demo de las librerías SparkSQL y Spark Streaming
Presentado en www.nardoz.com
La computación distribuída es un nuevo modelo de computación que surgió con el objetivo de resolver problemas de computación masiva donde diferentes máquinas trabajan en paralelo formando un clúster de computación.
En los últimos años han surgido diferentes frameworks como Apache Hadoop, Apache Spark y Apache Flink que permiten resolver este tipo de problemas donde tenemos datos masivos desde diferentes fuentes de datos.
Dentro del ecosistema de Python podemos destacar las librerías de Pyspark y Dask de código abierto que permiten la ejecución de tareas de forma paralela y distribuida en Python.
Entre los puntos a tratar podemos destacar:
Introducción a la computación distribuida
Comparando tecnologías de computación distribuida
Frameworks y módulos en Python para computación distribuida
Casos de uso en proyectos Big Data
La presente investigación es para determinar si es más conveniente usar las herramientas que ofrece Apache Hadoop o escoger a su rival a decir de muchos: Apache Spark.
“Apache Spark es el motor más rápido y de uso general para el procesamiento de datos a gran escala.”
...O al menos es de lo que se informa en el sitio oficial pero ¿es eso cierto? En esta época del BigData aparecen y se ven muchas soluciones y tecnologías que enriquecen el entorno ampliamente dominado por Apache Hadoop, sin embargo en la era de los metadatos Spark brilla con una luz diferente y empieza a hacerle sombra a Hadoop en el negocio del BigData.
¿Eres desarrollador y emprendedor? En este ebook se recopilan tres análisis en profundidad con las mejores herramientas y las más populares entre los científicos de datos. Más información en http://bbva.info/2t1NEv7
Se aprenderá a desarrollar una API siguiendo la metodología MADA que tiene como misión reducir la complejidad a la hora de desarrollar una API y que utiliza RAML como lenguaje de definición de APIs. A patir del RAML, se generará toda la documentación necesaria para exponer a los developers, se podrá construir un fake para probarlo en la consola de pruebas y se generará un esqueleto en node.js. El taller desarrollará un ejemplo utilizando objetos en memoria y otro ejemplo utilizando MongoDB como base de datos.
Scala @RealLife es una presentación ofrecida durante el Codemotion 2014 en Madrid que habla acerca de la realidad de Scala y el ecosistema de Typesafe en la actualidad.
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
Es un diagrama para La asistencia técnica o apoyo técnico es brindada por las compañías para que sus clientes puedan hacer uso de sus productos o servicios de la manera en que fueron puestos a la venta.
3Redu: Responsabilidad, Resiliencia y Respetocdraco
¡Hola! Somos 3Redu, conformados por Juan Camilo y Cristian. Entendemos las dificultades que enfrentan muchos estudiantes al tratar de comprender conceptos matemáticos. Nuestro objetivo es brindar una solución inclusiva y accesible para todos.
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta in...espinozaernesto427
Las lámparas de alta intensidad de descarga o lámparas de descarga de alta intensidad son un tipo de lámpara eléctrica de descarga de gas que produce luz por medio de un arco eléctrico entre electrodos de tungsteno alojados dentro de un tubo de alúmina o cuarzo moldeado translúcido o transparente.
lámparas más eficientes del mercado, debido a su menor consumo y por la cantidad de luz que emiten. Adquieren una vida útil de hasta 50.000 horas y no generan calor alguna. Si quieres cambiar la iluminación de tu hogar para hacerla mucho más eficiente, ¡esta es tu mejor opción!
Las nuevas lámparas de descarga de alta intensidad producen más luz visible por unidad de energía eléctrica consumida que las lámparas fluorescentes e incandescentes, ya que una mayor proporción de su radiación es luz visible, en contraste con la infrarroja. Sin embargo, la salida de lúmenes de la iluminación HID puede deteriorarse hasta en un 70% durante 10,000 horas de funcionamiento.
Muchos vehículos modernos usan bombillas HID para los principales sistemas de iluminación, aunque algunas aplicaciones ahora están pasando de bombillas HID a tecnología LED y láser.1 Modelos de lámparas van desde las típicas lámparas de 35 a 100 W de los autos, a las de más de 15 kW que se utilizan en los proyectores de cines IMAX.
Esta tecnología HID no es nueva y fue demostrada por primera vez por Francis Hauksbee en 1705. Lámpara de Nernst.
Lámpara incandescente.
Lámpara de descarga. Lámpara fluorescente. Lámpara fluorescente compacta. Lámpara de haluro metálico. Lámpara de vapor de sodio. Lámpara de vapor de mercurio. Lámpara de neón. Lámpara de deuterio. Lámpara xenón.
Lámpara LED.
Lámpara de plasma.
Flash (fotografía) Las lámparas de descarga de alta intensidad (HID) son un tipo de lámparas de descarga de gas muy utilizadas en la industria de la iluminación. Estas lámparas producen luz creando un arco eléctrico entre dos electrodos a través de un gas ionizado. Las lámparas HID son conocidas por su gran eficacia a la hora de convertir la electricidad en luz y por su larga vida útil.
A diferencia de las luces fluorescentes, que necesitan un recubrimiento de fósforo para emitir luz visible, las lámparas HID no necesitan ningún recubrimiento en el interior de sus tubos. El propio arco eléctrico emite luz visible. Sin embargo, algunas lámparas de halogenuros metálicos y muchas lámparas de vapor de mercurio tienen un recubrimiento de fósforo en el interior de la bombilla para mejorar el espectro luminoso y reproducción cromática. Las lámparas HID están disponibles en varias potencias, que van desde los 25 vatios de las lámparas de halogenuros metálicos autobalastradas y los 35 vatios de las lámparas de vapor de sodio de alta intensidad hasta los 1.000 vatios de las lámparas de vapor de mercurio y vapor de sodio de alta intensidad, e incluso hasta los 1.500 vatios de las lámparas de halogenuros metálicos.
Las lámparas HID requieren un equipo de control especial llamado balasto para funcionar
En este documento analizamos ciertos conceptos relacionados con la ficha 1 y 2. Y concluimos, dando el porque es importante desarrollar nuestras habilidades de pensamiento.
Sara Sofia Bedoya Montezuma.
9-1.
3. 3
VIEWER DISCRETION IS ADVISED
All elephants are innocent until proven guilty in a court of development
Opinions expressed are solely my own and do not express the views or opinions of my employer.
5. o¿Qué es Spark?
oFramework de procesamiento paralelo
oHistoria
Introducción
Apache Spark Madrid Meetup
5
https://spark.apache.org/
Apache Software Foundation
6. oConcepto de programación funcional
oPopularizado por Google
Map-reduce
6
(map 'list (lambda (x) (+ x 10)) '(1 2 3 4)) => (11 12 13 14) (reduce #'+ '(1 2 3 4)) => 10
Jeff Dean and Sanjay Ghemawat. "MapReduce: Simplified Data Processing on Large Clusters." OSDI (2004)
Apache Spark Madrid Meetup
7. Map-Reduce
7
Input data
Map
Map
Map
Map
Reduce
Reduce
Reduce
result
Apache Spark Madrid Meetup
8. oMayor flexibilidad en la definición de transformaciones
oMenor uso de almacenamiento en disco
oAprovechamiento de la memoria
oTolerancia a fallos
oTracción de la comunidad
Ventajas de Spark
Apache Spark Madrid Meetup
8
10. oAbstracción básica en Spark
oContiene las transformaciones que se van a realizar sobre un conjunto de datos
•Inmutable
•Lazy evaluation
•En caso de fallo se puede recuperar el estado
•Control de persistencia y particionado
RDD
Apache Spark Madrid Meetup
10
11. oRepresenta la conexión a un cluster Spark
oPermite crear distintos tipos de variables
•RDD
•Acumuladores
•Broadcast
SparkContext
Apache Spark Madrid Meetup
11
new SparkContext(master: String, appName: String, conf: SparkConf)
14. oProporciona las abstracciones básicas y se encarga del scheduling
Spark core engine
14
Apache Spark Madrid Meetup
RDD
DAG Scheduling
Cluster manager
Threads
Block manager
Task scheduling
Worker
15. oPermite transformar una fuente streaming en un conjunto de mini-batch
•Definición de una ventana
Temporal
Spark Streaming
15
Apache Spark Madrid Meetup
16. Spark Streaming
16
Apache Spark Madrid Meetup
Window = 5
batch0
batch1
batch2
batch3
batch4
batch5
batch6
batch7
tiempo
tiempo
17. oLibrería para Machine Learning
oAbstracciones útiles para cómputo
oVectores, Matrices dispersas
oImplementación de algoritmos conocidos
oClasificación, regresión, collaborative filtering y clustering
MLlib
17
Apache Spark Madrid Meetup
19. SparkSQL (II)
19
Apache Spark Madrid Meetup
val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.createSchemaRDD case class Person(name: String, age: Int) val people = sc.textFile("examples/src/main/resources/people.txt") .map(_.split(",")) .map(p => Person(p(0), p(1).trim.toInt)) people.registerAsTable("people") val teenagers = sqlContext .sql("SELECT name FROM people WHERE age >= 13 AND age <= 19") teenagers.map(t => "Name: " + t(0)).collect().foreach(println)
20. oGraphX
•Soporte para grafos
oSparkR
•Permite conectar R con Spark
oBlinkDB
•Base de datos que ofrece funciones aproximadas
Otros
20
Apache Spark Madrid Meetup
graph = Graph(vertices, edges) messages = spark.textFile("hdfs://...") graph2 = graph.joinVertices(messages) { (id, vertex, msg) => ... }
22. oURL del master
oNo distribuir los JAR entre los workers
oFunciones con clases no serializables
oFunciona en local -> funciona en distribuido
oMemory leaks y eficiencia GC en operadores
oConfusión operadores (reduce vs group-by)
Errores comunes
#CassandraSummit 2014
22