Juan Martín Pampliega presenta sobre la construcción de una infraestructura de Big Data escalable y rentable. Explica que evolucionaron su arquitectura para manejar un volumen creciente de datos, reducir tiempos de procesamiento, y mitigar errores. Adoptaron conceptos como la arquitectura Lambda y sistemas distribuidos. Implementaron Kafka, Spark y Cassandra para lograr procesamiento distribuido, robusto y escalable. Aprendieron que es importante probar los sistemas y monitorearlos, y que herramientas no deben usarse
ARQCONF2015: Creando una Arquitectura Moderna para Big Data AnalyticsGustavo Arjones
Hay cientos de opciones de frameworks e sistemas de Big Data, cuando se empieza a estudiar como armar la solución completa, rápidamente nos encontramos con la necesidad de tomar muchas decisiones que van afectar el proyecto a largo plazo, preguntas como: dónde y cómo almacenar, cómo procesar en batch y realtime; Map-Reduce, DAG, Hadoop, Spark, Storm, Hive, NoSQL, son algunos de los términos que hay que conocer cuando se arma una arquitectura de Big Data. Esta charla irá presentar brevemente estas tecnologías y opiniones para utilizar en su próxima plataforma de análisis de datos. http://arjon.es/2015/05/10/material-de-la-charla-creando-una-arquitectura-para-big-data-analytics-en-arqconf-2015/
File Format Benchmarks - Avro, JSON, ORC, & ParquetOwen O'Malley
Hadoop Summit June 2016
The landscape for storing your big data is quite complex, with several competing formats and different implementations of each format. Understanding your use of the data is critical for picking the format. Depending on your use case, the different formats perform very differently. Although you can use a hammer to drive a screw, it isn’t fast or easy to do so. The use cases that we’ve examined are: * reading all of the columns * reading a few of the columns * filtering using a filter predicate * writing the data Furthermore, it is important to benchmark on real data rather than synthetic data. We used the Github logs data available freely from http://githubarchive.org We will make all of the benchmark code open source so that our experiments can be replicated.
Big Data - Infraestrucutra de BI para soluciones de BIDatalytics
Presentación de Infobright dada durante el foro "Las Dimensiones del BI" en Medellín (COL), donde se presentó la problemática actual de Big Data Analytics y las limitaciones que tienen las bases de datos transaccionales (IBM DB2, Oracle, Sybase, MySQL, PostgreSQL, etc.) para afrontar esta situación.
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
Esta presentación es la que utilicé como ponente de Mondragon Unibertsitatea para introducir al público asistente a la jornada de "Mitos y Realidades del Big Data" de Enpresa Digitala en su nodo de Goiru (http://www.euskadinnova.net/es/enpresa-digitala/agenda/mitos-realidades-data/8956.aspx?utm_source=rss_feed&utm_medium=rss&utm_campaign=accesos_rss). Se trata de una presentación donde se explican qué es y qué no es Big Data, enfocando sobre todo en la parte de almacenamiento, infraestructura, y análisis de los datos.
ARQCONF2015: Creando una Arquitectura Moderna para Big Data AnalyticsGustavo Arjones
Hay cientos de opciones de frameworks e sistemas de Big Data, cuando se empieza a estudiar como armar la solución completa, rápidamente nos encontramos con la necesidad de tomar muchas decisiones que van afectar el proyecto a largo plazo, preguntas como: dónde y cómo almacenar, cómo procesar en batch y realtime; Map-Reduce, DAG, Hadoop, Spark, Storm, Hive, NoSQL, son algunos de los términos que hay que conocer cuando se arma una arquitectura de Big Data. Esta charla irá presentar brevemente estas tecnologías y opiniones para utilizar en su próxima plataforma de análisis de datos. http://arjon.es/2015/05/10/material-de-la-charla-creando-una-arquitectura-para-big-data-analytics-en-arqconf-2015/
File Format Benchmarks - Avro, JSON, ORC, & ParquetOwen O'Malley
Hadoop Summit June 2016
The landscape for storing your big data is quite complex, with several competing formats and different implementations of each format. Understanding your use of the data is critical for picking the format. Depending on your use case, the different formats perform very differently. Although you can use a hammer to drive a screw, it isn’t fast or easy to do so. The use cases that we’ve examined are: * reading all of the columns * reading a few of the columns * filtering using a filter predicate * writing the data Furthermore, it is important to benchmark on real data rather than synthetic data. We used the Github logs data available freely from http://githubarchive.org We will make all of the benchmark code open source so that our experiments can be replicated.
Big Data - Infraestrucutra de BI para soluciones de BIDatalytics
Presentación de Infobright dada durante el foro "Las Dimensiones del BI" en Medellín (COL), donde se presentó la problemática actual de Big Data Analytics y las limitaciones que tienen las bases de datos transaccionales (IBM DB2, Oracle, Sybase, MySQL, PostgreSQL, etc.) para afrontar esta situación.
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
Esta presentación es la que utilicé como ponente de Mondragon Unibertsitatea para introducir al público asistente a la jornada de "Mitos y Realidades del Big Data" de Enpresa Digitala en su nodo de Goiru (http://www.euskadinnova.net/es/enpresa-digitala/agenda/mitos-realidades-data/8956.aspx?utm_source=rss_feed&utm_medium=rss&utm_campaign=accesos_rss). Se trata de una presentación donde se explican qué es y qué no es Big Data, enfocando sobre todo en la parte de almacenamiento, infraestructura, y análisis de los datos.
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Socialmetrix
Socialmetrix lleva 6 años desarrollando soluciones para capturar, limpiar, organizar, procesar, almacenar y presentar información.
Los desafíos involucraron siempre seguir escalando en volumen de procesamiento y las funcionalidades a nuestros clientes.
Estas directivas nos llevaron hacia una búsqueda de soluciones innovadoras y tecnologías que nos permitan competir en un mercado global manteniendo la inversión y los costos bajo control.
Esta charla presenta las técnicas y tecnologías involucradas en el desarrollo de nuestros productos junto con los errores que cometimos y lecciones que aprendimos durante el desarrollo.
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
Tercera y última sesión del curso "Monta una Infraestructura para Big Data en tu Empresa" impartida por Urko Zurutuza de Mondragon Unibertsitatea para Enpresa Digitala. En esta sesión se muestran ejercicios prácticos y guiados que darán pie a probar algunas de las herramientas que dispone la distribucion Hadoop Cloudera CDH5.
En el último año, Big Data se ha transformado en uno de los pilares más importantes de la estrategia de negocio de los Bancos de Chile y el mundo. En un entorno cada vez más competitivo y con altos niveles de regulación, las organizaciones deben comenzar a tomar decisiones en función de los datos y no de la intuición. Para tomar dichas decisiones, se vuelve necesario procesar grandes volúmenes de información de manera eficiente, incorporando nuevas fuentes de datos y automatizando las decisiones a través de algoritmos analíticos avanzados. Durante esta presentación, analizaremos qué deben hacer los Bancos para transformar su arquitectura de datos tradicional, en una arquitectura de datos moderna con soporte para big data y así estar preparados para abordar los nuevos desafíos que plantea la transformación digital del negocio financiero.
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
Segunda parte del Taller "Monta una Infraestructura Big Data para tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea en Enpresa Digitala. En esta segunda parte, se aborda la instalación de un cluster mediante Cloudera Manager 5
Taller sobre la creación de un clúster de Apache Hadoop y aplicaciones de su entorno de las XIII Xornadas Libres de Gpul en la Universidade da Coruña http://gpul.es/e/2014/xornadas-libres/
English: This presentation corresponds to the lecture given by Alvaro Gonzalez on the 6/6/2012 within the event organized by the Virtual Simulations and Videogames Career of the University College of IES, Córdoba - Argentina.
Español: Esta presentación corresponde a la conferencia otorgada por Alvaro Gonzalez el día 6/Junio/2012 en el marco del evento de Videojuegos organizado por la Carrera de Simulaciones Virtuales y Videojuegos del Colegio Universitario IES, Córdoba – Argentina.
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Primera Sesión sobre el Curso de Enpresa Digitala "Monta una Infraestructura Big Data en tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea. Hablaremos de Hadoop y de su ecosistema de herramientas.
Trabajo optativo del Máster de Ingeniería Informática de la Universidad de A Coruña para la asignatura "Informática como Servicio" sobre la instalación, configuración y administración de un clúster de Hadoop.
La Transformación digital y cultural del BBVASilvia Dvorak
La transformación digital ha llegado a la Banca. Gigantes tecnológicos como Google, Amazon y Apple, nuevos formatos de dinero virtual como Bitcoin o antiguas soluciones de pago online como Paypal quieren su parte del inmenso pastel. Su estrategia: entrar como meros medios de transacción de pago para posteriormente ofrecer servicios financieros adicionales, que canibalizarían rápidamente los servicios electrónicos y analógicos de la banca tradicional. Philippe Gelis (fundador Kantox y ganador del premio BBVA OpenTalent) comenta en uno de los vídeos del propio Centro de Innovación del BBVA que “en una década el 90% de las sucursales habrán desaparecido. Y los bancos lo saben”(2).
El presidente del BBVA, Francisco González intuyó esta transformación hace tiempo y por ello apostó hace más de siete años por las nuevas tecnologías , liderando así la transformación digital de la Banca española.
Las iniciativas del BBVA han sido muy numerosas e incluyen desde la apertura de una oficina en Sillicon Valley, la compra de startups innovadoras, la apertura de centros de innovación hasta el traslado a una nueva sede muy “tecnificada”, la reorganización del Banco y la creación de una nueva Área de Banca Digital.
Este proceso se ha visto impulsado y consolidado por la renovación de su cúpula directiva (ahora denominada Executive Leadership Team), donde 6 de los 11 nuevos directivos proceden del área Digital así como por el nombramiento de Carlos Torres Vila, responsable hasta entonces del Área de Banca Digital, como Consejero Delegado del Banco.
En este Whitepaper independiente, he investigado diversas fuentes para poder realizar un cronograma de las principales iniciativas de transformación digital tomadas por el BBVA en el último decenio que he enmarcado dentro del Modelo de Gestión del cambio de Dave Ulrich (HR Champion) y John Kotter (Leading Change).
En los últimos años, la forma de desarrollar software ha evolucionado. Nuevos patrones, nuevas arquitecturas y nuevas tecnologías como cloud y microservicios. Pero, ¿cómo desarrollo ahora? ¿Cómo despliego el software? ¿Cómo manejo los nuevos modelos de base de datos? DevOps y DataOps son la respuesta.
Big Data - Desarrollando soluciones efectivasJoseph Lopez
Como continuación a la presentación titulada "Introducción al mundo de las Bodegas de datos", esta presentación le explicará qué es Big Data y sus beneficios, incluyendo casos de uso. Así mismo, discutiremos cómo Hadoop, la nube y procesamiento masivamente paralelo (MPP) está cambiando la forma en los almacenes de datos se están construyendo. Hablaremos de arquitecturas híbridas que combinan datos in situ con datos en la nube, así como datos relacionales y no relacionales de datos (no estructurados). Veremos también los beneficios del MPP en SMP y cómo integrar datos desde dispositivos en la Internet (IoT). Aprenderemos también lo que debería verse como un almacén de datos moderno y cómo cuadra su papel de un mar de datos y Hadoop. Al finalizar esta exposición, tendremos una orientación sobre la mejor solución para el almacén de datos en el futuro.
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Socialmetrix
Socialmetrix lleva 6 años desarrollando soluciones para capturar, limpiar, organizar, procesar, almacenar y presentar información.
Los desafíos involucraron siempre seguir escalando en volumen de procesamiento y las funcionalidades a nuestros clientes.
Estas directivas nos llevaron hacia una búsqueda de soluciones innovadoras y tecnologías que nos permitan competir en un mercado global manteniendo la inversión y los costos bajo control.
Esta charla presenta las técnicas y tecnologías involucradas en el desarrollo de nuestros productos junto con los errores que cometimos y lecciones que aprendimos durante el desarrollo.
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
Tercera y última sesión del curso "Monta una Infraestructura para Big Data en tu Empresa" impartida por Urko Zurutuza de Mondragon Unibertsitatea para Enpresa Digitala. En esta sesión se muestran ejercicios prácticos y guiados que darán pie a probar algunas de las herramientas que dispone la distribucion Hadoop Cloudera CDH5.
En el último año, Big Data se ha transformado en uno de los pilares más importantes de la estrategia de negocio de los Bancos de Chile y el mundo. En un entorno cada vez más competitivo y con altos niveles de regulación, las organizaciones deben comenzar a tomar decisiones en función de los datos y no de la intuición. Para tomar dichas decisiones, se vuelve necesario procesar grandes volúmenes de información de manera eficiente, incorporando nuevas fuentes de datos y automatizando las decisiones a través de algoritmos analíticos avanzados. Durante esta presentación, analizaremos qué deben hacer los Bancos para transformar su arquitectura de datos tradicional, en una arquitectura de datos moderna con soporte para big data y así estar preparados para abordar los nuevos desafíos que plantea la transformación digital del negocio financiero.
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
Segunda parte del Taller "Monta una Infraestructura Big Data para tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea en Enpresa Digitala. En esta segunda parte, se aborda la instalación de un cluster mediante Cloudera Manager 5
Taller sobre la creación de un clúster de Apache Hadoop y aplicaciones de su entorno de las XIII Xornadas Libres de Gpul en la Universidade da Coruña http://gpul.es/e/2014/xornadas-libres/
English: This presentation corresponds to the lecture given by Alvaro Gonzalez on the 6/6/2012 within the event organized by the Virtual Simulations and Videogames Career of the University College of IES, Córdoba - Argentina.
Español: Esta presentación corresponde a la conferencia otorgada por Alvaro Gonzalez el día 6/Junio/2012 en el marco del evento de Videojuegos organizado por la Carrera de Simulaciones Virtuales y Videojuegos del Colegio Universitario IES, Córdoba – Argentina.
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Primera Sesión sobre el Curso de Enpresa Digitala "Monta una Infraestructura Big Data en tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea. Hablaremos de Hadoop y de su ecosistema de herramientas.
Trabajo optativo del Máster de Ingeniería Informática de la Universidad de A Coruña para la asignatura "Informática como Servicio" sobre la instalación, configuración y administración de un clúster de Hadoop.
La Transformación digital y cultural del BBVASilvia Dvorak
La transformación digital ha llegado a la Banca. Gigantes tecnológicos como Google, Amazon y Apple, nuevos formatos de dinero virtual como Bitcoin o antiguas soluciones de pago online como Paypal quieren su parte del inmenso pastel. Su estrategia: entrar como meros medios de transacción de pago para posteriormente ofrecer servicios financieros adicionales, que canibalizarían rápidamente los servicios electrónicos y analógicos de la banca tradicional. Philippe Gelis (fundador Kantox y ganador del premio BBVA OpenTalent) comenta en uno de los vídeos del propio Centro de Innovación del BBVA que “en una década el 90% de las sucursales habrán desaparecido. Y los bancos lo saben”(2).
El presidente del BBVA, Francisco González intuyó esta transformación hace tiempo y por ello apostó hace más de siete años por las nuevas tecnologías , liderando así la transformación digital de la Banca española.
Las iniciativas del BBVA han sido muy numerosas e incluyen desde la apertura de una oficina en Sillicon Valley, la compra de startups innovadoras, la apertura de centros de innovación hasta el traslado a una nueva sede muy “tecnificada”, la reorganización del Banco y la creación de una nueva Área de Banca Digital.
Este proceso se ha visto impulsado y consolidado por la renovación de su cúpula directiva (ahora denominada Executive Leadership Team), donde 6 de los 11 nuevos directivos proceden del área Digital así como por el nombramiento de Carlos Torres Vila, responsable hasta entonces del Área de Banca Digital, como Consejero Delegado del Banco.
En este Whitepaper independiente, he investigado diversas fuentes para poder realizar un cronograma de las principales iniciativas de transformación digital tomadas por el BBVA en el último decenio que he enmarcado dentro del Modelo de Gestión del cambio de Dave Ulrich (HR Champion) y John Kotter (Leading Change).
En los últimos años, la forma de desarrollar software ha evolucionado. Nuevos patrones, nuevas arquitecturas y nuevas tecnologías como cloud y microservicios. Pero, ¿cómo desarrollo ahora? ¿Cómo despliego el software? ¿Cómo manejo los nuevos modelos de base de datos? DevOps y DataOps son la respuesta.
Big Data - Desarrollando soluciones efectivasJoseph Lopez
Como continuación a la presentación titulada "Introducción al mundo de las Bodegas de datos", esta presentación le explicará qué es Big Data y sus beneficios, incluyendo casos de uso. Así mismo, discutiremos cómo Hadoop, la nube y procesamiento masivamente paralelo (MPP) está cambiando la forma en los almacenes de datos se están construyendo. Hablaremos de arquitecturas híbridas que combinan datos in situ con datos en la nube, así como datos relacionales y no relacionales de datos (no estructurados). Veremos también los beneficios del MPP en SMP y cómo integrar datos desde dispositivos en la Internet (IoT). Aprenderemos también lo que debería verse como un almacén de datos moderno y cómo cuadra su papel de un mar de datos y Hadoop. Al finalizar esta exposición, tendremos una orientación sobre la mejor solución para el almacén de datos en el futuro.
Instalando Datastax Analytics (Cassandra Y Spark) Con Azure TemplatesGustavo Arjones
La presentación brinda nuestra experiencia instalando y configurando clusters de Datastax Analytics en Azure. Lessons Learned.
Blog post: http://arjon.es/2016/11/16/usando-azure-templates-para-instalar-datastax-cassandra-y-spark/
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
Abstract de la charla realizada en SUGAR - Scala User Group Argentina
Apache Spark [1] es un framework para procesamiento distribuído diseñado para ser amigable para Data-Scientists y programadores, con soporte nativo a muchos lenguajes y diversidad de formatos de datos es extramadamente flexible. Cambiando el modelo establecido por Hadoop v1 de Map-Reduce por un grafo de ejecución (DAG) y manteniendo los pasos intermédios en RAM, Spark brinda excelente performance y una API muy expresiva.
Gustavo Arjones [2], CTO de Socialmetrix, va contar la experiencia que tuvieron al cambiarse de Hadoop a Spark y lo que los llevaron a este cambio. Esta charla es una introducción teorica y practica a Spark y sus distintos componentes.
Los tópicos a discutir son:
• Qué és?
• Aspectos que hacen Spark tan atractivo para la comunidad
• Plataforma unificada para Data Science (Batch, Stream, ML, Graph)
• Soporte a distintos lenguajes
• Ejecución: RDD y DAG / Task Scheduller
• Tracción de la comunidad (# commits, # commiters)
• testing, etc
• Demos:
• Spark-shell: Explicar paso a paso el WordCount
• LogAnalytics - compilar y submeter al cluster
• SQL/DataFrames: Demostrar que se puede consumir directamente JSON y hacer queries con SQL
[1] http://spark.apache.org
[2] https://linkedin.com/in/arjones
Tendencias arquitectura y desarrollo 2019Manuel Zapata
Diapositivas del primer live de mi canal de YouTube, donde hablamos de las tendencias más importantes de arquitectura y desarrollo de software en el 2019.
La ética, la #privacidad digital y la #ciberseguridad, están cobrando gran relevancia, y son una de las principales #tendenciastecnológicas de hoy y del futuro, asegurando un entorno confiable para gobiernos, empresas y personas.
Cómo construir tu propia data platform. From zero to hero. GustavoMartin46
Esta presentación es el resultado de la ponencia presentada el día 28 de abril de 2023 en la Salmorejo Tech https://salmorejo.tech/2023/.
Con esta ponencia se buscaba explicar a una audiencia con conocimientos básicos de tecnología, las distintas herramientas que se pueden emplear para construir una plataforma de datos.
La ponencia comienza con una configuración sencilla, que prácticamente cualquier persona del mundo de la informática puede entender. Termina con una configuración compleja, donde sin entrar en muchos detalles, sí permite a la audiencia hacerse una idea de qué herramientas se requieren para implementar la solución.
http://summit.solidq.com
Es innegable que los motores de BBDD transaccionales deben adaptarse a la posibilidad de gestionar datos no estructurados. Microsoft en SQL Server 2016 incluye un motor nuevo (llamado Polybase) que permite acceder con lenguaje Transact SQL a datos no estructurados y poder mezclarlos con datos estructurados. En esta sesión conocerá este nuevo motor y cómo empezar a integrar datos no estructurados en sus bases de datos transaccionales.
Similar a Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big data rentable y escalable (20)
7 Disparadores de Engagement para o mercado de consumo massivoSocialmetrix
Conteúdo da Palestra do nosso gerente de Marketing no Social Media Week de São Paulo.
A comunicação de forma geral mudou, e os novos consumidores estão gerando nas marcas uma necessidade diferente de se comunicar e manter a audiência ativa e participativa. Aos poucos vamos entendendo que o Engagement não é algo transacional, mas emocional.
Abordaremos 7 disparadores chave para a construção de um engagement saudável, aplicados principalmente às marcas de consumo masivo, mas que podem ser úteis para quase todos os mercados.
The Ultimate Guide to using Social Media Media AnalyticsSocialmetrix
How to get insights from quantitative data to improve your
social media performance.
-How do you measure social media?
-How to use quantitative data to improve your Audience.
-How to use your social analytics to create a Content MKT Strategy for social media.
-How to use quantitative data to improve your engagement.
-How to get valuable insights from your Competitors Analytics.
-How to get valuable insights from your Campaign Analytics.
Social Media is no longer something relevant just for the area of Marketing. ...Socialmetrix
Social Media Analytics making marketers and digital agencies lives easier.
- The first challenge is information to be consumed and also to be presented in a simple and tidy way.
- Keep the audience engaged with your fan page or twitter account requires a good content.
- Know the Engagement and commitment of the audience.
Start to perceive the relevance of Social Media to build your revenue and to encourage you to begin to measure it.
- Use each piece you have at your disposal, involve different areas and make sure you can keep up!
How to Create a Successful Social Media CampaignSocialmetrix
This document helps you to analyze all the amount of data you can get by listening to your audience. It helps you build your campaigns’ messages, content and conversations around the insights you are able to get..
Build a successful social media campaign requires a good deal of involvement, this document gives you the tools and steps to create a social media campaign that works.
Learn to create a compelling social media campaign that prospects will want to engage and share.
Working with big volumes of data is a complicated task, but it's even harder if you have to do everything in real time and try to figure it all out yourself. This session will use practical examples to discuss architectural best practices and lessons learned when solving real-time social media analytics, sentiment analysis, and data visualization decision-making problems with AWS. Learn how you can leverage AWS services like Amazon RDS, AWS CloudFormation, Auto Scaling, Amazon S3, Amazon Glacier, and Amazon Elastic MapReduce to perform highly performant, reliable, real-time big data analytics while saving time, effort, and money. Gain insight from two years of real-time analytics successes and failures so you don't have to go down this path on your own.
Tutorial en Apache Spark - Clasificando tweets en realtimeSocialmetrix
Apache Spark [1] es un nuevo framework de procesamiento distribuido para big data, escrito en Scala con wrappers para Python, que viene generando mucha atención de la comunidad por su potencia, simplicidad de uso y velocidad de procesamiento. Ya siendo llamado como el remplazo de Apache Hadoop.
Socialmetrix desarrolla soluciones en este framework para generar reportes y dashboards de información a partir de los datos extraídos de redes sociales.
Los participantes de este tutorial van aprender a levantar información de Twitter usando Spark Streaming, Desarrollar algoritmos para calcular hashtags más frecuentes, usuarios más activos en batch processing aplicarlos en realtime a los nuevos tweets que lleguen a través del stream.
Introducción a Apache Spark a través de un caso de uso cotidianoSocialmetrix
Esta presentación está orientada a introducir Apache Spark a través de un caso de uso cotidiano. Mostraremos cómo diseñar una solución para generar código mantenible y testeable. Esto es crucial en ambientes con grandes volúmenes de datos y tiempos de procesamiento prolongados, donde un error implica un gran esfuerzo en el reproceso.
La charla fue realizada en la JavaConf 2014.
El source code está disponible acá: https://github.com/socialmetrix/spark-javaconf
Introducción (en Español) al framework de procesamiento distribuido en memoria Apache Spark. Elementos básicos de Spark, RDD, incluye demo de las librerías SparkSQL y Spark Streaming
Presentado en www.nardoz.com
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...Socialmetrix
Apresentação da Socialmetrix no Social Media Brasil 2014
O ser humano evolui e junto com ele a sua forma de comunicar-se com os seus semelhantes e com o mundo ao seu redor. A quantidade de informação produzida e consumida tem aumentado em grande escala, gerando mudanças que exigem das marcas entrar em uma corrente de inovação, impulsando-as a que deixem de lado os seus esquemas tradicionais.
Qual é o papel das soluções analíticas nesse contexto e como utilizá-las para potencializar suas ações de marketing?
As mídias sociais fazem parte do nosso presente e futuro. Mudam as plataformas, mudam os termos, mas as pessoas continuam relacionando-se através de Blogs, Orkut, Facebook, Twitter, Google+ etc.
Quando essas pessoas estão conversando, dialogam também sobre as marcas e empresas que participam de suas vidas, essa apropriação das marcas é algo completamente novo para o marketing tradicional, acostumado a mandar uma mensagem em uma única via, através dos meios de comunicação em massa.
Muitas empresas não sabem como agir e se comportar em um ambiente onde o consumidor ganha poder para divulgar sua mensagem com a mesma intensidade ou maior que a das marcas.
Nessa palestra exploraremos alguns conceitos e ferramentas de mídias sociais que podem ser usadas para melhorar a comunicação, aproximar-se do consumidor e gerar mais vendas.
Questões que vamos discutir:
1. As mudanças na comunicação e as dificuldades das empresas.
2. Principais plataformas sociais e seus usos (Twitter, YouTube, Orkut, Facebook e Foursquare).
3. Posicionamento das marcas: encontrar a forma de comunicar-se sem perder a identidade da marca.
4. Criação de indicadores para medir as ações sociais.
5. Geração de conteúdo e assuntos para conversar
6. Ferramentas para fazer benchmark com a concorrência e medir nossas ações.
En este documento analizamos ciertos conceptos relacionados con la ficha 1 y 2. Y concluimos, dando el porque es importante desarrollar nuestras habilidades de pensamiento.
Sara Sofia Bedoya Montezuma.
9-1.
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Telefónica
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0xWord escrito por Ibón Reinoso ( https://mypublicinbox.com/IBhone ) con Prólogo de Chema Alonso ( https://mypublicinbox.com/ChemaAlonso ). Puedes comprarlo aquí: https://0xword.com/es/libros/233-big-data-tecnologias-para-arquitecturas-data-centric.html
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informáticavazquezgarciajesusma
En este proyecto de investigación nos adentraremos en el fascinante mundo de la intersección entre el arte y los medios de comunicación en el campo de la informática.
La rápida evolución de la tecnología ha llevado a una fusión cada vez más estrecha entre el arte y los medios digitales, generando nuevas formas de expresión y comunicación.
Continuando con el desarrollo de nuestro proyecto haremos uso del método inductivo porque organizamos nuestra investigación a la particular a lo general. El diseño metodológico del trabajo es no experimental y transversal ya que no existe manipulación deliberada de las variables ni de la situación, si no que se observa los fundamental y como se dan en su contestó natural para después analizarlos.
El diseño es transversal porque los datos se recolectan en un solo momento y su propósito es describir variables y analizar su interrelación, solo se desea saber la incidencia y el valor de uno o más variables, el diseño será descriptivo porque se requiere establecer relación entre dos o más de estás.
Mediante una encuesta recopilamos la información de este proyecto los alumnos tengan conocimiento de la evolución del arte y los medios de comunicación en la información y su importancia para la institución.
2. Juan Martín Pampliega
Senior Data Engineer, Socialmetrix
Ingeniero Informática, ITBA
Trabajando con proyectos relacionados con la temática de “Big
Data” desde 2011 (Globant/Google, Despegar.com, Socialmetrix).
@juanpampliega
jpampliega@socialmetrix.com
3. Agenda
• Acerca de Socialmetrix
• Razones para evolucionar la
infraestructura
• Conceptos en los que nos basamos
• Nuestra arquitectura
• Lecciones aprendidas
• Dónde aprender más
4. Socialmetrix
Medimos la actividad relacionada a
marcas, compañías y personalidades
en las redes sociales para generar
valor a profesionales de Marketing,
Investigación de Mercado y Producto.
5.
6. Algunos números
• Capturamos +1.000 MM de interacciones en un mes
• Almacenamos +1 TB por mes de datos
• Tenemos en Amazon AWS +200 servidores, + databases,
+ambientes de prueba/staging
8. Big Data – otro nuevo paradigma
Volumen + Velocidad + Variedad
Nuevas Tecnologías (Kafka + Spark + Cassandra + Cloud)
Arquitectura de Procesamiento de
Datos
Distribuida, Robusta y Escalable
9. ¿Por qué construir una arquitectura de Big Data?
• Manejar un volumen de datos creciente y poco constante
• Reducir tiempos de procesamiento hacia “near real-time”
• Costos variables
• Workloads variados: procesamiento batch y real-time,
analytics
• Mitigar la incertidumbre generada por errores o cambios en
el procesamiento
11. Conceptos: sistema de datos distribuído
• Teorema CAP: ante una partición en el sistema solamente
se puede asegurar consistencia o disponibilidad
• La mutabilidad de los datos de un sistema distribuido
causa las limitaciones de consistencia y disponibilidad
• Eliminando la mutabilidad sólo hay lecturas y escrituras (no
se borran los datos)
• query = function(all data)
12. Conceptos: Arquitectura Lambda
• Arquitectura genérica de procesamiento de datos creada
por Nathan Marz de su experiencia trabajando en Twitter y
Backtype
• Posee un único maestro de datos, append only.
• Un componente batch que re-computa todas las vistas en
cada iteración y uno real-time para información con baja
latencia
14. Arquitectura Lambda
• Crear un sistema tolerante a fallos tanto de hardware como
los humanos
• Lecturas y escrituras de baja latencia
• Escalabilidad lineal horizontal
• Facilidad de re-procesos
• Permitir la investigación interactiva de los datos
15. Arquitectura Lambda (críticas)
• Duplicación de lógica
• Duplicación de conocimiento en las herramientas
• Asume que el procesamiento real-time no es confiable
18. Limitaciones encontradas
• Hive
• Lenguaje SQL (orientado a consultas y no a
procesamiento, IDEs poco útiles)
• Herramientas de testing precarias
• Tiempos de ejecución prolongados y variables
• MySQL
• Baja performance para insert or update masivos
• Escalabilidad costosa
• Poca flexibilidad en el particionamiento
20. Desafíos al aplicar los conceptos
• Información duplicada y fuera de orden
• Recursos necesarios para re-procesar todo el histórico de
datos constantemente (Automatizar la asignación de
recursos según el volumen de datos a procesar o re-procesar)
• Evolución de los esquemas (Parquet, Apache Avro, Json)
• Problemas de encoding (MySQL utf8, utf8mb4)
22. Los errores
• Utilizar una herramienta para tareas que no fue diseñada
porque estamos familiarizados con ella
• No guardar los datos crudos (como se obtuvieron del
origen)
• No poner suficiente énfasis en tests y monitoreo
automático
23. Los aciertos
• Buscar como otros resolvieron los problemas que se nos
plantean
• Siempre mantenernos al tanto de los últimos desarrollos en
el área
• Permitir iterar sobre las soluciones ya desarrolladas para
ver como mejorarlas
• Orientarnos a lenguajes fuertemente tipados
24. Recomendaciones
• Utilizar un proveedor de cloud público sobre todo al inicio
de un proyecto
• Monitorear los procesos y aprender los patrones de los
datos
• Usar datasets medianos en Dev y grandes en Staging
25. Recomendaciones
• Ambientes de desarrollo locales y rápidos son tan
importantes como siempre
• Centralizar los logs (ELK: Elasticsearch, Logstash y
Kibana).
• Testing (“… In 58% of the catastrophic failures, the underlying faults could
easily have been detected through simple testing of error handling code …”)
27. Mucha documentación disponible
Lambda Architecture
http://lambda-architecture.net/
Getting Started with Big Data Architecture
http://blog.cloudera.com/blog/2014/09/getting-started-with-big-data-architecture/
Your weekly Hadoop news fix
http://www.hadoopweekly.com/
The Hortonworks Blog
http://hortonworks.com/blog/
Applying the Lambda Architecture with Spark - Jim Scott
http://spark-summit.org/2014/talk/applying-the-lambda-architecture-with-spark
Cloudera Engineering Blog
http://blog.cloudera.com/blog/
Simple Testing Can Prevent Most Critical Failures: An Analysis of Production Failures in Distributed
Data-Intensive Systems
http://neverworkintheory.org/2014/10/08/simple-testing-can-prevent-most-critical-failures.html
No solamente me interesa explicar cómo construir la infraestructura de procesamiento de dato si no por qué hoy en día es importante hacerlo
Actualmente siempre se hace referencia a la temática de Big Data hablando de la explosión de las 3 V en los últimos tiempos (Volumen, Velocidad y Variedad)
Pero en muchos casos, con la evolución de las bases de datos tradicionales desde Oracle hasta Teradata ya nos permiten manejar este problema.
Son las nuevas herramientas de manejo y procesamiento las que realmente forman un nuevo paradigma.
Herramientas desarrolladas por empresas de tecnología con fuerte base en la investigación y que principalmente se mueven en el ambiente de la Web
Estas herramientas son distribuidas desde sus inicios y extremadamente performantes
Este nuevo paradigma nos permite desarrollar una arquitectura de procesamiento
Volumen
Cada vez más surge la necesidad de procesar los datos lo más cercano al real-time para poder anticiparse a la competencia y reaccionar con un delay mínimo ante los problemas
Para comenzar no hay costos de licenciamiento o entrenamiento. Casi todo lo necesario para comenzar se encuentra disponible online y solamente se empieza a pagar una vez que las necesidades maduran y se está seguro de la solución