SlideShare una empresa de Scribd logo
1 de 36
Instalando Datastax Analytics en Azure
Azure Templates, Cassandra y Spark
Gustavo Arjones
gustavo@socialmetrix.com
@arjones
Co-founder & CTO de Socialmetrix
Prof. de Social Media Analytics y Big Data en UdeSA
Lic. Ciencias Computación
MBA Marketing Servicios
@arjones
gustavo@socialmetrix.com
Brasileño, en Argentina desde 2008 (me mudé para armar Socialmetrix)
Gustavo Arjones
Socialmetrix
Medimos la actividad de las compañías y
personalidades en las redes sociales para
generar valor a profesionales de
Marketing, Investigación de Mercado y
Producto.
Software As A Service
Tecnologías que Usamos
Volumen
• Capturamos +10MM de fanpages de Facebook, cuentas de
Twitter, Instagram, YouTube Channel, blogs, sites, etc
• Se generan +1.500 MM de interacciones en un mes
• Capturamos +1Tb por mes de nuevos datos, los antiguos NUNCA
se borran; +30 Tb storage actual; ~10Tb hot data
• 250+ servidores, + databases, +ambientes de prueba/staging
Necesitamos de una DB para Time-Series
• Escale linear
• Tiempo de respuesta de <1seg (customer facing)
• Crecimiento contínuo de datos (no se hace rotate, no se pierde
resolución)
• Qué podamos pagar!
Hay que instalar
12 nodos de C*!
(o 500 nodos)
Cientos de Customizaciones
• YMMV es un acrónimo que odio
• ”Your Mileage May Vary” == no te puedo contar, probalo vos!
• Número de nodes
• Vnodes: 0, 32, 64, 128 ?
• Cores, Memoria
• Compaction Strategy
• Data Model
Producción
Run
Template
Run
Ansible
Deploy
App
:)
Azure Templates
Solución IaaS
• Azure cli (nodejs)
• Azure Resource Manager Templates
(JSON describe infraestructura)
Azure Resource Manager Templates
• Útil para crear maquinas identicas (clusters)
• Cassandra
• MySQL Percona XtraDB Cluster
• Docker-Swarm
Azure Resource Manager Templates
• ArmViz permite ver el grapho de dependencias
Azure Resource Manager Templates
Visual Studio Code
• auto-complete
• validación básica:
• missing variables and parameters
• parameters defined and not used
Azure Resource Manager Templates (lo malo)
• JSON es el nuevo XML
• Falta Lint, Validadores
• Hay que ejecutar template ($$$) para ver lo que pasa
Ansible
vs
Bash
vs
Life Cycle Manager
Ciclo de Implementación
• bash script simple
• bash script, ya no tan simple, va a Azure Template
🤔🤔🤔 Hum … tengo Ansible ….
Lessons Learned
• Usar Life Cycle Manager para probar distintas configuraciones,
después pasar esos parámetros a Ansibe
• Empezar el proceso por Ansible y evitar la tentación de usar
”custom bash scripts”.
Cassandra para corpo:
Datastax
Datastax Enterprise 5.0.3
• Apache Cassandra 3.0.9.1346
• Apache Spark 1.6.2.2
• Apache Solr 4.10.3.2.1347
• Spark Jobserver 0.6.2.100
• Datastax Startup Program: Free Software + Support!
Mejor densidad de servers!
No necesito PaaS (HDInsight)
Datastax Enterprise
• Opscenter (monitoring)
• Life cycle Manager (Install+Config)
• Analytics Mode = Cassandra + Spark
• Cassandra File System (CFS) ~ HDFS
• Spark Master en HA
Lessons Learned (Cassandra)
• Servers muy chicos ~ 500Gb (< 1Tb)
• I/O y Memoria son las cosas más importantes (en ese orden)
• Sin compaction no hay felicidad
• Sin repair no hay felicidad
• Data Model
• YMMV
Migrando nuestra app de FOSS Spark
• Sacar las dependencias de Spark y de Spark-Cassandra-Driver
• Cambiar por:
"com.datastax.dse" % "dse-spark-dependencies" % "5.0.1" % "provided”
• Detecta automáticamente Spark-Master
• Autentica al cluster de Cassandra y a Spark
• Usar dse spark-submit
dse spark-submit 
--class smx.ananke.spark.drive.${CLASS_NAME} 
--jars local://${BASE_DIR}/lib/ananke-${PROJECT_VERSION}-deps.jar 
--executor-memory 58G 
--total-executor-cores 48 
--conf "spark.cassandra.output.concurrent.writes=2" 
--conf "spark.ui.showConsoleProgress=false" 
local://${BASE_DIR}/current/ananke-${PROJECT_VERSION}.jar
Spark-Submit
Datastax Analytics (lo malo)
• Spark version 1.6  2.0 cambió la abstracción de Streaming
• Ajuste fino de memoria o OOM!
• Hay pocas metricas en Opscenter, se queda corto
• No hay integración de Spark-UI, solo un link
Para saber más
http://www.datastax.com/datastax-enterprise-for-startups
https://github.com/Azure/azure-quickstart-templates
https://azure.microsoft.com/en-us/documentation/articles/resource-group-template-deploy-cli/
https://github.com/socialmetrix/azure-resource-manager-dse/tree/feature/socialmetrix/singledc/
http://www.slideshare.net/patrickmcfadin/analyzing-time-series-data-with-apache-spark-and-
cassandra
http://arjon.es
Obrigado &
Gracias!
Gustavo Arjones
CTO & Co-Founder
gustavo@socialmetrix.com
@arjones
http://arjon.es

Más contenido relacionado

Destacado

Pesquisa De Marketing F.N. Mattar Cap 2
Pesquisa De Marketing   F.N. Mattar   Cap 2Pesquisa De Marketing   F.N. Mattar   Cap 2
Pesquisa De Marketing F.N. Mattar Cap 2Fabiano Damiati
 
Be watter with Spark
Be watter with SparkBe watter with Spark
Be watter with SparkSergio Gómez
 
Metolodogia daniela cartoni - slides - parte 07 - tipos de pesquisa
Metolodogia   daniela cartoni - slides - parte 07 - tipos de pesquisaMetolodogia   daniela cartoni - slides - parte 07 - tipos de pesquisa
Metolodogia daniela cartoni - slides - parte 07 - tipos de pesquisaDaniela Cartoni
 
A importância de Bioestatística
A importância de Bioestatística A importância de Bioestatística
A importância de Bioestatística João Monteiro
 
Instrumentos de Pesquisa Científica
Instrumentos de Pesquisa CientíficaInstrumentos de Pesquisa Científica
Instrumentos de Pesquisa CientíficaJames Tomaz-Morais
 
Big data e o desafio omni channel no universo varejista da moda
Big data e o desafio omni channel no universo varejista da modaBig data e o desafio omni channel no universo varejista da moda
Big data e o desafio omni channel no universo varejista da modaCleber Fonseca
 
Analisando dados de uma pesquisa qualitativa (2012)
Analisando dados de uma pesquisa qualitativa (2012)Analisando dados de uma pesquisa qualitativa (2012)
Analisando dados de uma pesquisa qualitativa (2012)Luís Fernando Tófoli
 
Aula 01 - Métodos de Análise de Dados
Aula 01 - Métodos de Análise de DadosAula 01 - Métodos de Análise de Dados
Aula 01 - Métodos de Análise de DadosHenrique Morais
 

Destacado (14)

Integración de DataStax de Spark con Cassandra
Integración de DataStax de Spark con CassandraIntegración de DataStax de Spark con Cassandra
Integración de DataStax de Spark con Cassandra
 
Pesquisa De Marketing F.N. Mattar Cap 2
Pesquisa De Marketing   F.N. Mattar   Cap 2Pesquisa De Marketing   F.N. Mattar   Cap 2
Pesquisa De Marketing F.N. Mattar Cap 2
 
Be watter with Spark
Be watter with SparkBe watter with Spark
Be watter with Spark
 
Metolodogia daniela cartoni - slides - parte 07 - tipos de pesquisa
Metolodogia   daniela cartoni - slides - parte 07 - tipos de pesquisaMetolodogia   daniela cartoni - slides - parte 07 - tipos de pesquisa
Metolodogia daniela cartoni - slides - parte 07 - tipos de pesquisa
 
Coleta de dados
Coleta de dadosColeta de dados
Coleta de dados
 
A importância de Bioestatística
A importância de Bioestatística A importância de Bioestatística
A importância de Bioestatística
 
Technical landscape of IoT
Technical landscape of IoTTechnical landscape of IoT
Technical landscape of IoT
 
Instrumentos de Pesquisa Científica
Instrumentos de Pesquisa CientíficaInstrumentos de Pesquisa Científica
Instrumentos de Pesquisa Científica
 
Big data e o desafio omni channel no universo varejista da moda
Big data e o desafio omni channel no universo varejista da modaBig data e o desafio omni channel no universo varejista da moda
Big data e o desafio omni channel no universo varejista da moda
 
Como fazer citações
Como fazer citaçõesComo fazer citações
Como fazer citações
 
Coleta de dados
Coleta de dadosColeta de dados
Coleta de dados
 
Como Fazer Citações E Referências
Como Fazer Citações E ReferênciasComo Fazer Citações E Referências
Como Fazer Citações E Referências
 
Analisando dados de uma pesquisa qualitativa (2012)
Analisando dados de uma pesquisa qualitativa (2012)Analisando dados de uma pesquisa qualitativa (2012)
Analisando dados de uma pesquisa qualitativa (2012)
 
Aula 01 - Métodos de Análise de Dados
Aula 01 - Métodos de Análise de DadosAula 01 - Métodos de Análise de Dados
Aula 01 - Métodos de Análise de Dados
 

Similar a Instalando Datastax Analytics (Cassandra Y Spark) Con Azure Templates

Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Socialmetrix
 
Administrando SQL Server, mejores practicas para un DBA
Administrando SQL Server, mejores practicas para un DBAAdministrando SQL Server, mejores practicas para un DBA
Administrando SQL Server, mejores practicas para un DBASpanishPASSVC
 
Mejores Prácticas de SQL Server para implementar SharePoint Server
Mejores Prácticas de SQL Server para implementar SharePoint ServerMejores Prácticas de SQL Server para implementar SharePoint Server
Mejores Prácticas de SQL Server para implementar SharePoint ServerSpanishPASSVC
 
Empleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosEmpleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosAntonio Santos Ramos
 
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...Amazon Web Services
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016jorge Muchaypiña
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosAmazon Web Services LATAM
 
Introduccion a Data Science
Introduccion a Data ScienceIntroduccion a Data Science
Introduccion a Data ScienceSpanishPASSVC
 
Escalando con SQL Server hasta la nube, un trayecto necesario - Adrian Miranda
Escalando con SQL Server hasta la nube, un trayecto necesario - Adrian MirandaEscalando con SQL Server hasta la nube, un trayecto necesario - Adrian Miranda
Escalando con SQL Server hasta la nube, un trayecto necesario - Adrian MirandaSpanishPASSVC
 
Aplicaciones Big Data Marketing
Aplicaciones Big Data MarketingAplicaciones Big Data Marketing
Aplicaciones Big Data MarketingStratebi
 
Como empezar tu Carrera como Azure Data Engineer
Como empezar tu Carrera como Azure Data EngineerComo empezar tu Carrera como Azure Data Engineer
Como empezar tu Carrera como Azure Data Engineernnakasone
 
Servicios amazon en la nube.
Servicios amazon en la nube.Servicios amazon en la nube.
Servicios amazon en la nube.SusySotelo1
 
Mejora tus resultados de negocios con Azure DevOps
Mejora tus resultados de negocios con Azure DevOpsMejora tus resultados de negocios con Azure DevOps
Mejora tus resultados de negocios con Azure DevOpsBelatrix Software
 
Servicios de datos en Microsoft Azure
Servicios de datos en Microsoft AzureServicios de datos en Microsoft Azure
Servicios de datos en Microsoft AzureJohn Bulla
 
Stretch data base - Jorge Muchaypiña G.
Stretch data base - Jorge Muchaypiña G.Stretch data base - Jorge Muchaypiña G.
Stretch data base - Jorge Muchaypiña G.jorge Muchaypiña
 
SQL Server 2014 y La Plataforma de Datos
SQL Server 2014 y La Plataforma de DatosSQL Server 2014 y La Plataforma de Datos
SQL Server 2014 y La Plataforma de DatosJoseph Lopez
 

Similar a Instalando Datastax Analytics (Cassandra Y Spark) Con Azure Templates (20)

Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
 
AWS Analytics Experience Argentina
AWS Analytics Experience Argentina AWS Analytics Experience Argentina
AWS Analytics Experience Argentina
 
Administrando SQL Server, mejores practicas para un DBA
Administrando SQL Server, mejores practicas para un DBAAdministrando SQL Server, mejores practicas para un DBA
Administrando SQL Server, mejores practicas para un DBA
 
Mejores Prácticas de SQL Server para implementar SharePoint Server
Mejores Prácticas de SQL Server para implementar SharePoint ServerMejores Prácticas de SQL Server para implementar SharePoint Server
Mejores Prácticas de SQL Server para implementar SharePoint Server
 
Empleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosEmpleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datos
 
Servicios de Bases de Datos de AWS
Servicios de Bases de Datos de AWSServicios de Bases de Datos de AWS
Servicios de Bases de Datos de AWS
 
DBA del Futuro (Un nuevo paradigma)
DBA del Futuro (Un nuevo paradigma)DBA del Futuro (Un nuevo paradigma)
DBA del Futuro (Un nuevo paradigma)
 
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
AWS Presentacion Universidad de los Andes "Escalando para sus primeros 10 Mil...
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016
 
Sistema de Bases de Datos AWS
Sistema de Bases de Datos AWSSistema de Bases de Datos AWS
Sistema de Bases de Datos AWS
 
Escalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuariosEscalando para sus primeros 10 millones de usuarios
Escalando para sus primeros 10 millones de usuarios
 
Introduccion a Data Science
Introduccion a Data ScienceIntroduccion a Data Science
Introduccion a Data Science
 
Escalando con SQL Server hasta la nube, un trayecto necesario - Adrian Miranda
Escalando con SQL Server hasta la nube, un trayecto necesario - Adrian MirandaEscalando con SQL Server hasta la nube, un trayecto necesario - Adrian Miranda
Escalando con SQL Server hasta la nube, un trayecto necesario - Adrian Miranda
 
Aplicaciones Big Data Marketing
Aplicaciones Big Data MarketingAplicaciones Big Data Marketing
Aplicaciones Big Data Marketing
 
Como empezar tu Carrera como Azure Data Engineer
Como empezar tu Carrera como Azure Data EngineerComo empezar tu Carrera como Azure Data Engineer
Como empezar tu Carrera como Azure Data Engineer
 
Servicios amazon en la nube.
Servicios amazon en la nube.Servicios amazon en la nube.
Servicios amazon en la nube.
 
Mejora tus resultados de negocios con Azure DevOps
Mejora tus resultados de negocios con Azure DevOpsMejora tus resultados de negocios con Azure DevOps
Mejora tus resultados de negocios con Azure DevOps
 
Servicios de datos en Microsoft Azure
Servicios de datos en Microsoft AzureServicios de datos en Microsoft Azure
Servicios de datos en Microsoft Azure
 
Stretch data base - Jorge Muchaypiña G.
Stretch data base - Jorge Muchaypiña G.Stretch data base - Jorge Muchaypiña G.
Stretch data base - Jorge Muchaypiña G.
 
SQL Server 2014 y La Plataforma de Datos
SQL Server 2014 y La Plataforma de DatosSQL Server 2014 y La Plataforma de Datos
SQL Server 2014 y La Plataforma de Datos
 

Último

guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 

Último (10)

guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 

Instalando Datastax Analytics (Cassandra Y Spark) Con Azure Templates