La presentación brinda nuestra experiencia instalando y configurando clusters de Datastax Analytics en Azure. Lessons Learned.
Blog post: http://arjon.es/2016/11/16/usando-azure-templates-para-instalar-datastax-cassandra-y-spark/
Instalando Datastax Analytics (Cassandra Y Spark) Con Azure Templates
1. Instalando Datastax Analytics en Azure
Azure Templates, Cassandra y Spark
Gustavo Arjones
gustavo@socialmetrix.com
@arjones
2. Co-founder & CTO de Socialmetrix
Prof. de Social Media Analytics y Big Data en UdeSA
Lic. Ciencias Computación
MBA Marketing Servicios
@arjones
gustavo@socialmetrix.com
Brasileño, en Argentina desde 2008 (me mudé para armar Socialmetrix)
Gustavo Arjones
3. Socialmetrix
Medimos la actividad de las compañías y
personalidades en las redes sociales para
generar valor a profesionales de
Marketing, Investigación de Mercado y
Producto.
Software As A Service
6. Volumen
• Capturamos +10MM de fanpages de Facebook, cuentas de
Twitter, Instagram, YouTube Channel, blogs, sites, etc
• Se generan +1.500 MM de interacciones en un mes
• Capturamos +1Tb por mes de nuevos datos, los antiguos NUNCA
se borran; +30 Tb storage actual; ~10Tb hot data
• 250+ servidores, + databases, +ambientes de prueba/staging
7. Necesitamos de una DB para Time-Series
• Escale linear
• Tiempo de respuesta de <1seg (customer facing)
• Crecimiento contínuo de datos (no se hace rotate, no se pierde
resolución)
• Qué podamos pagar!
10. Cientos de Customizaciones
• YMMV es un acrónimo que odio
• ”Your Mileage May Vary” == no te puedo contar, probalo vos!
• Número de nodes
• Vnodes: 0, 32, 64, 128 ?
• Cores, Memoria
• Compaction Strategy
• Data Model
17. Azure Resource Manager Templates
Visual Studio Code
• auto-complete
• validación básica:
• missing variables and parameters
• parameters defined and not used
18. Azure Resource Manager Templates (lo malo)
• JSON es el nuevo XML
• Falta Lint, Validadores
• Hay que ejecutar template ($$$) para ver lo que pasa
22. Lessons Learned
• Usar Life Cycle Manager para probar distintas configuraciones,
después pasar esos parámetros a Ansibe
• Empezar el proceso por Ansible y evitar la tentación de usar
”custom bash scripts”.
28. Datastax Enterprise
• Opscenter (monitoring)
• Life cycle Manager (Install+Config)
• Analytics Mode = Cassandra + Spark
• Cassandra File System (CFS) ~ HDFS
• Spark Master en HA
29.
30.
31. Lessons Learned (Cassandra)
• Servers muy chicos ~ 500Gb (< 1Tb)
• I/O y Memoria son las cosas más importantes (en ese orden)
• Sin compaction no hay felicidad
• Sin repair no hay felicidad
• Data Model
• YMMV
32. Migrando nuestra app de FOSS Spark
• Sacar las dependencias de Spark y de Spark-Cassandra-Driver
• Cambiar por:
"com.datastax.dse" % "dse-spark-dependencies" % "5.0.1" % "provided”
• Detecta automáticamente Spark-Master
• Autentica al cluster de Cassandra y a Spark
• Usar dse spark-submit
34. Datastax Analytics (lo malo)
• Spark version 1.6 2.0 cambió la abstracción de Streaming
• Ajuste fino de memoria o OOM!
• Hay pocas metricas en Opscenter, se queda corto
• No hay integración de Spark-UI, solo un link