Instalando Datastax Analytics (Cassandra Y Spark) Con Azure TemplatesGustavo Arjones
La presentación brinda nuestra experiencia instalando y configurando clusters de Datastax Analytics en Azure. Lessons Learned.
Blog post: http://arjon.es/2016/11/16/usando-azure-templates-para-instalar-datastax-cassandra-y-spark/
How do you rapidly derive complex insights on top of really big data sets in Cassandra? This session draws upon Evan's experience building a distributed, interactive, columnar query engine on top of Cassandra and Spark. We will start by surveying the existing query landscape of Cassandra and discuss ways to integrate Cassandra and Spark. We will dive into the design and architecture of a fast, column-oriented query architecture for Spark, and why columnar stores are so advantageous for OLAP workloads. I will present a schema for Parquet-like storage of analytical datasets onCassandra. Find out why Cassandra and Spark are the perfect match for enabling fast, scalable, complex querying and storage of big analytical data.
Instalando Datastax Analytics (Cassandra Y Spark) Con Azure TemplatesGustavo Arjones
La presentación brinda nuestra experiencia instalando y configurando clusters de Datastax Analytics en Azure. Lessons Learned.
Blog post: http://arjon.es/2016/11/16/usando-azure-templates-para-instalar-datastax-cassandra-y-spark/
How do you rapidly derive complex insights on top of really big data sets in Cassandra? This session draws upon Evan's experience building a distributed, interactive, columnar query engine on top of Cassandra and Spark. We will start by surveying the existing query landscape of Cassandra and discuss ways to integrate Cassandra and Spark. We will dive into the design and architecture of a fast, column-oriented query architecture for Spark, and why columnar stores are so advantageous for OLAP workloads. I will present a schema for Parquet-like storage of analytical datasets onCassandra. Find out why Cassandra and Spark are the perfect match for enabling fast, scalable, complex querying and storage of big analytical data.
This presentation belongs to 1 of 9 sections within the Big Data Workshop.
Other topics are Parallel Processing, SNA, Data Ingestion, Visualization, among others
Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...Aragón Open Data
El pasado 16 y 17 de octubre se desarrolló una jornada formativa para capacitar en competencias digitales basadas en el uso de datos, datos abiertos y herramientas que mejoren su competitividad, procesos o información en el sector agroalimentario aragonés.
Jornada de formación enmarcada en el proyecto europeo Interreg-Med ODEON del que forma parte la Dirección General de Administración Electrónica y Sociedad de la Información del Departamento de Ciencia, Universidad y Sociedad del Conocimiento del Gobierno de Aragón y la empresa pública SARGA del Departamento de Agricultura, Ganadería y Medio Ambiente.
Primeros pasos con Apache Spark - Madrid Meetupdhiguero
Primeros pasos con Spark dentro del Apache Spark Meetup group de Madrid (http://www.meetup.com/Madrid-Apache-Spark-meetup/events/198362002/)
Contenido:
- Introdución
- Conceptos básicos
- Ecosistema Spark
- Instalación del entorno
- Errores comunes
This presentation belongs to 1 of 9 sections within the Big Data Workshop.
Other topics are Parallel Processing, SNA, Data Ingestion, Visualization, among others
Trabajar en el sector agroalimentario aragonés con datos y portales de datos ...Aragón Open Data
El pasado 16 y 17 de octubre se desarrolló una jornada formativa para capacitar en competencias digitales basadas en el uso de datos, datos abiertos y herramientas que mejoren su competitividad, procesos o información en el sector agroalimentario aragonés.
Jornada de formación enmarcada en el proyecto europeo Interreg-Med ODEON del que forma parte la Dirección General de Administración Electrónica y Sociedad de la Información del Departamento de Ciencia, Universidad y Sociedad del Conocimiento del Gobierno de Aragón y la empresa pública SARGA del Departamento de Agricultura, Ganadería y Medio Ambiente.
Primeros pasos con Apache Spark - Madrid Meetupdhiguero
Primeros pasos con Spark dentro del Apache Spark Meetup group de Madrid (http://www.meetup.com/Madrid-Apache-Spark-meetup/events/198362002/)
Contenido:
- Introdución
- Conceptos básicos
- Ecosistema Spark
- Instalación del entorno
- Errores comunes
EDT (Estructura de Desglose de Trabajo).pdffranco14021
• EDT: Estructura Desagregada del Trabajo
(Desagregar: Separar dos cosas que estaban unidas)
• WBS: Work Breakdown Structure
• Representa TODO el trabajo que se debe realizar en un Proyecto
•Equivale al índice de un libro
ascensor o elevador es un sistema de transporte vertical u oblicuo, diseñado...LuisLobatoingaruca
Un ascensor o elevador es un sistema de transporte vertical u oblicuo, diseñado para mover principalmente personas entre diferentes niveles de un edificio o estructura. Cuando está destinado a trasladar objetos grandes o pesados, se le llama también montacargas.
Metodología - Proyecto de ingeniería "Dispensador automático"cristiaansabi19
Esta presentación contiene la metodología del proyecto de la materia "Introducción a la ingeniería". Dicho proyecto es sobre un dispensador de medicamentos automáticos.
libro conabilidad financiera, 5ta edicion.pdfMiriamAquino27
LIBRO DE CONTABILIDAD FINANCIERA, ESTE TE AYUDARA PARA EL AVANCE DE TU CARRERA EN LA CONTABILIDAD FINANCIERA.
SI ERES INGENIERO EN GESTION ESTE LIBRO TE AYUDARA A COMPRENDER MEJOR EL FUNCIONAMIENTO DE LA CONTABLIDAD FINANCIERA, EN AREAS ADMINISTRATIVAS ENLA CARREARA DE INGENERIA EN GESTION EMPRESARIAL, ESTE LIBRO FUE UTILIZADO PARA ALUMNOS DE SEGUNDO SEMESTRE
10. Características
Tabla RDD
N
N N
N
M
W W W W
Tabla RDD
N
N N
N
M
W W W W
Mapping de Filas de C* como Tuplas
Guarda RDDs en C*(saveToCassandra)
Soporta todos los tipos de datos de C*
Filtrado de filas (en C*) mediante Where
…
Más en la web oficial.
24. Modelo de Datos C*
//KeySpace
CREATE KEYSPACE demoCMU WITH replication = {'class': 'SimpleStrategy', 'replication_factor':1};
use demoCMU;
//Tabla
CREATE TABLE demoCMU.asistentesCMU (id int PRIMARY KEY, nombre text, genero text);
CREATE TABLE demoCMU.asistentesCopia (id int PRIMARY KEY, nombre text , tipo text);
//Registros
INSERT INTO demoCMU.asistentesCMU (id, nombre, genero) VALUES (1, 'Ale Murray', 'femenino');
INSERT INTO demoCMU.asistentesCMU (id, nombre, genero) VALUES (2, 'Iñigo Aldama', 'masculino');
INSERT INTO demoCMU.asistentesCMU (id, nombre, genero) VALUES (3, 'Antonio', 'masculino');
…
INSERT INTO demoCMU.asistentesCMU (id, nombre, genero) VALUES (32, 'Jesus Arrabal', 'masculino');
25. Conexión al Conector (Spark-Shell)
scala> sc.stop
scala>:paste
// Entering paste mode (ctrl-D to finish)
import com.datastax.spark.connector._ //conector datastax spark+cassandra
import org.apache.spark._ //conector Spark
val conf = new SparkConf() //creamos una configuración
conf.set("spark.cassandra.connection.host", "10.211.55.8") //añadimos nuestro host de C*
conf.set("spark.home", "/opt/spark-1.0.2") //establecemos el Home de Spark
val sc = new SparkContext("local[2]", "Cassandra Connector Test", conf) // Creamos el Contexto
// Exiting paste mode, now interpreting.
27. Acceso a Tabla C*
scala> val tableCMU = sc.cassandraTable("democmu", "asistentescmu")
tableCMU: com.datastax.spark.connector.rdd.CassandraRDD[com.datastax.spark.connector.CassandraRow] =
CassandraRDD[0] at RDD at CassandraRDD.scala:47
34. Y mucho más…
Working with user-defined case classes and tuples
Customizing the object mapping
Using Connector in Java
…
Visita: https://github.com/datastax/spark-cassandra-connector/
· Distribuida
· Peer to peer
· Tolerante a fallos
· Escala linealmente
· Sencilla de utilizar
· Motor de procesamiento de grandes volúmenes de datos en memoria
· Arquitectura maestro esclavo: Master & Workers
· Sencillo de programar
· RDDs: Resilient Distributed Datasets (Lineage)
· Es compatible con HDFS, CSVs, Parquet y con Cassandra.
· En Mayo anunciaron datastax y databricks que unían lazos
· El conector se lanzó a mediados de Julio
· Gran impacto en la comunidad
· Desde entonces hemos estado trabajando con el
· La principal: De tabla a RDD
· Varias tablas en RDDs
· Cada Spark Executor mantiene una conexión con el cluster de C*
· Colocar cada nodo de Cassandra en el mismo servidor de cada worker de Spark puede disminuir la latencia entre ambos (no garantizado).