SlideShare una empresa de Scribd logo
1 de 53
Big Data Mining con Mahout 
@antoniosql 
@rpertusa 
#SQSummit 
Antonio Soto / Rubén Pertusa López 
COO / Data Platform Architect 
rpertusa@solidq.com 
MAP, MCSA, MCT, PASS Spain
Objetivos de la charla 
• Preparación de Datos usando la plataforma 
Microsoft 
• SQL Server  T-SQL, SSIS, Power Query 
• HDInsight  Pig, Hive 
• Mineria de datos usando la plataforma 
Microsoft 
• SQL Server  Analysis Services Data Mining / Excel 
• HDInsight  Mahout, Pegasus 
2
Agenda 
• Minería de Datos 
• Minería de datos tradicional con SQL Server 
Analysis Services 
• Arquitecturas de Minería para Big Data 
• Algoritmos Mahout: Asociación 
• Algoritmos Mahout: Clustering 
• Ejecución distribuida con Mahout 
• Algoritmos Mahout: Clasificación 
3
Definición 
“Mineria de datos es una colección de 
potentes técnicas de análisis con el objetivo 
de descubrir patrones y reglas sobre 
grandes volumenes de datos” 
4
Los dos tipos de Minería 
Minería de datos dirigida (top-down) 
– Clasificación 
– Estimación 
– Pronósticos 
Minería de datos no dirigida (bottom-up) 
– Grupos de afinidad (recomendaciones) 
– Clustering 
– Descripción 
5
Tabla de casos: Retención de 
clientes (Banco) 
ExternalCreditCard InvestmentProducts Months #TransactionsLastMonth LeftTheBank 
No Yes 120 15 No 
Yes No 36 2 Yes 
Yes Yes 40 25 No 
Yes Yes 100 25 Yes 
No No 24 0 No 
Yes No 86 3 Yes 
Yes No 12 25 Yes 
No Yes 30 2 No 
6
Árbol de decisión: Retención de 
clientes (Banco) 
7 
External Credit Card 
Investment Investment 
Student Student Student Student 
……
Preparación de Datos 
Valores Perdidos y Picos 
Variables derivadas 
Series de Tiempo 
Muestreo y Pruebas de Muestreo 
8
Estandarización Puntos de Tiempo 
• Examinar los últimos meses antes de abandono 
• Abandono de diferentes clientes ocurren en diferentes 
9 
momentos 
Jan Feb Mar Apr May Jun Jul Aug 
month of 
churn 
7 6 5 4 3 2 1 0 
months 
before 
churn
Minería de datos con SQL Server 
10 
Data Preparation Model Processing 
SSIS, T-SQL 
#1 #2 #3 #4 *** 
SS Analysis Services Data 
Mining
DEMO 
11 
Mineria de datos 
“tradicional”
Agenda 
• Minería de datos tradicional con SQL Server 
Analysis Services 
• Arquitecturas de Minería para Big Data 
• Algoritmos Mahout: Asociación 
• Algoritmos Mahout: Clustering 
• Ejecución distribuida con Mahout 
• Algoritmos Mahout: Clasificación 
12
Descubrir patrones 
13 
20% 
80% 
Structured Less Structured 
12 Tb 
dia 
21 Pb 
Hadoop 
cluster 
1 Tb 
Tweets 
dia 
75 Mi 
Scores 
dia 
7 Tb 
Datos día 
4 B 
Graph 
edg/día 
Millones de 
comentarios
ROI…. 
Google AdWords: Predicción de click through 
rates (CTR) 
Netflix: 75% del streaming de video viene de 
recomendaciones 
Amazon: 35% de las ventas de producto 
vienen de recomendaciones de producto 
14
Tabla de casos: Retención de clientes 
(Banco) 
15 
ExternalCreditCard 
CustomerService 
Tone/Sentiment 
Investment 
Products Months 
#Transactions 
LastMonth LeftTheBank 
No Positive Yes 120 15 No 
Yes Negative No 36 2 Yes 
Yes Positive Yes 40 25 No 
Yes Positive Yes 100 25 Yes 
No Positive No 24 0 No 
Yes Negative No 86 3 Yes 
Yes Positive No 12 25 Yes 
No Negative Yes 30 2 No
Minería de datos con Hadoop + SQL 
Server 
16 
Data Preparation Model Processing 
Hive, Pig, MapReduce, 
SSIS, T-SQL 
#1 #2 #3 #4 *** 
SS Analysis Services Data 
Mining
Problemas Hadoop-ables 
• Sistemas de 
recomendacion 
• Marketing Target 
• Prediccion de fallo de red 
• Modelos de riesgo/fraude 
• Predicción de amenazas 
• Análisis de abandono de 
clientes 
17 
4 V’s + Machine Learning
Mahout Pegasus Lucene … 
Pig Hive 
Map Reduce 
HDFS 
Hive ODBC 
Sqoop 
JDBC 
Windows Azure & Windows Server 
Microsoft 
BI 
Platform 
Repaso Hadoop
Hadoop Distributed File System (HDFS) 
NameNode DataNode 
File File File 
File File File 
File File 
File File File 
File File File 
File 
File File File 
File File 
File 
File 
File File File 
File File 
File File 
File File 
File 
File File 
File File 
DataNode DataNode 
Block Size = 64 Mb 
Replication Factor = 3
Map Reduce 
JobTracker TaskTracker 
File File File 
File File File 
Reduce 
File File 
map map 
File File File 
File File File 
File 
File File File 
File File 
File 
File 
File File File 
File File 
MapReduce 
Job 
File 
File File 
File File 
map 
TaskTracker TaskTracker
Minería de datos con Hadoop, Mahout 
21 
Data Preparation Model Processing 
Hive, Pig, MapReduce Mahout 
#1 #2 #3 #4 ***
Mahout 
• Proyecto TOP Apache Lucene 
• Librería Machine Learning escalable 
• La mayoría escalan con Hadoop 
• Basado en Map Reduce 
• Tambien en SPARK 
Mahout 
Map Reduce 
HDFS 
22
Algoritmos Mahout 
Collaborative Filtering (Asociación) 
• Por Usuarios 
• Por Item 
Clasificación 
• Regresión logistica 
• Naïve Bayes 
• Random Forest 
Clustering 
• k-means 
• Spectral Clustering 
23
Hadoop en Azure: HDInsight 
Si necesitamos un cluster mayor  Soporte Azure 
24
Agenda 
• Minería de datos tradicional con SQL Server 
Analysis Services 
• Arquitecturas de Minería para Big Data 
• Algoritmos Mahout: Asociación 
• Algoritmos Mahout: Clustering 
• Ejecución distribuida con Mahout 
• Algoritmos Mahout: Clasificación 
25
Problemas Hadoop-ables: Asociación 
• Basada en 
Usuario 
•Basada en Items 
• Algoritmos: 
•Log-likehood 
•TaniMoto 
• Euclidean Distance 
•Pearson Correlation 
•Relative Rank 
•Spearman correlation 
26
DEMO 
27 
Asociación
Recomendar Películas 
• Preparar los datos con Mahout 
• Ejecutar procesado Mahout en Hadoop 
• Observar resultados 
28
Similarity Cooccurrence 
hadoop jar C:Hadoopmahout-0.8mahout-examples- 
0.8-job.jar org.apache.mahout.driver.MahoutDriver 
recommenditembased --input 
///labs/mahoutlab/recomendacion/mahoutinput.txt -- 
output 
///labs/mahoutlab/recomendacion/output/itembased-cooccurence 
--usersFile 
///labs/mahoutlab/recomendacion/users.txt -- 
similarityClassname SIMILARITY_COOCCURRENCE -- 
numRecommendations 10 --tempDir 
///labs/mahoutlab/recomendacion/temp-cooccurrence 
29
Similarity Euclidean Distance 
hadoop jar C:Hadoopmahout-0.8mahout-examples- 
0.8-job.jar org.apache.mahout.driver.MahoutDriver 
recommenditembased --input 
///labs/mahoutlab/recomendacion/mahoutinput.txt -- 
output 
///labs/mahoutlab/recomendacion/output/itembased-euclidean 
--usersFile 
///labs/mahoutlab/recomendacion/users.txt -- 
similarityClassname 
SIMILARITY_EUCLIDEAN_DISTANCE -- 
numRecommendations 10 --tempDir 
///labs/mahoutlab/recomendacion/temp-euclidean 
30
Similarity LogLikeliHood 
hadoop jar C:Hadoopmahout-0.8mahout-examples- 
0.8-job.jar 
org.apache.mahout.driver.MahoutDriver 
recommenditembased --input 
///labs/mahoutlab/mahoutinput.txt --output 
///labs/mahoutlab/output/itembased-loglikelihood 
--usersFile ///labs/mahoutlab/users.txt -- 
similarityClassname SIMILARITY_LOGLIKELIHOOD 
--numRecommendations 10 --tempDir 
///labs/mahoutlab/recomendacion/temp-loglikelihood 
31
Agenda 
• Minería de datos tradicional con SQL Server 
Analysis Services 
• Arquitecturas de Minería para Big Data 
• Algoritmos Mahout: Asociación 
• Algoritmos Mahout: Clustering 
• Ejecución distribuida con Mahout 
• Algoritmos Mahout: Clasificación 
32
Algoritmos Hadoopables: Clustering 
33 
Map Reduce Single Node 
• Item Base 
Collaborative 
Filtering 
• Naive Bayes 
• Random Forest 
• K-Means 
• … 
• User Based 
Collaborative 
Filtering 
• Logistic Regression 
• Markov Models 
• Multilayer Perceptron 
• …
Mahout Clustering 
Algoritmos 
• K-Means 
• Canopy Clustering 
• Dirichlet 
• Streaming k-Means 
• Spectral Clustering 
• Spearman correlation 
Medidas de distancia 
• Manhattan 
• Euclidean 
34
DEMO 
35 
Clustering
Mail Cluster, Pasos 
Preparar datos  Vectores 
Ejecutar el procesado Mahout Clustering en 
Hadoop 
Observar resultados 
36
Convirtiendo frases a vectores 
Mail 1: “SQL Server alto rendimiento” 
• Bag of Words: 
• SQL  1 
• Server  2 
• alto 3 
• rendimiento 4 
• Vectores: (Mail#,Word) = 
(1,1),(1,2),(1,3),(1,4) 
37
Seq2sparse command 
hadoop jar C:Hadoopmahout-0.8mahout-examples- 
0.8-job.jar 
org.apache.mahout.driver.MahoutDriver 
seq2sparse --input 
///labs/mahoutlab/clustering-spam/ 
output/seqdir --output 
///labs/mahoutlab/clustering-spam/ 
output/vectors --overwrite --weight tfidf 
--sequentialAccessVector --norm 2 -- 
logNormalize --namedVector 
38
K-means Cosine Distance 
hadoop jar C:Hadoopmahout-0.8mahout-examples- 
0.8-job.jar 
org.apache.mahout.clustering.kmeans.KMeansDrive 
r --input ///labs/mahoutlab/clustering-spam/ 
output/vectors/tfidf-vectors --clusters 
///labs/mahoutlab/clustering-spam/output/initial-cluster 
--output ///labs/mahoutlab/clustering-spam/ 
output/kmeans -cd 0.1 -k 10 -x 10 -cl -dm 
org.apache.mahout.common.distance.CosineDistan 
ceMeasure 
39
Output 
VL-1382{n=261 c=[0:0.007, 9:0.001, 11:0.000, … 
Top Palabras 
SQL 
Performance 
Availability 
T-SQL 
Select 
40
Agenda 
• Minería de datos tradicional con SQL Server 
Analysis Services 
• Arquitecturas de Minería para Big Data 
• Algoritmos Mahout: Asociación 
• Algoritmos Mahout: Clustering 
• Ejecución distribuida con Mahout 
• Algoritmos Mahout: Clasificación 
41
Mahout Clasificación 
Algoritmos 
• Decision Trees 
• Naïve Bayes 
• Markov Model 
• Random Forest 
• … 
42
DEMO 
43 
Clasificación
Tabla de casos: Clasificación SPAM 
44 
Email text file Spam 
Yes 
No 
Yes 
No 
Yes 
Yes 
Yes 
Yes 
No
Set de entrenamiento y test 
hadoop jar C:Hadoopmahout-0.8mahout-examples- 
0.8-job.jar 
org.apache.mahout.driver.MahoutDriver split - 
-input 
///labs/mahoutlab/clasificacion2/output/vecto 
rs/tfidf-vectors --trainingOutput 
///labs/mahoutlab/clasificacion2/train-vectors 
--testOutput 
///labs/mahoutlab/clasificacion2/test-vectors - 
-randomSelectionPct 40 --overwrite -- 
sequenceFiles -xm sequential 
45
Naïve Bayes 
hadoop jar C:Hadoopmahout- 
0.8mahout-examples-0.8-job.jar 
org.apache.mahout.driver.MahoutDriver 
trainnb --input 
///labs/mahoutlab/clasificacion2/train-vectors 
-el --output 
///labs/mahoutlab/clasificacion2/model -li 
///labs/mahoutlab/clasificacion2/labelindex 
-ow 
46
Mahout hoy 
El 25 de Abril, Apache Mahout dijo adios a 
MapReduce 
• Mantiene los algoritmos MapReduce 
Futuras implementaciones usarán DSL (Optimizador 
algebraico) 
• Ejecución en Apache SPARK sobre Hadoop 2.X YARN 
Futuras implementaciones soportadas en HDInsight 
47
Conclusión 
Durante esta sesión… 
Arquitecturas de Minería para Big Data 
Algoritmos en Mahout 
• Clasificación 
• Asociación 
• Clustering 
Ejecución distribuida con Mahout 
48
Conclusión 
• Hadoop cuando Big Data lo requiere. La mayor 
parte de los algoritmos son Hadoopable. 
• Hadoop escala horizontalmente. 
• SQL Server DM solo escala verticalmente. 
• SQL Server proporciona una visualización rica e 
integración sencilla. 
• Para la mayor parte de soluciones de minería no 
son necesarias grandes cantidades de datos. 
Hadoop puede hacer la preparación y SQL Server 
realizar la minería. 
49
Minería de datos con SQL Server 
50 
Data Preparation Model Processing 
SSIS, T-SQL 
#1 #2 #3 #4 *** 
SS Analysis Services Data 
Mining
Minería de datos con Hadoop + SQL 
Server 
51 
Data Preparation Model Processing 
Hive, Pig, MapReduce, 
SSIS, T-SQL 
#1 #2 #3 #4 *** 
SS Analysis Services Data 
Mining
Minería de datos con Hadoop, Mahout 
52 
Data Preparation Model Processing 
Hive, Pig, MapReduce Mahout 
#1 #2 #3 #4 ***
Si quieres disfrutar de las mejores sesiones de 
nuestros mentores de España y Latino América, 
ésta es tu oportunidad. 
http://summit.solidq.com 
Síguenos: 
55

Más contenido relacionado

Destacado

EclipseCon NA 2015 - Arduino designer : the making of!
EclipseCon NA 2015 - Arduino designer : the making of!EclipseCon NA 2015 - Arduino designer : the making of!
EclipseCon NA 2015 - Arduino designer : the making of!melbats
 
ჩამი პრეზენტაცია
ჩამი პრეზენტაციაჩამი პრეზენტაცია
ჩამი პრეზენტაციაInga Kortava
 
EclipseCon Europe 2013 - Turning Eclipse into an Arduino programming platform...
EclipseCon Europe 2013 - Turning Eclipse into an Arduino programming platform...EclipseCon Europe 2013 - Turning Eclipse into an Arduino programming platform...
EclipseCon Europe 2013 - Turning Eclipse into an Arduino programming platform...melbats
 
China micro grid technology progress and prospects forecast report, 2013-2018
China micro grid technology progress and prospects forecast report, 2013-2018China micro grid technology progress and prospects forecast report, 2013-2018
China micro grid technology progress and prospects forecast report, 2013-2018Qianzhan Intelligence
 
Normas de etiqueta en internet
Normas de etiqueta en internetNormas de etiqueta en internet
Normas de etiqueta en internetCsuarez258
 
China credit card market research and investment forecast report
China credit card market research and investment forecast reportChina credit card market research and investment forecast report
China credit card market research and investment forecast reportQianzhan Intelligence
 
China organosilicon industry market demand prospects and investment strategy ...
China organosilicon industry market demand prospects and investment strategy ...China organosilicon industry market demand prospects and investment strategy ...
China organosilicon industry market demand prospects and investment strategy ...Qianzhan Intelligence
 
China fluorine chemical industry indepth research and investment strategic pl...
China fluorine chemical industry indepth research and investment strategic pl...China fluorine chemical industry indepth research and investment strategic pl...
China fluorine chemical industry indepth research and investment strategic pl...Qianzhan Intelligence
 
ESAB in 2014.. Bedrijfspresentatie
ESAB in 2014.. BedrijfspresentatieESAB in 2014.. Bedrijfspresentatie
ESAB in 2014.. BedrijfspresentatieJorg Eichhorn
 
China automated warehouse industry investment demand and development prospect...
China automated warehouse industry investment demand and development prospect...China automated warehouse industry investment demand and development prospect...
China automated warehouse industry investment demand and development prospect...Qianzhan Intelligence
 
China electric power construction industry market forecast and investment str...
China electric power construction industry market forecast and investment str...China electric power construction industry market forecast and investment str...
China electric power construction industry market forecast and investment str...Qianzhan Intelligence
 
Национальная Программа "Лучшие социальные проекты России"
Национальная Программа "Лучшие социальные проекты России"Национальная Программа "Лучшие социальные проекты России"
Национальная Программа "Лучшие социальные проекты России"AlexandraObydenova
 
China auto parts and components manufacturing industry in depth market resear...
China auto parts and components manufacturing industry in depth market resear...China auto parts and components manufacturing industry in depth market resear...
China auto parts and components manufacturing industry in depth market resear...Qianzhan Intelligence
 

Destacado (17)

EclipseCon NA 2015 - Arduino designer : the making of!
EclipseCon NA 2015 - Arduino designer : the making of!EclipseCon NA 2015 - Arduino designer : the making of!
EclipseCon NA 2015 - Arduino designer : the making of!
 
Financial Officer
Financial OfficerFinancial Officer
Financial Officer
 
ჩამი პრეზენტაცია
ჩამი პრეზენტაციაჩამი პრეზენტაცია
ჩამი პრეზენტაცია
 
Meine Freizeit, Fani Michou
Meine Freizeit, Fani MichouMeine Freizeit, Fani Michou
Meine Freizeit, Fani Michou
 
EclipseCon Europe 2013 - Turning Eclipse into an Arduino programming platform...
EclipseCon Europe 2013 - Turning Eclipse into an Arduino programming platform...EclipseCon Europe 2013 - Turning Eclipse into an Arduino programming platform...
EclipseCon Europe 2013 - Turning Eclipse into an Arduino programming platform...
 
China micro grid technology progress and prospects forecast report, 2013-2018
China micro grid technology progress and prospects forecast report, 2013-2018China micro grid technology progress and prospects forecast report, 2013-2018
China micro grid technology progress and prospects forecast report, 2013-2018
 
Normas de etiqueta en internet
Normas de etiqueta en internetNormas de etiqueta en internet
Normas de etiqueta en internet
 
China credit card market research and investment forecast report
China credit card market research and investment forecast reportChina credit card market research and investment forecast report
China credit card market research and investment forecast report
 
IJAZAH S1
IJAZAH S1IJAZAH S1
IJAZAH S1
 
China organosilicon industry market demand prospects and investment strategy ...
China organosilicon industry market demand prospects and investment strategy ...China organosilicon industry market demand prospects and investment strategy ...
China organosilicon industry market demand prospects and investment strategy ...
 
China fluorine chemical industry indepth research and investment strategic pl...
China fluorine chemical industry indepth research and investment strategic pl...China fluorine chemical industry indepth research and investment strategic pl...
China fluorine chemical industry indepth research and investment strategic pl...
 
ESAB in 2014.. Bedrijfspresentatie
ESAB in 2014.. BedrijfspresentatieESAB in 2014.. Bedrijfspresentatie
ESAB in 2014.. Bedrijfspresentatie
 
China automated warehouse industry investment demand and development prospect...
China automated warehouse industry investment demand and development prospect...China automated warehouse industry investment demand and development prospect...
China automated warehouse industry investment demand and development prospect...
 
China electric power construction industry market forecast and investment str...
China electric power construction industry market forecast and investment str...China electric power construction industry market forecast and investment str...
China electric power construction industry market forecast and investment str...
 
Hagan Lawrence Resume
Hagan Lawrence ResumeHagan Lawrence Resume
Hagan Lawrence Resume
 
Национальная Программа "Лучшие социальные проекты России"
Национальная Программа "Лучшие социальные проекты России"Национальная Программа "Лучшие социальные проекты России"
Национальная Программа "Лучшие социальные проекты России"
 
China auto parts and components manufacturing industry in depth market resear...
China auto parts and components manufacturing industry in depth market resear...China auto parts and components manufacturing industry in depth market resear...
China auto parts and components manufacturing industry in depth market resear...
 

Similar a Big Data Mining Mahout

Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
 
CloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosCloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosJohn Bulla
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Denodo
 
Mejores prácticas de Data Warehouse con SQL Server
Mejores prácticas de Data Warehouse con SQL ServerMejores prácticas de Data Warehouse con SQL Server
Mejores prácticas de Data Warehouse con SQL ServerSpanishPASSVC
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdfAntonioSotoRodriguez1
 
Polybase
PolybasePolybase
PolybaseSolidQ
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016jorge Muchaypiña
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
 
ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
ARQCONF2015: Creando una Arquitectura Moderna para Big Data AnalyticsARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
ARQCONF2015: Creando una Arquitectura Moderna para Big Data AnalyticsGustavo Arjones
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseJoseph Lopez
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
 
Piensa en grande: Big data para programadores
Piensa en grande: Big data para programadoresPiensa en grande: Big data para programadores
Piensa en grande: Big data para programadoresRafael Bermúdez Míguez
 
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoRetos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoJavier Mijail Espadas Pech
 
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine LearningArquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine LearningDenodo
 
Data Platform de BEEVA
Data Platform de BEEVAData Platform de BEEVA
Data Platform de BEEVABEEVA_es
 

Similar a Big Data Mining Mahout (20)

Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
CloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosCloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datos
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Mejores prácticas de Data Warehouse con SQL Server
Mejores prácticas de Data Warehouse con SQL ServerMejores prácticas de Data Warehouse con SQL Server
Mejores prácticas de Data Warehouse con SQL Server
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Polybase
PolybasePolybase
Polybase
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
ARQCONF2015: Creando una Arquitectura Moderna para Big Data AnalyticsARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Piensa en grande: Big data para programadores
Piensa en grande: Big data para programadoresPiensa en grande: Big data para programadores
Piensa en grande: Big data para programadores
 
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoRetos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
 
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine LearningArquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
 
Data Platform de BEEVA
Data Platform de BEEVAData Platform de BEEVA
Data Platform de BEEVA
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Introducción Azure Synapse Analytics
Introducción Azure Synapse AnalyticsIntroducción Azure Synapse Analytics
Introducción Azure Synapse Analytics
 

Más de SolidQ

SolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration ServicesSolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration ServicesSolidQ
 
SolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLSSolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLSSolidQ
 
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ
 
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ
 
SolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ
 
Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?SolidQ
 
SQL Server 2017 en Linux
SQL Server 2017 en LinuxSQL Server 2017 en Linux
SQL Server 2017 en LinuxSolidQ
 
Columnstore en la vida real
Columnstore en la vida realColumnstore en la vida real
Columnstore en la vida realSolidQ
 
PowerApprízate
PowerApprízatePowerApprízate
PowerApprízateSolidQ
 
Jugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksJugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksSolidQ
 
Analizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BIAnalizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BISolidQ
 
Mantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesMantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesSolidQ
 
R en relacional
R en relacionalR en relacional
R en relacionalSolidQ
 
Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!SolidQ
 
Arquitecturas lambda en Azure
Arquitecturas lambda en AzureArquitecturas lambda en Azure
Arquitecturas lambda en AzureSolidQ
 
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018SolidQ
 
BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018SolidQ
 
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018SolidQ
 
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018SolidQ
 
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...SolidQ
 

Más de SolidQ (20)

SolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration ServicesSolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
 
SolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLSSolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLS
 
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
 
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
 
SolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantes
 
Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?
 
SQL Server 2017 en Linux
SQL Server 2017 en LinuxSQL Server 2017 en Linux
SQL Server 2017 en Linux
 
Columnstore en la vida real
Columnstore en la vida realColumnstore en la vida real
Columnstore en la vida real
 
PowerApprízate
PowerApprízatePowerApprízate
PowerApprízate
 
Jugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksJugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocks
 
Analizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BIAnalizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BI
 
Mantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesMantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para Dummies
 
R en relacional
R en relacionalR en relacional
R en relacional
 
Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!
 
Arquitecturas lambda en Azure
Arquitecturas lambda en AzureArquitecturas lambda en Azure
Arquitecturas lambda en Azure
 
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
 
BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018
 
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
 
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
 
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
 

Último

El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 

Último (20)

El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptx
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 

Big Data Mining Mahout

  • 1. Big Data Mining con Mahout @antoniosql @rpertusa #SQSummit Antonio Soto / Rubén Pertusa López COO / Data Platform Architect rpertusa@solidq.com MAP, MCSA, MCT, PASS Spain
  • 2. Objetivos de la charla • Preparación de Datos usando la plataforma Microsoft • SQL Server  T-SQL, SSIS, Power Query • HDInsight  Pig, Hive • Mineria de datos usando la plataforma Microsoft • SQL Server  Analysis Services Data Mining / Excel • HDInsight  Mahout, Pegasus 2
  • 3. Agenda • Minería de Datos • Minería de datos tradicional con SQL Server Analysis Services • Arquitecturas de Minería para Big Data • Algoritmos Mahout: Asociación • Algoritmos Mahout: Clustering • Ejecución distribuida con Mahout • Algoritmos Mahout: Clasificación 3
  • 4. Definición “Mineria de datos es una colección de potentes técnicas de análisis con el objetivo de descubrir patrones y reglas sobre grandes volumenes de datos” 4
  • 5. Los dos tipos de Minería Minería de datos dirigida (top-down) – Clasificación – Estimación – Pronósticos Minería de datos no dirigida (bottom-up) – Grupos de afinidad (recomendaciones) – Clustering – Descripción 5
  • 6. Tabla de casos: Retención de clientes (Banco) ExternalCreditCard InvestmentProducts Months #TransactionsLastMonth LeftTheBank No Yes 120 15 No Yes No 36 2 Yes Yes Yes 40 25 No Yes Yes 100 25 Yes No No 24 0 No Yes No 86 3 Yes Yes No 12 25 Yes No Yes 30 2 No 6
  • 7. Árbol de decisión: Retención de clientes (Banco) 7 External Credit Card Investment Investment Student Student Student Student ……
  • 8. Preparación de Datos Valores Perdidos y Picos Variables derivadas Series de Tiempo Muestreo y Pruebas de Muestreo 8
  • 9. Estandarización Puntos de Tiempo • Examinar los últimos meses antes de abandono • Abandono de diferentes clientes ocurren en diferentes 9 momentos Jan Feb Mar Apr May Jun Jul Aug month of churn 7 6 5 4 3 2 1 0 months before churn
  • 10. Minería de datos con SQL Server 10 Data Preparation Model Processing SSIS, T-SQL #1 #2 #3 #4 *** SS Analysis Services Data Mining
  • 11. DEMO 11 Mineria de datos “tradicional”
  • 12. Agenda • Minería de datos tradicional con SQL Server Analysis Services • Arquitecturas de Minería para Big Data • Algoritmos Mahout: Asociación • Algoritmos Mahout: Clustering • Ejecución distribuida con Mahout • Algoritmos Mahout: Clasificación 12
  • 13. Descubrir patrones 13 20% 80% Structured Less Structured 12 Tb dia 21 Pb Hadoop cluster 1 Tb Tweets dia 75 Mi Scores dia 7 Tb Datos día 4 B Graph edg/día Millones de comentarios
  • 14. ROI…. Google AdWords: Predicción de click through rates (CTR) Netflix: 75% del streaming de video viene de recomendaciones Amazon: 35% de las ventas de producto vienen de recomendaciones de producto 14
  • 15. Tabla de casos: Retención de clientes (Banco) 15 ExternalCreditCard CustomerService Tone/Sentiment Investment Products Months #Transactions LastMonth LeftTheBank No Positive Yes 120 15 No Yes Negative No 36 2 Yes Yes Positive Yes 40 25 No Yes Positive Yes 100 25 Yes No Positive No 24 0 No Yes Negative No 86 3 Yes Yes Positive No 12 25 Yes No Negative Yes 30 2 No
  • 16. Minería de datos con Hadoop + SQL Server 16 Data Preparation Model Processing Hive, Pig, MapReduce, SSIS, T-SQL #1 #2 #3 #4 *** SS Analysis Services Data Mining
  • 17. Problemas Hadoop-ables • Sistemas de recomendacion • Marketing Target • Prediccion de fallo de red • Modelos de riesgo/fraude • Predicción de amenazas • Análisis de abandono de clientes 17 4 V’s + Machine Learning
  • 18. Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Hive ODBC Sqoop JDBC Windows Azure & Windows Server Microsoft BI Platform Repaso Hadoop
  • 19. Hadoop Distributed File System (HDFS) NameNode DataNode File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File DataNode DataNode Block Size = 64 Mb Replication Factor = 3
  • 20. Map Reduce JobTracker TaskTracker File File File File File File Reduce File File map map File File File File File File File File File File File File File File File File File File File MapReduce Job File File File File File map TaskTracker TaskTracker
  • 21. Minería de datos con Hadoop, Mahout 21 Data Preparation Model Processing Hive, Pig, MapReduce Mahout #1 #2 #3 #4 ***
  • 22. Mahout • Proyecto TOP Apache Lucene • Librería Machine Learning escalable • La mayoría escalan con Hadoop • Basado en Map Reduce • Tambien en SPARK Mahout Map Reduce HDFS 22
  • 23. Algoritmos Mahout Collaborative Filtering (Asociación) • Por Usuarios • Por Item Clasificación • Regresión logistica • Naïve Bayes • Random Forest Clustering • k-means • Spectral Clustering 23
  • 24. Hadoop en Azure: HDInsight Si necesitamos un cluster mayor  Soporte Azure 24
  • 25. Agenda • Minería de datos tradicional con SQL Server Analysis Services • Arquitecturas de Minería para Big Data • Algoritmos Mahout: Asociación • Algoritmos Mahout: Clustering • Ejecución distribuida con Mahout • Algoritmos Mahout: Clasificación 25
  • 26. Problemas Hadoop-ables: Asociación • Basada en Usuario •Basada en Items • Algoritmos: •Log-likehood •TaniMoto • Euclidean Distance •Pearson Correlation •Relative Rank •Spearman correlation 26
  • 28. Recomendar Películas • Preparar los datos con Mahout • Ejecutar procesado Mahout en Hadoop • Observar resultados 28
  • 29. Similarity Cooccurrence hadoop jar C:Hadoopmahout-0.8mahout-examples- 0.8-job.jar org.apache.mahout.driver.MahoutDriver recommenditembased --input ///labs/mahoutlab/recomendacion/mahoutinput.txt -- output ///labs/mahoutlab/recomendacion/output/itembased-cooccurence --usersFile ///labs/mahoutlab/recomendacion/users.txt -- similarityClassname SIMILARITY_COOCCURRENCE -- numRecommendations 10 --tempDir ///labs/mahoutlab/recomendacion/temp-cooccurrence 29
  • 30. Similarity Euclidean Distance hadoop jar C:Hadoopmahout-0.8mahout-examples- 0.8-job.jar org.apache.mahout.driver.MahoutDriver recommenditembased --input ///labs/mahoutlab/recomendacion/mahoutinput.txt -- output ///labs/mahoutlab/recomendacion/output/itembased-euclidean --usersFile ///labs/mahoutlab/recomendacion/users.txt -- similarityClassname SIMILARITY_EUCLIDEAN_DISTANCE -- numRecommendations 10 --tempDir ///labs/mahoutlab/recomendacion/temp-euclidean 30
  • 31. Similarity LogLikeliHood hadoop jar C:Hadoopmahout-0.8mahout-examples- 0.8-job.jar org.apache.mahout.driver.MahoutDriver recommenditembased --input ///labs/mahoutlab/mahoutinput.txt --output ///labs/mahoutlab/output/itembased-loglikelihood --usersFile ///labs/mahoutlab/users.txt -- similarityClassname SIMILARITY_LOGLIKELIHOOD --numRecommendations 10 --tempDir ///labs/mahoutlab/recomendacion/temp-loglikelihood 31
  • 32. Agenda • Minería de datos tradicional con SQL Server Analysis Services • Arquitecturas de Minería para Big Data • Algoritmos Mahout: Asociación • Algoritmos Mahout: Clustering • Ejecución distribuida con Mahout • Algoritmos Mahout: Clasificación 32
  • 33. Algoritmos Hadoopables: Clustering 33 Map Reduce Single Node • Item Base Collaborative Filtering • Naive Bayes • Random Forest • K-Means • … • User Based Collaborative Filtering • Logistic Regression • Markov Models • Multilayer Perceptron • …
  • 34. Mahout Clustering Algoritmos • K-Means • Canopy Clustering • Dirichlet • Streaming k-Means • Spectral Clustering • Spearman correlation Medidas de distancia • Manhattan • Euclidean 34
  • 36. Mail Cluster, Pasos Preparar datos  Vectores Ejecutar el procesado Mahout Clustering en Hadoop Observar resultados 36
  • 37. Convirtiendo frases a vectores Mail 1: “SQL Server alto rendimiento” • Bag of Words: • SQL  1 • Server  2 • alto 3 • rendimiento 4 • Vectores: (Mail#,Word) = (1,1),(1,2),(1,3),(1,4) 37
  • 38. Seq2sparse command hadoop jar C:Hadoopmahout-0.8mahout-examples- 0.8-job.jar org.apache.mahout.driver.MahoutDriver seq2sparse --input ///labs/mahoutlab/clustering-spam/ output/seqdir --output ///labs/mahoutlab/clustering-spam/ output/vectors --overwrite --weight tfidf --sequentialAccessVector --norm 2 -- logNormalize --namedVector 38
  • 39. K-means Cosine Distance hadoop jar C:Hadoopmahout-0.8mahout-examples- 0.8-job.jar org.apache.mahout.clustering.kmeans.KMeansDrive r --input ///labs/mahoutlab/clustering-spam/ output/vectors/tfidf-vectors --clusters ///labs/mahoutlab/clustering-spam/output/initial-cluster --output ///labs/mahoutlab/clustering-spam/ output/kmeans -cd 0.1 -k 10 -x 10 -cl -dm org.apache.mahout.common.distance.CosineDistan ceMeasure 39
  • 40. Output VL-1382{n=261 c=[0:0.007, 9:0.001, 11:0.000, … Top Palabras SQL Performance Availability T-SQL Select 40
  • 41. Agenda • Minería de datos tradicional con SQL Server Analysis Services • Arquitecturas de Minería para Big Data • Algoritmos Mahout: Asociación • Algoritmos Mahout: Clustering • Ejecución distribuida con Mahout • Algoritmos Mahout: Clasificación 41
  • 42. Mahout Clasificación Algoritmos • Decision Trees • Naïve Bayes • Markov Model • Random Forest • … 42
  • 44. Tabla de casos: Clasificación SPAM 44 Email text file Spam Yes No Yes No Yes Yes Yes Yes No
  • 45. Set de entrenamiento y test hadoop jar C:Hadoopmahout-0.8mahout-examples- 0.8-job.jar org.apache.mahout.driver.MahoutDriver split - -input ///labs/mahoutlab/clasificacion2/output/vecto rs/tfidf-vectors --trainingOutput ///labs/mahoutlab/clasificacion2/train-vectors --testOutput ///labs/mahoutlab/clasificacion2/test-vectors - -randomSelectionPct 40 --overwrite -- sequenceFiles -xm sequential 45
  • 46. Naïve Bayes hadoop jar C:Hadoopmahout- 0.8mahout-examples-0.8-job.jar org.apache.mahout.driver.MahoutDriver trainnb --input ///labs/mahoutlab/clasificacion2/train-vectors -el --output ///labs/mahoutlab/clasificacion2/model -li ///labs/mahoutlab/clasificacion2/labelindex -ow 46
  • 47. Mahout hoy El 25 de Abril, Apache Mahout dijo adios a MapReduce • Mantiene los algoritmos MapReduce Futuras implementaciones usarán DSL (Optimizador algebraico) • Ejecución en Apache SPARK sobre Hadoop 2.X YARN Futuras implementaciones soportadas en HDInsight 47
  • 48. Conclusión Durante esta sesión… Arquitecturas de Minería para Big Data Algoritmos en Mahout • Clasificación • Asociación • Clustering Ejecución distribuida con Mahout 48
  • 49. Conclusión • Hadoop cuando Big Data lo requiere. La mayor parte de los algoritmos son Hadoopable. • Hadoop escala horizontalmente. • SQL Server DM solo escala verticalmente. • SQL Server proporciona una visualización rica e integración sencilla. • Para la mayor parte de soluciones de minería no son necesarias grandes cantidades de datos. Hadoop puede hacer la preparación y SQL Server realizar la minería. 49
  • 50. Minería de datos con SQL Server 50 Data Preparation Model Processing SSIS, T-SQL #1 #2 #3 #4 *** SS Analysis Services Data Mining
  • 51. Minería de datos con Hadoop + SQL Server 51 Data Preparation Model Processing Hive, Pig, MapReduce, SSIS, T-SQL #1 #2 #3 #4 *** SS Analysis Services Data Mining
  • 52. Minería de datos con Hadoop, Mahout 52 Data Preparation Model Processing Hive, Pig, MapReduce Mahout #1 #2 #3 #4 ***
  • 53. Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu oportunidad. http://summit.solidq.com Síguenos: 55

Notas del editor

  1. Mostrar el Add in de Minería Mostrar por detrás SQL Server y enseñar proyecto
  2. Block size: 64mb Replication factor: 3
  3. Less network latency