SlideShare una empresa de Scribd logo
1 de 53
Big Data Mining con Mahout 
@antoniosql 
@rpertusa 
#SQSummit 
Antonio Soto / Rubén Pertusa López 
COO / Data Platform Architect 
rpertusa@solidq.com 
MAP, MCSA, MCT, PASS Spain
Objetivos de la charla 
• Preparación de Datos usando la plataforma 
Microsoft 
• SQL Server  T-SQL, SSIS, Power Query 
• HDInsight  Pig, Hive 
• Mineria de datos usando la plataforma 
Microsoft 
• SQL Server  Analysis Services Data Mining / Excel 
• HDInsight  Mahout, Pegasus 
2
Agenda 
• Minería de Datos 
• Minería de datos tradicional con SQL Server 
Analysis Services 
• Arquitecturas de Minería para Big Data 
• Algoritmos Mahout: Asociación 
• Algoritmos Mahout: Clustering 
• Ejecución distribuida con Mahout 
• Algoritmos Mahout: Clasificación 
3
Definición 
“Mineria de datos es una colección de 
potentes técnicas de análisis con el objetivo 
de descubrir patrones y reglas sobre 
grandes volumenes de datos” 
4
Los dos tipos de Minería 
Minería de datos dirigida (top-down) 
– Clasificación 
– Estimación 
– Pronósticos 
Minería de datos no dirigida (bottom-up) 
– Grupos de afinidad (recomendaciones) 
– Clustering 
– Descripción 
5
Tabla de casos: Retención de 
clientes (Banco) 
ExternalCreditCard InvestmentProducts Months #TransactionsLastMonth LeftTheBank 
No Yes 120 15 No 
Yes No 36 2 Yes 
Yes Yes 40 25 No 
Yes Yes 100 25 Yes 
No No 24 0 No 
Yes No 86 3 Yes 
Yes No 12 25 Yes 
No Yes 30 2 No 
6
Árbol de decisión: Retención de 
clientes (Banco) 
7 
External Credit Card 
Investment Investment 
Student Student Student Student 
……
Preparación de Datos 
Valores Perdidos y Picos 
Variables derivadas 
Series de Tiempo 
Muestreo y Pruebas de Muestreo 
8
Estandarización Puntos de Tiempo 
• Examinar los últimos meses antes de abandono 
• Abandono de diferentes clientes ocurren en diferentes 
9 
momentos 
Jan Feb Mar Apr May Jun Jul Aug 
month of 
churn 
7 6 5 4 3 2 1 0 
months 
before 
churn
Minería de datos con SQL Server 
10 
Data Preparation Model Processing 
SSIS, T-SQL 
#1 #2 #3 #4 *** 
SS Analysis Services Data 
Mining
DEMO 
11 
Mineria de datos 
“tradicional”
Agenda 
• Minería de datos tradicional con SQL Server 
Analysis Services 
• Arquitecturas de Minería para Big Data 
• Algoritmos Mahout: Asociación 
• Algoritmos Mahout: Clustering 
• Ejecución distribuida con Mahout 
• Algoritmos Mahout: Clasificación 
12
Descubrir patrones 
13 
20% 
80% 
Structured Less Structured 
12 Tb 
dia 
21 Pb 
Hadoop 
cluster 
1 Tb 
Tweets 
dia 
75 Mi 
Scores 
dia 
7 Tb 
Datos día 
4 B 
Graph 
edg/día 
Millones de 
comentarios
ROI…. 
Google AdWords: Predicción de click through 
rates (CTR) 
Netflix: 75% del streaming de video viene de 
recomendaciones 
Amazon: 35% de las ventas de producto 
vienen de recomendaciones de producto 
14
Tabla de casos: Retención de clientes 
(Banco) 
15 
ExternalCreditCard 
CustomerService 
Tone/Sentiment 
Investment 
Products Months 
#Transactions 
LastMonth LeftTheBank 
No Positive Yes 120 15 No 
Yes Negative No 36 2 Yes 
Yes Positive Yes 40 25 No 
Yes Positive Yes 100 25 Yes 
No Positive No 24 0 No 
Yes Negative No 86 3 Yes 
Yes Positive No 12 25 Yes 
No Negative Yes 30 2 No
Minería de datos con Hadoop + SQL 
Server 
16 
Data Preparation Model Processing 
Hive, Pig, MapReduce, 
SSIS, T-SQL 
#1 #2 #3 #4 *** 
SS Analysis Services Data 
Mining
Problemas Hadoop-ables 
• Sistemas de 
recomendacion 
• Marketing Target 
• Prediccion de fallo de red 
• Modelos de riesgo/fraude 
• Predicción de amenazas 
• Análisis de abandono de 
clientes 
17 
4 V’s + Machine Learning
Mahout Pegasus Lucene … 
Pig Hive 
Map Reduce 
HDFS 
Hive ODBC 
Sqoop 
JDBC 
Windows Azure & Windows Server 
Microsoft 
BI 
Platform 
Repaso Hadoop
Hadoop Distributed File System (HDFS) 
NameNode DataNode 
File File File 
File File File 
File File 
File File File 
File File File 
File 
File File File 
File File 
File 
File 
File File File 
File File 
File File 
File File 
File 
File File 
File File 
DataNode DataNode 
Block Size = 64 Mb 
Replication Factor = 3
Map Reduce 
JobTracker TaskTracker 
File File File 
File File File 
Reduce 
File File 
map map 
File File File 
File File File 
File 
File File File 
File File 
File 
File 
File File File 
File File 
MapReduce 
Job 
File 
File File 
File File 
map 
TaskTracker TaskTracker
Minería de datos con Hadoop, Mahout 
21 
Data Preparation Model Processing 
Hive, Pig, MapReduce Mahout 
#1 #2 #3 #4 ***
Mahout 
• Proyecto TOP Apache Lucene 
• Librería Machine Learning escalable 
• La mayoría escalan con Hadoop 
• Basado en Map Reduce 
• Tambien en SPARK 
Mahout 
Map Reduce 
HDFS 
22
Algoritmos Mahout 
Collaborative Filtering (Asociación) 
• Por Usuarios 
• Por Item 
Clasificación 
• Regresión logistica 
• Naïve Bayes 
• Random Forest 
Clustering 
• k-means 
• Spectral Clustering 
23
Hadoop en Azure: HDInsight 
Si necesitamos un cluster mayor  Soporte Azure 
24
Agenda 
• Minería de datos tradicional con SQL Server 
Analysis Services 
• Arquitecturas de Minería para Big Data 
• Algoritmos Mahout: Asociación 
• Algoritmos Mahout: Clustering 
• Ejecución distribuida con Mahout 
• Algoritmos Mahout: Clasificación 
25
Problemas Hadoop-ables: Asociación 
• Basada en 
Usuario 
•Basada en Items 
• Algoritmos: 
•Log-likehood 
•TaniMoto 
• Euclidean Distance 
•Pearson Correlation 
•Relative Rank 
•Spearman correlation 
26
DEMO 
27 
Asociación
Recomendar Películas 
• Preparar los datos con Mahout 
• Ejecutar procesado Mahout en Hadoop 
• Observar resultados 
28
Similarity Cooccurrence 
hadoop jar C:Hadoopmahout-0.8mahout-examples- 
0.8-job.jar org.apache.mahout.driver.MahoutDriver 
recommenditembased --input 
///labs/mahoutlab/recomendacion/mahoutinput.txt -- 
output 
///labs/mahoutlab/recomendacion/output/itembased-cooccurence 
--usersFile 
///labs/mahoutlab/recomendacion/users.txt -- 
similarityClassname SIMILARITY_COOCCURRENCE -- 
numRecommendations 10 --tempDir 
///labs/mahoutlab/recomendacion/temp-cooccurrence 
29
Similarity Euclidean Distance 
hadoop jar C:Hadoopmahout-0.8mahout-examples- 
0.8-job.jar org.apache.mahout.driver.MahoutDriver 
recommenditembased --input 
///labs/mahoutlab/recomendacion/mahoutinput.txt -- 
output 
///labs/mahoutlab/recomendacion/output/itembased-euclidean 
--usersFile 
///labs/mahoutlab/recomendacion/users.txt -- 
similarityClassname 
SIMILARITY_EUCLIDEAN_DISTANCE -- 
numRecommendations 10 --tempDir 
///labs/mahoutlab/recomendacion/temp-euclidean 
30
Similarity LogLikeliHood 
hadoop jar C:Hadoopmahout-0.8mahout-examples- 
0.8-job.jar 
org.apache.mahout.driver.MahoutDriver 
recommenditembased --input 
///labs/mahoutlab/mahoutinput.txt --output 
///labs/mahoutlab/output/itembased-loglikelihood 
--usersFile ///labs/mahoutlab/users.txt -- 
similarityClassname SIMILARITY_LOGLIKELIHOOD 
--numRecommendations 10 --tempDir 
///labs/mahoutlab/recomendacion/temp-loglikelihood 
31
Agenda 
• Minería de datos tradicional con SQL Server 
Analysis Services 
• Arquitecturas de Minería para Big Data 
• Algoritmos Mahout: Asociación 
• Algoritmos Mahout: Clustering 
• Ejecución distribuida con Mahout 
• Algoritmos Mahout: Clasificación 
32
Algoritmos Hadoopables: Clustering 
33 
Map Reduce Single Node 
• Item Base 
Collaborative 
Filtering 
• Naive Bayes 
• Random Forest 
• K-Means 
• … 
• User Based 
Collaborative 
Filtering 
• Logistic Regression 
• Markov Models 
• Multilayer Perceptron 
• …
Mahout Clustering 
Algoritmos 
• K-Means 
• Canopy Clustering 
• Dirichlet 
• Streaming k-Means 
• Spectral Clustering 
• Spearman correlation 
Medidas de distancia 
• Manhattan 
• Euclidean 
34
DEMO 
35 
Clustering
Mail Cluster, Pasos 
Preparar datos  Vectores 
Ejecutar el procesado Mahout Clustering en 
Hadoop 
Observar resultados 
36
Convirtiendo frases a vectores 
Mail 1: “SQL Server alto rendimiento” 
• Bag of Words: 
• SQL  1 
• Server  2 
• alto 3 
• rendimiento 4 
• Vectores: (Mail#,Word) = 
(1,1),(1,2),(1,3),(1,4) 
37
Seq2sparse command 
hadoop jar C:Hadoopmahout-0.8mahout-examples- 
0.8-job.jar 
org.apache.mahout.driver.MahoutDriver 
seq2sparse --input 
///labs/mahoutlab/clustering-spam/ 
output/seqdir --output 
///labs/mahoutlab/clustering-spam/ 
output/vectors --overwrite --weight tfidf 
--sequentialAccessVector --norm 2 -- 
logNormalize --namedVector 
38
K-means Cosine Distance 
hadoop jar C:Hadoopmahout-0.8mahout-examples- 
0.8-job.jar 
org.apache.mahout.clustering.kmeans.KMeansDrive 
r --input ///labs/mahoutlab/clustering-spam/ 
output/vectors/tfidf-vectors --clusters 
///labs/mahoutlab/clustering-spam/output/initial-cluster 
--output ///labs/mahoutlab/clustering-spam/ 
output/kmeans -cd 0.1 -k 10 -x 10 -cl -dm 
org.apache.mahout.common.distance.CosineDistan 
ceMeasure 
39
Output 
VL-1382{n=261 c=[0:0.007, 9:0.001, 11:0.000, … 
Top Palabras 
SQL 
Performance 
Availability 
T-SQL 
Select 
40
Agenda 
• Minería de datos tradicional con SQL Server 
Analysis Services 
• Arquitecturas de Minería para Big Data 
• Algoritmos Mahout: Asociación 
• Algoritmos Mahout: Clustering 
• Ejecución distribuida con Mahout 
• Algoritmos Mahout: Clasificación 
41
Mahout Clasificación 
Algoritmos 
• Decision Trees 
• Naïve Bayes 
• Markov Model 
• Random Forest 
• … 
42
DEMO 
43 
Clasificación
Tabla de casos: Clasificación SPAM 
44 
Email text file Spam 
Yes 
No 
Yes 
No 
Yes 
Yes 
Yes 
Yes 
No
Set de entrenamiento y test 
hadoop jar C:Hadoopmahout-0.8mahout-examples- 
0.8-job.jar 
org.apache.mahout.driver.MahoutDriver split - 
-input 
///labs/mahoutlab/clasificacion2/output/vecto 
rs/tfidf-vectors --trainingOutput 
///labs/mahoutlab/clasificacion2/train-vectors 
--testOutput 
///labs/mahoutlab/clasificacion2/test-vectors - 
-randomSelectionPct 40 --overwrite -- 
sequenceFiles -xm sequential 
45
Naïve Bayes 
hadoop jar C:Hadoopmahout- 
0.8mahout-examples-0.8-job.jar 
org.apache.mahout.driver.MahoutDriver 
trainnb --input 
///labs/mahoutlab/clasificacion2/train-vectors 
-el --output 
///labs/mahoutlab/clasificacion2/model -li 
///labs/mahoutlab/clasificacion2/labelindex 
-ow 
46
Mahout hoy 
El 25 de Abril, Apache Mahout dijo adios a 
MapReduce 
• Mantiene los algoritmos MapReduce 
Futuras implementaciones usarán DSL (Optimizador 
algebraico) 
• Ejecución en Apache SPARK sobre Hadoop 2.X YARN 
Futuras implementaciones soportadas en HDInsight 
47
Conclusión 
Durante esta sesión… 
Arquitecturas de Minería para Big Data 
Algoritmos en Mahout 
• Clasificación 
• Asociación 
• Clustering 
Ejecución distribuida con Mahout 
48
Conclusión 
• Hadoop cuando Big Data lo requiere. La mayor 
parte de los algoritmos son Hadoopable. 
• Hadoop escala horizontalmente. 
• SQL Server DM solo escala verticalmente. 
• SQL Server proporciona una visualización rica e 
integración sencilla. 
• Para la mayor parte de soluciones de minería no 
son necesarias grandes cantidades de datos. 
Hadoop puede hacer la preparación y SQL Server 
realizar la minería. 
49
Minería de datos con SQL Server 
50 
Data Preparation Model Processing 
SSIS, T-SQL 
#1 #2 #3 #4 *** 
SS Analysis Services Data 
Mining
Minería de datos con Hadoop + SQL 
Server 
51 
Data Preparation Model Processing 
Hive, Pig, MapReduce, 
SSIS, T-SQL 
#1 #2 #3 #4 *** 
SS Analysis Services Data 
Mining
Minería de datos con Hadoop, Mahout 
52 
Data Preparation Model Processing 
Hive, Pig, MapReduce Mahout 
#1 #2 #3 #4 ***
Si quieres disfrutar de las mejores sesiones de 
nuestros mentores de España y Latino América, 
ésta es tu oportunidad. 
http://summit.solidq.com 
Síguenos: 
55

Más contenido relacionado

Destacado

ჩამი პრეზენტაცია
ჩამი პრეზენტაციაჩამი პრეზენტაცია
ჩამი პრეზენტაცია
Inga Kortava
 
China micro grid technology progress and prospects forecast report, 2013-2018
China micro grid technology progress and prospects forecast report, 2013-2018China micro grid technology progress and prospects forecast report, 2013-2018
China micro grid technology progress and prospects forecast report, 2013-2018
Qianzhan Intelligence
 
China credit card market research and investment forecast report
China credit card market research and investment forecast reportChina credit card market research and investment forecast report
China credit card market research and investment forecast report
Qianzhan Intelligence
 
Национальная Программа "Лучшие социальные проекты России"
Национальная Программа "Лучшие социальные проекты России"Национальная Программа "Лучшие социальные проекты России"
Национальная Программа "Лучшие социальные проекты России"
AlexandraObydenova
 
China auto parts and components manufacturing industry in depth market resear...
China auto parts and components manufacturing industry in depth market resear...China auto parts and components manufacturing industry in depth market resear...
China auto parts and components manufacturing industry in depth market resear...
Qianzhan Intelligence
 

Destacado (17)

EclipseCon NA 2015 - Arduino designer : the making of!
EclipseCon NA 2015 - Arduino designer : the making of!EclipseCon NA 2015 - Arduino designer : the making of!
EclipseCon NA 2015 - Arduino designer : the making of!
 
Financial Officer
Financial OfficerFinancial Officer
Financial Officer
 
ჩამი პრეზენტაცია
ჩამი პრეზენტაციაჩამი პრეზენტაცია
ჩამი პრეზენტაცია
 
Meine Freizeit, Fani Michou
Meine Freizeit, Fani MichouMeine Freizeit, Fani Michou
Meine Freizeit, Fani Michou
 
EclipseCon Europe 2013 - Turning Eclipse into an Arduino programming platform...
EclipseCon Europe 2013 - Turning Eclipse into an Arduino programming platform...EclipseCon Europe 2013 - Turning Eclipse into an Arduino programming platform...
EclipseCon Europe 2013 - Turning Eclipse into an Arduino programming platform...
 
China micro grid technology progress and prospects forecast report, 2013-2018
China micro grid technology progress and prospects forecast report, 2013-2018China micro grid technology progress and prospects forecast report, 2013-2018
China micro grid technology progress and prospects forecast report, 2013-2018
 
Normas de etiqueta en internet
Normas de etiqueta en internetNormas de etiqueta en internet
Normas de etiqueta en internet
 
China credit card market research and investment forecast report
China credit card market research and investment forecast reportChina credit card market research and investment forecast report
China credit card market research and investment forecast report
 
IJAZAH S1
IJAZAH S1IJAZAH S1
IJAZAH S1
 
China organosilicon industry market demand prospects and investment strategy ...
China organosilicon industry market demand prospects and investment strategy ...China organosilicon industry market demand prospects and investment strategy ...
China organosilicon industry market demand prospects and investment strategy ...
 
China fluorine chemical industry indepth research and investment strategic pl...
China fluorine chemical industry indepth research and investment strategic pl...China fluorine chemical industry indepth research and investment strategic pl...
China fluorine chemical industry indepth research and investment strategic pl...
 
ESAB in 2014.. Bedrijfspresentatie
ESAB in 2014.. BedrijfspresentatieESAB in 2014.. Bedrijfspresentatie
ESAB in 2014.. Bedrijfspresentatie
 
China automated warehouse industry investment demand and development prospect...
China automated warehouse industry investment demand and development prospect...China automated warehouse industry investment demand and development prospect...
China automated warehouse industry investment demand and development prospect...
 
China electric power construction industry market forecast and investment str...
China electric power construction industry market forecast and investment str...China electric power construction industry market forecast and investment str...
China electric power construction industry market forecast and investment str...
 
Hagan Lawrence Resume
Hagan Lawrence ResumeHagan Lawrence Resume
Hagan Lawrence Resume
 
Национальная Программа "Лучшие социальные проекты России"
Национальная Программа "Лучшие социальные проекты России"Национальная Программа "Лучшие социальные проекты России"
Национальная Программа "Лучшие социальные проекты России"
 
China auto parts and components manufacturing industry in depth market resear...
China auto parts and components manufacturing industry in depth market resear...China auto parts and components manufacturing industry in depth market resear...
China auto parts and components manufacturing industry in depth market resear...
 

Similar a Big Data Mining with Mahout

Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine LearningArquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Denodo
 

Similar a Big Data Mining with Mahout (20)

Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
CloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosCloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datos
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Mejores prácticas de Data Warehouse con SQL Server
Mejores prácticas de Data Warehouse con SQL ServerMejores prácticas de Data Warehouse con SQL Server
Mejores prácticas de Data Warehouse con SQL Server
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Polybase
PolybasePolybase
Polybase
 
Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016Text Mining con R en SQL Server 2016
Text Mining con R en SQL Server 2016
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
ARQCONF2015: Creando una Arquitectura Moderna para Big Data AnalyticsARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Piensa en grande: Big data para programadores
Piensa en grande: Big data para programadoresPiensa en grande: Big data para programadores
Piensa en grande: Big data para programadores
 
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoRetos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
 
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine LearningArquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
 
Data Platform de BEEVA
Data Platform de BEEVAData Platform de BEEVA
Data Platform de BEEVA
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Introducción Azure Synapse Analytics
Introducción Azure Synapse AnalyticsIntroducción Azure Synapse Analytics
Introducción Azure Synapse Analytics
 

Más de SolidQ

Más de SolidQ (20)

SolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration ServicesSolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
 
SolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLSSolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLS
 
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
 
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
 
SolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantes
 
Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?
 
SQL Server 2017 en Linux
SQL Server 2017 en LinuxSQL Server 2017 en Linux
SQL Server 2017 en Linux
 
Columnstore en la vida real
Columnstore en la vida realColumnstore en la vida real
Columnstore en la vida real
 
PowerApprízate
PowerApprízatePowerApprízate
PowerApprízate
 
Jugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksJugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocks
 
Analizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BIAnalizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BI
 
Mantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesMantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para Dummies
 
R en relacional
R en relacionalR en relacional
R en relacional
 
Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!
 
Arquitecturas lambda en Azure
Arquitecturas lambda en AzureArquitecturas lambda en Azure
Arquitecturas lambda en Azure
 
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
 
BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018
 
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
 
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
 
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
 

Último

QUINTA SEXTA GENERACION de COMPUTADORAS
QUINTA  SEXTA GENERACION de COMPUTADORASQUINTA  SEXTA GENERACION de COMPUTADORAS
QUINTA SEXTA GENERACION de COMPUTADORAS
Marc Liust
 
microsoft word manuales para todos tipos de estudiamte
microsoft word manuales para todos tipos de estudiamtemicrosoft word manuales para todos tipos de estudiamte
microsoft word manuales para todos tipos de estudiamte
2024020140
 
Chat GPT para la educación Latinoamerica
Chat GPT para la educación LatinoamericaChat GPT para la educación Latinoamerica
Chat GPT para la educación Latinoamerica
EdwinGarca59
 
Editorial. Grupo de 12B de La Salle Margarita.pdf
Editorial. Grupo de 12B de La Salle Margarita.pdfEditorial. Grupo de 12B de La Salle Margarita.pdf
Editorial. Grupo de 12B de La Salle Margarita.pdf
Yanitza28
 

Último (20)

QUINTA SEXTA GENERACION de COMPUTADORAS
QUINTA  SEXTA GENERACION de COMPUTADORASQUINTA  SEXTA GENERACION de COMPUTADORAS
QUINTA SEXTA GENERACION de COMPUTADORAS
 
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptx
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptxTipos de Datos de Microsoft Access-JOEL GARCIA.pptx
Tipos de Datos de Microsoft Access-JOEL GARCIA.pptx
 
Tarea_sesion_15_Reportes Maestro - Detalle con el uso de AJAX.pptx
Tarea_sesion_15_Reportes Maestro - Detalle con el uso de AJAX.pptxTarea_sesion_15_Reportes Maestro - Detalle con el uso de AJAX.pptx
Tarea_sesion_15_Reportes Maestro - Detalle con el uso de AJAX.pptx
 
Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024Ejercicio 1 periodo 2 de Tecnología 2024
Ejercicio 1 periodo 2 de Tecnología 2024
 
AVANCES TECNOLOGICOS DEL SIGLO XXI. 10-08..pptx
AVANCES TECNOLOGICOS  DEL SIGLO XXI. 10-08..pptxAVANCES TECNOLOGICOS  DEL SIGLO XXI. 10-08..pptx
AVANCES TECNOLOGICOS DEL SIGLO XXI. 10-08..pptx
 
presentación del desensamble y ensamble del equipo de computo en base a las n...
presentación del desensamble y ensamble del equipo de computo en base a las n...presentación del desensamble y ensamble del equipo de computo en base a las n...
presentación del desensamble y ensamble del equipo de computo en base a las n...
 
NIA_300_PLANEACION_DE_UNA_AUDITORIA_DE_E.pptx
NIA_300_PLANEACION_DE_UNA_AUDITORIA_DE_E.pptxNIA_300_PLANEACION_DE_UNA_AUDITORIA_DE_E.pptx
NIA_300_PLANEACION_DE_UNA_AUDITORIA_DE_E.pptx
 
microsoft word manuales para todos tipos de estudiamte
microsoft word manuales para todos tipos de estudiamtemicrosoft word manuales para todos tipos de estudiamte
microsoft word manuales para todos tipos de estudiamte
 
Función del analizador léxico.pdf presentacion
Función del analizador léxico.pdf presentacionFunción del analizador léxico.pdf presentacion
Función del analizador léxico.pdf presentacion
 
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdfpresentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
 
Introduccion-a-la-electronica-industrial.pptx
Introduccion-a-la-electronica-industrial.pptxIntroduccion-a-la-electronica-industrial.pptx
Introduccion-a-la-electronica-industrial.pptx
 
Desarrollo del Dominio del Internet - Estrada
Desarrollo del Dominio del Internet - EstradaDesarrollo del Dominio del Internet - Estrada
Desarrollo del Dominio del Internet - Estrada
 
el uso de las TIC en la vida cotidiana.pptx
el uso de las TIC en la vida cotidiana.pptxel uso de las TIC en la vida cotidiana.pptx
el uso de las TIC en la vida cotidiana.pptx
 
Chat GPT para la educación Latinoamerica
Chat GPT para la educación LatinoamericaChat GPT para la educación Latinoamerica
Chat GPT para la educación Latinoamerica
 
10°8 - Avances tecnologicos del siglo XXI 10-8
10°8 - Avances tecnologicos del siglo XXI 10-810°8 - Avances tecnologicos del siglo XXI 10-8
10°8 - Avances tecnologicos del siglo XXI 10-8
 
Editorial. Grupo de 12B. La Salle Margarita.pdf
Editorial. Grupo de 12B. La Salle Margarita.pdfEditorial. Grupo de 12B. La Salle Margarita.pdf
Editorial. Grupo de 12B. La Salle Margarita.pdf
 
Imágenes digitales: Calidad de la información
Imágenes digitales: Calidad de la informaciónImágenes digitales: Calidad de la información
Imágenes digitales: Calidad de la información
 
Editorial. Grupo de 12B de La Salle Margarita.pdf
Editorial. Grupo de 12B de La Salle Margarita.pdfEditorial. Grupo de 12B de La Salle Margarita.pdf
Editorial. Grupo de 12B de La Salle Margarita.pdf
 
2023 07 Casos prácticos para Realidad aumentada, metaverso y realidad extendida
2023 07 Casos prácticos para Realidad aumentada, metaverso y realidad extendida2023 07 Casos prácticos para Realidad aumentada, metaverso y realidad extendida
2023 07 Casos prácticos para Realidad aumentada, metaverso y realidad extendida
 
¡Ya basta! Sanidad Interior - Angela Kellenberger.pdf
¡Ya basta! Sanidad Interior - Angela Kellenberger.pdf¡Ya basta! Sanidad Interior - Angela Kellenberger.pdf
¡Ya basta! Sanidad Interior - Angela Kellenberger.pdf
 

Big Data Mining with Mahout

  • 1. Big Data Mining con Mahout @antoniosql @rpertusa #SQSummit Antonio Soto / Rubén Pertusa López COO / Data Platform Architect rpertusa@solidq.com MAP, MCSA, MCT, PASS Spain
  • 2. Objetivos de la charla • Preparación de Datos usando la plataforma Microsoft • SQL Server  T-SQL, SSIS, Power Query • HDInsight  Pig, Hive • Mineria de datos usando la plataforma Microsoft • SQL Server  Analysis Services Data Mining / Excel • HDInsight  Mahout, Pegasus 2
  • 3. Agenda • Minería de Datos • Minería de datos tradicional con SQL Server Analysis Services • Arquitecturas de Minería para Big Data • Algoritmos Mahout: Asociación • Algoritmos Mahout: Clustering • Ejecución distribuida con Mahout • Algoritmos Mahout: Clasificación 3
  • 4. Definición “Mineria de datos es una colección de potentes técnicas de análisis con el objetivo de descubrir patrones y reglas sobre grandes volumenes de datos” 4
  • 5. Los dos tipos de Minería Minería de datos dirigida (top-down) – Clasificación – Estimación – Pronósticos Minería de datos no dirigida (bottom-up) – Grupos de afinidad (recomendaciones) – Clustering – Descripción 5
  • 6. Tabla de casos: Retención de clientes (Banco) ExternalCreditCard InvestmentProducts Months #TransactionsLastMonth LeftTheBank No Yes 120 15 No Yes No 36 2 Yes Yes Yes 40 25 No Yes Yes 100 25 Yes No No 24 0 No Yes No 86 3 Yes Yes No 12 25 Yes No Yes 30 2 No 6
  • 7. Árbol de decisión: Retención de clientes (Banco) 7 External Credit Card Investment Investment Student Student Student Student ……
  • 8. Preparación de Datos Valores Perdidos y Picos Variables derivadas Series de Tiempo Muestreo y Pruebas de Muestreo 8
  • 9. Estandarización Puntos de Tiempo • Examinar los últimos meses antes de abandono • Abandono de diferentes clientes ocurren en diferentes 9 momentos Jan Feb Mar Apr May Jun Jul Aug month of churn 7 6 5 4 3 2 1 0 months before churn
  • 10. Minería de datos con SQL Server 10 Data Preparation Model Processing SSIS, T-SQL #1 #2 #3 #4 *** SS Analysis Services Data Mining
  • 11. DEMO 11 Mineria de datos “tradicional”
  • 12. Agenda • Minería de datos tradicional con SQL Server Analysis Services • Arquitecturas de Minería para Big Data • Algoritmos Mahout: Asociación • Algoritmos Mahout: Clustering • Ejecución distribuida con Mahout • Algoritmos Mahout: Clasificación 12
  • 13. Descubrir patrones 13 20% 80% Structured Less Structured 12 Tb dia 21 Pb Hadoop cluster 1 Tb Tweets dia 75 Mi Scores dia 7 Tb Datos día 4 B Graph edg/día Millones de comentarios
  • 14. ROI…. Google AdWords: Predicción de click through rates (CTR) Netflix: 75% del streaming de video viene de recomendaciones Amazon: 35% de las ventas de producto vienen de recomendaciones de producto 14
  • 15. Tabla de casos: Retención de clientes (Banco) 15 ExternalCreditCard CustomerService Tone/Sentiment Investment Products Months #Transactions LastMonth LeftTheBank No Positive Yes 120 15 No Yes Negative No 36 2 Yes Yes Positive Yes 40 25 No Yes Positive Yes 100 25 Yes No Positive No 24 0 No Yes Negative No 86 3 Yes Yes Positive No 12 25 Yes No Negative Yes 30 2 No
  • 16. Minería de datos con Hadoop + SQL Server 16 Data Preparation Model Processing Hive, Pig, MapReduce, SSIS, T-SQL #1 #2 #3 #4 *** SS Analysis Services Data Mining
  • 17. Problemas Hadoop-ables • Sistemas de recomendacion • Marketing Target • Prediccion de fallo de red • Modelos de riesgo/fraude • Predicción de amenazas • Análisis de abandono de clientes 17 4 V’s + Machine Learning
  • 18. Mahout Pegasus Lucene … Pig Hive Map Reduce HDFS Hive ODBC Sqoop JDBC Windows Azure & Windows Server Microsoft BI Platform Repaso Hadoop
  • 19. Hadoop Distributed File System (HDFS) NameNode DataNode File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File File DataNode DataNode Block Size = 64 Mb Replication Factor = 3
  • 20. Map Reduce JobTracker TaskTracker File File File File File File Reduce File File map map File File File File File File File File File File File File File File File File File File File MapReduce Job File File File File File map TaskTracker TaskTracker
  • 21. Minería de datos con Hadoop, Mahout 21 Data Preparation Model Processing Hive, Pig, MapReduce Mahout #1 #2 #3 #4 ***
  • 22. Mahout • Proyecto TOP Apache Lucene • Librería Machine Learning escalable • La mayoría escalan con Hadoop • Basado en Map Reduce • Tambien en SPARK Mahout Map Reduce HDFS 22
  • 23. Algoritmos Mahout Collaborative Filtering (Asociación) • Por Usuarios • Por Item Clasificación • Regresión logistica • Naïve Bayes • Random Forest Clustering • k-means • Spectral Clustering 23
  • 24. Hadoop en Azure: HDInsight Si necesitamos un cluster mayor  Soporte Azure 24
  • 25. Agenda • Minería de datos tradicional con SQL Server Analysis Services • Arquitecturas de Minería para Big Data • Algoritmos Mahout: Asociación • Algoritmos Mahout: Clustering • Ejecución distribuida con Mahout • Algoritmos Mahout: Clasificación 25
  • 26. Problemas Hadoop-ables: Asociación • Basada en Usuario •Basada en Items • Algoritmos: •Log-likehood •TaniMoto • Euclidean Distance •Pearson Correlation •Relative Rank •Spearman correlation 26
  • 28. Recomendar Películas • Preparar los datos con Mahout • Ejecutar procesado Mahout en Hadoop • Observar resultados 28
  • 29. Similarity Cooccurrence hadoop jar C:Hadoopmahout-0.8mahout-examples- 0.8-job.jar org.apache.mahout.driver.MahoutDriver recommenditembased --input ///labs/mahoutlab/recomendacion/mahoutinput.txt -- output ///labs/mahoutlab/recomendacion/output/itembased-cooccurence --usersFile ///labs/mahoutlab/recomendacion/users.txt -- similarityClassname SIMILARITY_COOCCURRENCE -- numRecommendations 10 --tempDir ///labs/mahoutlab/recomendacion/temp-cooccurrence 29
  • 30. Similarity Euclidean Distance hadoop jar C:Hadoopmahout-0.8mahout-examples- 0.8-job.jar org.apache.mahout.driver.MahoutDriver recommenditembased --input ///labs/mahoutlab/recomendacion/mahoutinput.txt -- output ///labs/mahoutlab/recomendacion/output/itembased-euclidean --usersFile ///labs/mahoutlab/recomendacion/users.txt -- similarityClassname SIMILARITY_EUCLIDEAN_DISTANCE -- numRecommendations 10 --tempDir ///labs/mahoutlab/recomendacion/temp-euclidean 30
  • 31. Similarity LogLikeliHood hadoop jar C:Hadoopmahout-0.8mahout-examples- 0.8-job.jar org.apache.mahout.driver.MahoutDriver recommenditembased --input ///labs/mahoutlab/mahoutinput.txt --output ///labs/mahoutlab/output/itembased-loglikelihood --usersFile ///labs/mahoutlab/users.txt -- similarityClassname SIMILARITY_LOGLIKELIHOOD --numRecommendations 10 --tempDir ///labs/mahoutlab/recomendacion/temp-loglikelihood 31
  • 32. Agenda • Minería de datos tradicional con SQL Server Analysis Services • Arquitecturas de Minería para Big Data • Algoritmos Mahout: Asociación • Algoritmos Mahout: Clustering • Ejecución distribuida con Mahout • Algoritmos Mahout: Clasificación 32
  • 33. Algoritmos Hadoopables: Clustering 33 Map Reduce Single Node • Item Base Collaborative Filtering • Naive Bayes • Random Forest • K-Means • … • User Based Collaborative Filtering • Logistic Regression • Markov Models • Multilayer Perceptron • …
  • 34. Mahout Clustering Algoritmos • K-Means • Canopy Clustering • Dirichlet • Streaming k-Means • Spectral Clustering • Spearman correlation Medidas de distancia • Manhattan • Euclidean 34
  • 36. Mail Cluster, Pasos Preparar datos  Vectores Ejecutar el procesado Mahout Clustering en Hadoop Observar resultados 36
  • 37. Convirtiendo frases a vectores Mail 1: “SQL Server alto rendimiento” • Bag of Words: • SQL  1 • Server  2 • alto 3 • rendimiento 4 • Vectores: (Mail#,Word) = (1,1),(1,2),(1,3),(1,4) 37
  • 38. Seq2sparse command hadoop jar C:Hadoopmahout-0.8mahout-examples- 0.8-job.jar org.apache.mahout.driver.MahoutDriver seq2sparse --input ///labs/mahoutlab/clustering-spam/ output/seqdir --output ///labs/mahoutlab/clustering-spam/ output/vectors --overwrite --weight tfidf --sequentialAccessVector --norm 2 -- logNormalize --namedVector 38
  • 39. K-means Cosine Distance hadoop jar C:Hadoopmahout-0.8mahout-examples- 0.8-job.jar org.apache.mahout.clustering.kmeans.KMeansDrive r --input ///labs/mahoutlab/clustering-spam/ output/vectors/tfidf-vectors --clusters ///labs/mahoutlab/clustering-spam/output/initial-cluster --output ///labs/mahoutlab/clustering-spam/ output/kmeans -cd 0.1 -k 10 -x 10 -cl -dm org.apache.mahout.common.distance.CosineDistan ceMeasure 39
  • 40. Output VL-1382{n=261 c=[0:0.007, 9:0.001, 11:0.000, … Top Palabras SQL Performance Availability T-SQL Select 40
  • 41. Agenda • Minería de datos tradicional con SQL Server Analysis Services • Arquitecturas de Minería para Big Data • Algoritmos Mahout: Asociación • Algoritmos Mahout: Clustering • Ejecución distribuida con Mahout • Algoritmos Mahout: Clasificación 41
  • 42. Mahout Clasificación Algoritmos • Decision Trees • Naïve Bayes • Markov Model • Random Forest • … 42
  • 44. Tabla de casos: Clasificación SPAM 44 Email text file Spam Yes No Yes No Yes Yes Yes Yes No
  • 45. Set de entrenamiento y test hadoop jar C:Hadoopmahout-0.8mahout-examples- 0.8-job.jar org.apache.mahout.driver.MahoutDriver split - -input ///labs/mahoutlab/clasificacion2/output/vecto rs/tfidf-vectors --trainingOutput ///labs/mahoutlab/clasificacion2/train-vectors --testOutput ///labs/mahoutlab/clasificacion2/test-vectors - -randomSelectionPct 40 --overwrite -- sequenceFiles -xm sequential 45
  • 46. Naïve Bayes hadoop jar C:Hadoopmahout- 0.8mahout-examples-0.8-job.jar org.apache.mahout.driver.MahoutDriver trainnb --input ///labs/mahoutlab/clasificacion2/train-vectors -el --output ///labs/mahoutlab/clasificacion2/model -li ///labs/mahoutlab/clasificacion2/labelindex -ow 46
  • 47. Mahout hoy El 25 de Abril, Apache Mahout dijo adios a MapReduce • Mantiene los algoritmos MapReduce Futuras implementaciones usarán DSL (Optimizador algebraico) • Ejecución en Apache SPARK sobre Hadoop 2.X YARN Futuras implementaciones soportadas en HDInsight 47
  • 48. Conclusión Durante esta sesión… Arquitecturas de Minería para Big Data Algoritmos en Mahout • Clasificación • Asociación • Clustering Ejecución distribuida con Mahout 48
  • 49. Conclusión • Hadoop cuando Big Data lo requiere. La mayor parte de los algoritmos son Hadoopable. • Hadoop escala horizontalmente. • SQL Server DM solo escala verticalmente. • SQL Server proporciona una visualización rica e integración sencilla. • Para la mayor parte de soluciones de minería no son necesarias grandes cantidades de datos. Hadoop puede hacer la preparación y SQL Server realizar la minería. 49
  • 50. Minería de datos con SQL Server 50 Data Preparation Model Processing SSIS, T-SQL #1 #2 #3 #4 *** SS Analysis Services Data Mining
  • 51. Minería de datos con Hadoop + SQL Server 51 Data Preparation Model Processing Hive, Pig, MapReduce, SSIS, T-SQL #1 #2 #3 #4 *** SS Analysis Services Data Mining
  • 52. Minería de datos con Hadoop, Mahout 52 Data Preparation Model Processing Hive, Pig, MapReduce Mahout #1 #2 #3 #4 ***
  • 53. Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu oportunidad. http://summit.solidq.com Síguenos: 55

Notas del editor

  1. Mostrar el Add in de Minería Mostrar por detrás SQL Server y enseñar proyecto
  2. Block size: 64mb Replication factor: 3
  3. Less network latency