SlideShare una empresa de Scribd logo
1 de 29
El dato tiene forma y
la forma, significado
Josep Curto
CEO, Delfos Research | Director Académico, Master Big Data y BI, UOC
@josepcurto, 2018
2
Me presento
• CEO, Delfos Research
• Director Académico, Master
Big Data y BI, UOC
• Advisor, Institute of Passion
• Autor de multiples artículos y
libros
@josepcurto, 2018
3
¿Qué significa que el dato
tiene forma?
@josepcurto, 2018
4@josepcurto, 2018
5@josepcurto, 2018
Hace unos
años…
6
Dejádme hacer un juego.
Esto es una hoja de papel…
@josepcurto, 2018
7
¿Nuestros datos?
@josepcurto, 2018
8
La realidad
@josepcurto, 2018
9
Lo que hacemos
@josepcurto, 2018
10
¿Y si fueramos capaces de
descubrir todas las historias?
@josepcurto, 2018
11
El dato tiene
forma, y la
forma
significado
@josepcurto, 2018
12
Introducción breve a TDA (I)
@josepcurto, 2018
13
Introducción breve a TDA (II)
@josepcurto, 2018
14
Introducción breve a TDA (III)
@josepcurto, 2018
15
Introducción breve a TDA (IV)
@josepcurto, 2018
16
Pasos para
desplagar
TDA
Datos
Métricas y lentes
Recubrimiento
Imagen de la
inversa del clúster
Aristas y nodos
Visualización grafo
@josepcurto, 2018
17
If TDA es tan fantástica, por
qué no la estamos usando?
@josepcurto, 2018
18
Datos Originales Datos formateados
[100,480,507:3]
300 millones de elementos
[17,770:480,189]
8.5 billones de elementos
@josepcurto, 2018
19
Split dataset in buckets by
range of movie_ids
Pivot each data bucket
(rows: movies, columns: users)
…
…
Perform serial executions of PCA on each
batch using previously learned PCA vectors
Merging batches in whole dataset
Learn PCA coefficients on random subset
Alguna idea?
Divide y
venceras
@josepcurto, 2018
20
Music
Indian
Anime
French
Honk
Kong
US
Cartoons
Kids
Movie
German
US
Retro
Horror
@josepcurto, 2018
21
Otros ejemplos
@josepcurto, 2018
22
IFFT
@Novak and Hoffman, 2015
@josepcurto, 2018
23
Sensor
Activities
@Novak and Hoffman, 2015
@josepcurto, 2018
24
Yelp
@Datarefiner, 2015
Cluster characteristics:
• More than 35 check-ins
everyday at 10:00
• Less than 17 check-ins
everyday at 15:00
• Most has category
“Breakfast and brunch”
@josepcurto, 2018
25
Ayasdi
@josepcurto, 2018
26
Una organización sin
algoritmos y datos no puede
competir con una que los usa
@josepcurto, 2018
27 @josepcurto, 2018
Q&A
@josepcurto, 2018
Gracias!
Josep Curto | @josepcurto | josep.curto@delfosresearch.com

Más contenido relacionado

Más de Big-Data-Summit

SafeHomeFace - Sistema de reconocimiento facial.
SafeHomeFace - Sistema de reconocimiento facial.SafeHomeFace - Sistema de reconocimiento facial.
SafeHomeFace - Sistema de reconocimiento facial.Big-Data-Summit
 
Las 10 tendencias principales de BI para el 2018 - Carloz Díaz
Las 10 tendencias principales de BI para el 2018 - Carloz DíazLas 10 tendencias principales de BI para el 2018 - Carloz Díaz
Las 10 tendencias principales de BI para el 2018 - Carloz DíazBig-Data-Summit
 
El big data analytics donde menos te lo esperas - Alex Rayón
El big data analytics donde menos te lo esperas - Alex RayónEl big data analytics donde menos te lo esperas - Alex Rayón
El big data analytics donde menos te lo esperas - Alex RayónBig-Data-Summit
 
Big Data en el sector inmobiliario - Gonzalo Martín
Big Data en el sector inmobiliario - Gonzalo MartínBig Data en el sector inmobiliario - Gonzalo Martín
Big Data en el sector inmobiliario - Gonzalo MartínBig-Data-Summit
 
Modelo Operativo para grandes proyectos de AI - Ignacio Marrero
Modelo Operativo para grandes proyectos de AI - Ignacio MarreroModelo Operativo para grandes proyectos de AI - Ignacio Marrero
Modelo Operativo para grandes proyectos de AI - Ignacio MarreroBig-Data-Summit
 
La evolución de la analítica descriptiva - Diego Aguirre
La evolución de la analítica descriptiva - Diego AguirreLa evolución de la analítica descriptiva - Diego Aguirre
La evolución de la analítica descriptiva - Diego AguirreBig-Data-Summit
 
BDAS-2017 | Evolución de Open Data en el desarrollo de las ciudades inteligentes
BDAS-2017 | Evolución de Open Data en el desarrollo de las ciudades inteligentesBDAS-2017 | Evolución de Open Data en el desarrollo de las ciudades inteligentes
BDAS-2017 | Evolución de Open Data en el desarrollo de las ciudades inteligentesBig-Data-Summit
 
BDAS-2017 | Deep Learning para Extracción de Valor en Contenidos Digitales
BDAS-2017 | Deep Learning para Extracción de Valor en Contenidos DigitalesBDAS-2017 | Deep Learning para Extracción de Valor en Contenidos Digitales
BDAS-2017 | Deep Learning para Extracción de Valor en Contenidos DigitalesBig-Data-Summit
 
BDAS-2017 | Maximizing a churn campaign’s profitability with cost sensitive m...
BDAS-2017 | Maximizing a churn campaign’s profitability with cost sensitive m...BDAS-2017 | Maximizing a churn campaign’s profitability with cost sensitive m...
BDAS-2017 | Maximizing a churn campaign’s profitability with cost sensitive m...Big-Data-Summit
 
BDAS-2017 | sanselix jobranke_rpptx
BDAS-2017 | sanselix jobranke_rpptxBDAS-2017 | sanselix jobranke_rpptx
BDAS-2017 | sanselix jobranke_rpptxBig-Data-Summit
 
BDAS-2017 | Analitica visual presentación mlms2
BDAS-2017 | Analitica visual presentación mlms2BDAS-2017 | Analitica visual presentación mlms2
BDAS-2017 | Analitica visual presentación mlms2Big-Data-Summit
 
BDAS-2017 | Comunidad Data Science
BDAS-2017 | Comunidad Data ScienceBDAS-2017 | Comunidad Data Science
BDAS-2017 | Comunidad Data ScienceBig-Data-Summit
 
BDAS-2017 | DMC Challengue concurso satisfacción universidad
BDAS-2017 | DMC Challengue concurso satisfacción universidadBDAS-2017 | DMC Challengue concurso satisfacción universidad
BDAS-2017 | DMC Challengue concurso satisfacción universidadBig-Data-Summit
 
BDAS-2017 | Hanldling Target Bias in Predictive Modelling
BDAS-2017 | Hanldling Target Bias in Predictive ModellingBDAS-2017 | Hanldling Target Bias in Predictive Modelling
BDAS-2017 | Hanldling Target Bias in Predictive ModellingBig-Data-Summit
 
BDAS-2017 | Convergencia entre Open Data y Big Data, casos y tendencias
BDAS-2017 | Convergencia entre Open Data y Big Data, casos y tendenciasBDAS-2017 | Convergencia entre Open Data y Big Data, casos y tendencias
BDAS-2017 | Convergencia entre Open Data y Big Data, casos y tendenciasBig-Data-Summit
 
BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...
BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...
BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...Big-Data-Summit
 
BDAS-2017 | Conozca la plataforma ideal para un procesamiento analítico sin p...
BDAS-2017 | Conozca la plataforma ideal para un procesamiento analítico sin p...BDAS-2017 | Conozca la plataforma ideal para un procesamiento analítico sin p...
BDAS-2017 | Conozca la plataforma ideal para un procesamiento analítico sin p...Big-Data-Summit
 
Building Innovative Data Products in a Banking Environment
Building Innovative Data Products in a Banking EnvironmentBuilding Innovative Data Products in a Banking Environment
Building Innovative Data Products in a Banking EnvironmentBig-Data-Summit
 
BDAS-2017 | De los Bots a las Arquitecturas Cognitivas
BDAS-2017 | De los Bots a las Arquitecturas CognitivasBDAS-2017 | De los Bots a las Arquitecturas Cognitivas
BDAS-2017 | De los Bots a las Arquitecturas CognitivasBig-Data-Summit
 
BDAS-2017 | Deep Neural Networks Para la Detección de Phishing
BDAS-2017 | Deep Neural Networks Para la Detección de PhishingBDAS-2017 | Deep Neural Networks Para la Detección de Phishing
BDAS-2017 | Deep Neural Networks Para la Detección de PhishingBig-Data-Summit
 

Más de Big-Data-Summit (20)

SafeHomeFace - Sistema de reconocimiento facial.
SafeHomeFace - Sistema de reconocimiento facial.SafeHomeFace - Sistema de reconocimiento facial.
SafeHomeFace - Sistema de reconocimiento facial.
 
Las 10 tendencias principales de BI para el 2018 - Carloz Díaz
Las 10 tendencias principales de BI para el 2018 - Carloz DíazLas 10 tendencias principales de BI para el 2018 - Carloz Díaz
Las 10 tendencias principales de BI para el 2018 - Carloz Díaz
 
El big data analytics donde menos te lo esperas - Alex Rayón
El big data analytics donde menos te lo esperas - Alex RayónEl big data analytics donde menos te lo esperas - Alex Rayón
El big data analytics donde menos te lo esperas - Alex Rayón
 
Big Data en el sector inmobiliario - Gonzalo Martín
Big Data en el sector inmobiliario - Gonzalo MartínBig Data en el sector inmobiliario - Gonzalo Martín
Big Data en el sector inmobiliario - Gonzalo Martín
 
Modelo Operativo para grandes proyectos de AI - Ignacio Marrero
Modelo Operativo para grandes proyectos de AI - Ignacio MarreroModelo Operativo para grandes proyectos de AI - Ignacio Marrero
Modelo Operativo para grandes proyectos de AI - Ignacio Marrero
 
La evolución de la analítica descriptiva - Diego Aguirre
La evolución de la analítica descriptiva - Diego AguirreLa evolución de la analítica descriptiva - Diego Aguirre
La evolución de la analítica descriptiva - Diego Aguirre
 
BDAS-2017 | Evolución de Open Data en el desarrollo de las ciudades inteligentes
BDAS-2017 | Evolución de Open Data en el desarrollo de las ciudades inteligentesBDAS-2017 | Evolución de Open Data en el desarrollo de las ciudades inteligentes
BDAS-2017 | Evolución de Open Data en el desarrollo de las ciudades inteligentes
 
BDAS-2017 | Deep Learning para Extracción de Valor en Contenidos Digitales
BDAS-2017 | Deep Learning para Extracción de Valor en Contenidos DigitalesBDAS-2017 | Deep Learning para Extracción de Valor en Contenidos Digitales
BDAS-2017 | Deep Learning para Extracción de Valor en Contenidos Digitales
 
BDAS-2017 | Maximizing a churn campaign’s profitability with cost sensitive m...
BDAS-2017 | Maximizing a churn campaign’s profitability with cost sensitive m...BDAS-2017 | Maximizing a churn campaign’s profitability with cost sensitive m...
BDAS-2017 | Maximizing a churn campaign’s profitability with cost sensitive m...
 
BDAS-2017 | sanselix jobranke_rpptx
BDAS-2017 | sanselix jobranke_rpptxBDAS-2017 | sanselix jobranke_rpptx
BDAS-2017 | sanselix jobranke_rpptx
 
BDAS-2017 | Analitica visual presentación mlms2
BDAS-2017 | Analitica visual presentación mlms2BDAS-2017 | Analitica visual presentación mlms2
BDAS-2017 | Analitica visual presentación mlms2
 
BDAS-2017 | Comunidad Data Science
BDAS-2017 | Comunidad Data ScienceBDAS-2017 | Comunidad Data Science
BDAS-2017 | Comunidad Data Science
 
BDAS-2017 | DMC Challengue concurso satisfacción universidad
BDAS-2017 | DMC Challengue concurso satisfacción universidadBDAS-2017 | DMC Challengue concurso satisfacción universidad
BDAS-2017 | DMC Challengue concurso satisfacción universidad
 
BDAS-2017 | Hanldling Target Bias in Predictive Modelling
BDAS-2017 | Hanldling Target Bias in Predictive ModellingBDAS-2017 | Hanldling Target Bias in Predictive Modelling
BDAS-2017 | Hanldling Target Bias in Predictive Modelling
 
BDAS-2017 | Convergencia entre Open Data y Big Data, casos y tendencias
BDAS-2017 | Convergencia entre Open Data y Big Data, casos y tendenciasBDAS-2017 | Convergencia entre Open Data y Big Data, casos y tendencias
BDAS-2017 | Convergencia entre Open Data y Big Data, casos y tendencias
 
BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...
BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...
BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...
 
BDAS-2017 | Conozca la plataforma ideal para un procesamiento analítico sin p...
BDAS-2017 | Conozca la plataforma ideal para un procesamiento analítico sin p...BDAS-2017 | Conozca la plataforma ideal para un procesamiento analítico sin p...
BDAS-2017 | Conozca la plataforma ideal para un procesamiento analítico sin p...
 
Building Innovative Data Products in a Banking Environment
Building Innovative Data Products in a Banking EnvironmentBuilding Innovative Data Products in a Banking Environment
Building Innovative Data Products in a Banking Environment
 
BDAS-2017 | De los Bots a las Arquitecturas Cognitivas
BDAS-2017 | De los Bots a las Arquitecturas CognitivasBDAS-2017 | De los Bots a las Arquitecturas Cognitivas
BDAS-2017 | De los Bots a las Arquitecturas Cognitivas
 
BDAS-2017 | Deep Neural Networks Para la Detección de Phishing
BDAS-2017 | Deep Neural Networks Para la Detección de PhishingBDAS-2017 | Deep Neural Networks Para la Detección de Phishing
BDAS-2017 | Deep Neural Networks Para la Detección de Phishing
 

Último

Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfAnnimoUno1
 
Presentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilPresentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilJuanGallardo438714
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfvladimiroflores1
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
presentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxpresentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxlosdiosesmanzaneros
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfJulian Lamprea
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxAlan779941
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxMiguelAtencio10
 

Último (15)

Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
Presentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilPresentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmeril
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
presentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxpresentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptx
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 

El dato tiene forma y la forma significado - Josep Curto

Notas del editor

  1. Predictive Analytics approach: Fit predictive models to the data. But the complexity of the data means hypothesis testing is often challenging. We need to know what questions to ask. Are we asking the right questions? With big data, insights can be slow. Conventional approaches for reduction and visualization: Use linear and nonlinear dimension reduction techniques such as PCA, MCA, and MDS. But, even if they work, are sensitive to distance metrics and do not preserve topological structures of the data. Data-Driven Discovery Approach: Hypothesis-free approach based on computational topology to qualitatively analyze functions on very high-dimensional data and visualize the data structure in low- dimensional topological spaces. Topological data analysis (TDA) reveals structures in the data that have invariant properties and can propel insight and improve hypothesis-generation and predictive modeling; “digital serendipity” (Singh 2013).
  2. TDA draws on theory of topological spaces and simplicial complexes (algebraic topology); implementation invokes computational topology (computational geometry, computational complexity theory, and computer science) – e.g. see Carlsson 2009; Lum, et.al. 2012; Singh, Memoli and Carlsson 2007. TDA applies a function (lens) to a data set and builds a compressed summary of the data. A visual network of nodes (representing data points) connected by edges is created using four types of parameters: Metric (measure of similarity)  Lenses (functions on the data)  Bin resolution  Bin overlap Metrics: correlation, Euclidean distance, cosine, hamming, categorical cosine, user-defined... Functions: mean, variance, density, centrality, PCA, MDS, user-defined... Supervised Machine Learning Models: TDA of machine learning outputs with outcome variables can enhance models through discovery of systematic error and construction of local models as opposed to a single global model
  3. https://arxiv.org/abs/1710.04019 http://www.win.tue.nl/SoCG2015/wp-content/uploads/tutorials/150623_presentation_2.pdf https://www.r-bloggers.com/topological-data-analysis-with-r/