SlideShare una empresa de Scribd logo
1
Historias de DS
desde la trinchera
Historias malas, buenas, y feas, mexicanas, y del mundo.
Copyright © @xuxoramos 2017
"All models are wrong, but
some are useful"
- George E.P. Box
2
Objetivo
Identificar
patrones
equivocándose
lo menor posible.
3Copyright © @xuxoramos 2017
Cómo lo logra?
Balanceando
componentes del
error
4Copyright © @xuxoramos 2017
X1 X2 Y
X1 X2 YX3
X1 X2 YX3 X4
X1 X2 YX3 X4 X5 X6
X1 X2 YX3 X4 X5 X6 X7 X8
¡Aquí es donde se concentran mates,
estadística, lógica y ética!
- Lógica para tener higiene argumentativa y hacer la pregunta correcta
- Estadística para evaluar la aportación de información de éstas
- Mates para modelar este conjunto y reflejar fielmente la realidad
- Ética para reconocer sesgos y tratarlos
11
...Y donde más se equivoca
la gente.
A veces a propósito...
12
13
Historias Buenas
"DS done right"
14Copyright © @xuxoramos 2017
15
Historias Malas
Google Img Classifier
16Copyright © @xuxoramos 2017
Microsoft's TweetBot Tay
17Copyright © @xuxoramos 2017
Google Flu Trends
18Copyright © @xuxoramos 2017
Solid Gold Bomb
19Copyright © @xuxoramos 2017
Score de reincidencia
20Copyright © @xuxoramos 2017
2008 Subprime Mortgage Crisis
21Copyright © @xuxoramos 2017
Cambridge Analytica
22Copyright © @xuxoramos 2017
Y México?
23Copyright © @xuxoramos 2017
- Telcel identifica con clustering un grupo de usrs que
consume $7,000 MXN de tiempo aire en prepago.
- Con aprendizaje supervisado crea un producto de crédito
para estos clientes.
- Le trae 4mdp anuales en facturación.
- Luego hacen georeferenciación de estos clientes.
- Todos están en Sinaloa y Tamaulipas.
- ¿Qué tipo de personas creen que eran?
Y México?
24Copyright © @xuxoramos 2017
- Durante el sismo del 19S, Codeando México atrae un
grupo de programadores que quieren entrenar una red
neuronal para detectar daño estrucural con fotos de TW.
- Todas las fotos están taggeadas con #RevisaMiGrieta,
pero son solo 600.
- Las redes neuronales necesitan decenas de miles de
fotos, de lo contrario arrojarán muchos falsos positivos y
falsos negativos.
- ¿Qué costo social pueden tener estas equivocaciones?
¿Cómo anda MX en análisis de
datos?
113K Ingenieros de Software al año.
350 Matemáticos, físicos y estadísticos.
No se conoce la diferencia entre Data Scientist (DS) y Data Engineer
(DE).
Tenemos miles de Data Engineers talentosos.
No tenemos casi Data Scientists.
Tenemos muchos DE queriendo ser DS sin las bases de mates o proba.
+
25Copyright © @xuxoramos 2017
¿Cómo anda MX en análisis de
datos?
En 1982 México le entró al modelo neoliberal con la economía de maquila.
La SEP instruyó al sistema educativo eliminar la filosofía y mates de las
ingenierías. Era más importante producir gente con capacidades
secundarias, repetibles y transferibles, que crear conocimiento.
La ingeniería en compu es la más afectada. La reducen a recetas de cocina.
Algunas universidades autónomas se salvan.
Fast forward a 2018: 11 generaciones de ingenieros que razonan con
falacias, y cuyas matemáticas más avanzadas llegan solo a cálculo.
+
26Copyright © @xuxoramos 2017
Con todo esto, ¿debemos
convertirnos en hub de
talento para DS?
27
¿Qué tenemos en contra?
La frontera norte se cierra a nuestros productos y servicios.
Poco petróleo, y a precio muy bajo.
Corrupción rampante.
Mercado interno débil.
Variables macroeconómicas malas.
La "mano de obra barata" no será relevante en la era de la
automatización.
28Copyright © @xuxoramos 2017
Debe México convertirse en un
hub de Ciencia de Datos?
Sí.
29Copyright © @xuxoramos 2017
Cómo pueden ayudar?
Entra a un programa académico completo.
Regresa a la escuela a aprender mates.
Usa la educación abierta en internet para hacer tu propia maestría.
Únete a grupos profesionales.
Únete a comunidades.
30Copyright © @xuxoramos 2017
Mates aplicadas @ ITAM, UNAM, IPN
Física @ UNAM
Economía @ ITAM, UNAM
MSc Ciencia de Datos @ ITAM
MSc Inteligencia Analítica @ UAnáhuac
MSc Ciencia de Datos @ CIMAT
Programas académicos en MX*
+
* Evaluación de 63 candidatos para posiciones de Ciencia de Datos en Bolsa
Mexicana de Valores, GBM, TERAN/TBWA, Klustera, Globant, OPI y ConCrédito.
31Copyright © @xuxoramos 2017
Intro to Mathematical Thinking: Stanford + Coursera
Intro to Logic: Stanford + Coursera
Business Analytics: Wharton + Coursera
Data Science Specialization: JHU + Coursera
Machine Learning: Stanford + Coursera
Executive Data Science: JHU + Coursera
"Hága su propia maestría"*
* Ver ratings de cursos en https://www.class-central.com/ 32Copyright © @xuxoramos 2017
The Data Pub (FB: /thedatapub, TW: @thedatapub)
+1800 miembros. Meetups cada último Jueves del mes.
Cursos de Stats & Machine Learning para Developers.
Job posting - porque las empresas están perdidas.
Badges - porque los endorsements de LinkedIn son "la hoguera de las
vanidades".
Hackathones: Walmart, Grupo Modelo.
Grupos Profesionales
33Copyright © @xuxoramos 2017
El Juramento del Científico de Datos
34
Discusiones pendientes:
¡Machine Learning Ethics!
35
36
Grax!
@xuxoramos
jesus@datank.ai
LinkedIn
Github
FB
37Copyright © @xuxoramos 2017

Más contenido relacionado

La actualidad más candente

Get hands-on with Explainable AI at Machine Learning Interpretability(MLI) Gym!
Get hands-on with Explainable AI at Machine Learning Interpretability(MLI) Gym!Get hands-on with Explainable AI at Machine Learning Interpretability(MLI) Gym!
Get hands-on with Explainable AI at Machine Learning Interpretability(MLI) Gym!
Sri Ambati
 
Building Large Java Projects Faster: Multicore javac and Makefile integration
Building Large Java Projects Faster: Multicore javac and Makefile integrationBuilding Large Java Projects Faster: Multicore javac and Makefile integration
Building Large Java Projects Faster: Multicore javac and Makefile integration
Fredrik Öhrström
 
Cassandra Database
Cassandra DatabaseCassandra Database
Cassandra Database
YounesCharfaoui
 
How to Manage Your Time Series Data Pipeline at the Edge with InfluxDB
How to Manage Your Time Series Data Pipeline at the Edge with InfluxDBHow to Manage Your Time Series Data Pipeline at the Edge with InfluxDB
How to Manage Your Time Series Data Pipeline at the Edge with InfluxDB
InfluxData
 
netconf and yang
netconf and yangnetconf and yang
netconf and yang
pavan penugonda
 
Data Presentations Cassandra Sigmod
Data  Presentations  Cassandra SigmodData  Presentations  Cassandra Sigmod
Data Presentations Cassandra Sigmod
Jeff Hammerbacher
 
Disaster Recovery for Multi-Region Apache Kafka Ecosystems at Uber
Disaster Recovery for Multi-Region Apache Kafka Ecosystems at UberDisaster Recovery for Multi-Region Apache Kafka Ecosystems at Uber
Disaster Recovery for Multi-Region Apache Kafka Ecosystems at Uber
confluent
 
IOT - Design Principles of Connected Devices
IOT - Design Principles of Connected DevicesIOT - Design Principles of Connected Devices
IOT - Design Principles of Connected Devices
Devyani Vasistha
 
Airbnb Search Architecture: Presented by Maxim Charkov, Airbnb
Airbnb Search Architecture: Presented by Maxim Charkov, AirbnbAirbnb Search Architecture: Presented by Maxim Charkov, Airbnb
Airbnb Search Architecture: Presented by Maxim Charkov, Airbnb
Lucidworks
 
InfiniBand In-Network Computing Technology and Roadmap
InfiniBand In-Network Computing Technology and RoadmapInfiniBand In-Network Computing Technology and Roadmap
InfiniBand In-Network Computing Technology and Roadmap
inside-BigData.com
 
uReplicator: Uber Engineering’s Scalable, Robust Kafka Replicator
uReplicator: Uber Engineering’s Scalable,  Robust Kafka ReplicatoruReplicator: Uber Engineering’s Scalable,  Robust Kafka Replicator
uReplicator: Uber Engineering’s Scalable, Robust Kafka Replicator
Michael Hongliang Xu
 
Deep Learning Hardware: Past, Present, & Future
Deep Learning Hardware: Past, Present, & FutureDeep Learning Hardware: Past, Present, & Future
Deep Learning Hardware: Past, Present, & Future
Rouyun Pan
 
Processing Semantically-Ordered Streams in Financial Services
Processing Semantically-Ordered Streams in Financial ServicesProcessing Semantically-Ordered Streams in Financial Services
Processing Semantically-Ordered Streams in Financial Services
Flink Forward
 
Big Data Processing with Spark and Scala
Big Data Processing with Spark and Scala Big Data Processing with Spark and Scala
Big Data Processing with Spark and Scala
Edureka!
 
Apache avro and overview hadoop tools
Apache avro and overview hadoop toolsApache avro and overview hadoop tools
Apache avro and overview hadoop tools
alireza alikhani
 
Lstm
LstmLstm
Modern Data Warehousing with the Microsoft Analytics Platform System
Modern Data Warehousing with the Microsoft Analytics Platform SystemModern Data Warehousing with the Microsoft Analytics Platform System
Modern Data Warehousing with the Microsoft Analytics Platform System
James Serra
 
“Introduction to DNN Model Compression Techniques,” a Presentation from Xailient
“Introduction to DNN Model Compression Techniques,” a Presentation from Xailient“Introduction to DNN Model Compression Techniques,” a Presentation from Xailient
“Introduction to DNN Model Compression Techniques,” a Presentation from Xailient
Edge AI and Vision Alliance
 
Powering Interactive BI Analytics with Presto and Delta Lake
Powering Interactive BI Analytics with Presto and Delta LakePowering Interactive BI Analytics with Presto and Delta Lake
Powering Interactive BI Analytics with Presto and Delta Lake
Databricks
 
Consistency in NoSQL
Consistency in NoSQLConsistency in NoSQL
Consistency in NoSQL
Dr-Dipali Meher
 

La actualidad más candente (20)

Get hands-on with Explainable AI at Machine Learning Interpretability(MLI) Gym!
Get hands-on with Explainable AI at Machine Learning Interpretability(MLI) Gym!Get hands-on with Explainable AI at Machine Learning Interpretability(MLI) Gym!
Get hands-on with Explainable AI at Machine Learning Interpretability(MLI) Gym!
 
Building Large Java Projects Faster: Multicore javac and Makefile integration
Building Large Java Projects Faster: Multicore javac and Makefile integrationBuilding Large Java Projects Faster: Multicore javac and Makefile integration
Building Large Java Projects Faster: Multicore javac and Makefile integration
 
Cassandra Database
Cassandra DatabaseCassandra Database
Cassandra Database
 
How to Manage Your Time Series Data Pipeline at the Edge with InfluxDB
How to Manage Your Time Series Data Pipeline at the Edge with InfluxDBHow to Manage Your Time Series Data Pipeline at the Edge with InfluxDB
How to Manage Your Time Series Data Pipeline at the Edge with InfluxDB
 
netconf and yang
netconf and yangnetconf and yang
netconf and yang
 
Data Presentations Cassandra Sigmod
Data  Presentations  Cassandra SigmodData  Presentations  Cassandra Sigmod
Data Presentations Cassandra Sigmod
 
Disaster Recovery for Multi-Region Apache Kafka Ecosystems at Uber
Disaster Recovery for Multi-Region Apache Kafka Ecosystems at UberDisaster Recovery for Multi-Region Apache Kafka Ecosystems at Uber
Disaster Recovery for Multi-Region Apache Kafka Ecosystems at Uber
 
IOT - Design Principles of Connected Devices
IOT - Design Principles of Connected DevicesIOT - Design Principles of Connected Devices
IOT - Design Principles of Connected Devices
 
Airbnb Search Architecture: Presented by Maxim Charkov, Airbnb
Airbnb Search Architecture: Presented by Maxim Charkov, AirbnbAirbnb Search Architecture: Presented by Maxim Charkov, Airbnb
Airbnb Search Architecture: Presented by Maxim Charkov, Airbnb
 
InfiniBand In-Network Computing Technology and Roadmap
InfiniBand In-Network Computing Technology and RoadmapInfiniBand In-Network Computing Technology and Roadmap
InfiniBand In-Network Computing Technology and Roadmap
 
uReplicator: Uber Engineering’s Scalable, Robust Kafka Replicator
uReplicator: Uber Engineering’s Scalable,  Robust Kafka ReplicatoruReplicator: Uber Engineering’s Scalable,  Robust Kafka Replicator
uReplicator: Uber Engineering’s Scalable, Robust Kafka Replicator
 
Deep Learning Hardware: Past, Present, & Future
Deep Learning Hardware: Past, Present, & FutureDeep Learning Hardware: Past, Present, & Future
Deep Learning Hardware: Past, Present, & Future
 
Processing Semantically-Ordered Streams in Financial Services
Processing Semantically-Ordered Streams in Financial ServicesProcessing Semantically-Ordered Streams in Financial Services
Processing Semantically-Ordered Streams in Financial Services
 
Big Data Processing with Spark and Scala
Big Data Processing with Spark and Scala Big Data Processing with Spark and Scala
Big Data Processing with Spark and Scala
 
Apache avro and overview hadoop tools
Apache avro and overview hadoop toolsApache avro and overview hadoop tools
Apache avro and overview hadoop tools
 
Lstm
LstmLstm
Lstm
 
Modern Data Warehousing with the Microsoft Analytics Platform System
Modern Data Warehousing with the Microsoft Analytics Platform SystemModern Data Warehousing with the Microsoft Analytics Platform System
Modern Data Warehousing with the Microsoft Analytics Platform System
 
“Introduction to DNN Model Compression Techniques,” a Presentation from Xailient
“Introduction to DNN Model Compression Techniques,” a Presentation from Xailient“Introduction to DNN Model Compression Techniques,” a Presentation from Xailient
“Introduction to DNN Model Compression Techniques,” a Presentation from Xailient
 
Powering Interactive BI Analytics with Presto and Delta Lake
Powering Interactive BI Analytics with Presto and Delta LakePowering Interactive BI Analytics with Presto and Delta Lake
Powering Interactive BI Analytics with Presto and Delta Lake
 
Consistency in NoSQL
Consistency in NoSQLConsistency in NoSQL
Consistency in NoSQL
 

Similar a Historias de Ciencia de Datos desde la Trinchera

Entrepreneurship with Data, Machine Learning and AI
Entrepreneurship with Data, Machine Learning and AIEntrepreneurship with Data, Machine Learning and AI
Entrepreneurship with Data, Machine Learning and AI
Jesus Ramos
 
Emprendiendo con Data Science, Machine Learning y AI
Emprendiendo con Data Science, Machine Learning y AIEmprendiendo con Data Science, Machine Learning y AI
Emprendiendo con Data Science, Machine Learning y AI
Software Guru
 
WTF with Big Data?
WTF with Big Data?WTF with Big Data?
WTF with Big Data?
Jesus Ramos
 
Estadistica y Machine Learning para Todos
Estadistica y Machine Learning para TodosEstadistica y Machine Learning para Todos
Estadistica y Machine Learning para Todos
Jesus Ramos
 
Introducción a la Teoría de Juegos con aplicación a las Ciencias de la Comput...
Introducción a la Teoría de Juegos con aplicación a las Ciencias de la Comput...Introducción a la Teoría de Juegos con aplicación a las Ciencias de la Comput...
Introducción a la Teoría de Juegos con aplicación a las Ciencias de la Comput...
Egdares Futch H.
 
Tópicos de Big Data - Introducción
Tópicos de Big Data - IntroducciónTópicos de Big Data - Introducción
Tópicos de Big Data - Introducción
Ernesto Mislej
 
El futuro del trabajo En la Era de la Singularidad Tecnológica
El futuro del trabajo En la Era de la Singularidad TecnológicaEl futuro del trabajo En la Era de la Singularidad Tecnológica
El futuro del trabajo En la Era de la Singularidad Tecnológica
Roberto Ponieman
 
Transformación Digital y Redes Sociales
Transformación Digital y Redes SocialesTransformación Digital y Redes Sociales
Transformación Digital y Redes Sociales
Diego Eduardo De León Barrios
 
Nuevas formas de comunicación en una escuela hiperconectada. Del Bigdata al ...
Nuevas formas de comunicación  en una escuela hiperconectada. Del Bigdata al ...Nuevas formas de comunicación  en una escuela hiperconectada. Del Bigdata al ...
Nuevas formas de comunicación en una escuela hiperconectada. Del Bigdata al ...
Juan Miguel Muñoz
 
Inteligencia Artificial en las aulas de los institutos
Inteligencia Artificial en las aulas de los institutosInteligencia Artificial en las aulas de los institutos
Inteligencia Artificial en las aulas de los institutos
manaitam
 
Profesiones en matemáticas
Profesiones en matemáticas Profesiones en matemáticas
Profesiones en matemáticas
Rosa E Padilla
 
Sesion 2 gerencia de ti cs u de m abril-2015
Sesion 2   gerencia de ti cs  u de m   abril-2015Sesion 2   gerencia de ti cs  u de m   abril-2015
Sesion 2 gerencia de ti cs u de m abril-2015
Mauricio Arias
 
EMBD2018 | Small Data y Dark Data: reconstruyendo la información del futuro.
EMBD2018 | Small Data y Dark Data: reconstruyendo la información del futuro.EMBD2018 | Small Data y Dark Data: reconstruyendo la información del futuro.
EMBD2018 | Small Data y Dark Data: reconstruyendo la información del futuro.
Laybor EMBdata Training & Consulting
 
Retos y desafíos del Big Data
Retos y desafíos del Big Data Retos y desafíos del Big Data
Retos y desafíos del Big Data
MSMK - Madrid School of Marketing
 
De la Inteligencia Artificial a la sabiduría humana
De la Inteligencia Artificial a la sabiduría humanaDe la Inteligencia Artificial a la sabiduría humana
De la Inteligencia Artificial a la sabiduría humana
Neus Lorenzo
 
Big Data y el ERP en México
Big Data y el ERP en MéxicoBig Data y el ERP en México
Big Data y el ERP en México
Software Guru
 
Solid Day - Machine learning para organizaciones
Solid Day - Machine learning para organizacionesSolid Day - Machine learning para organizaciones
Solid Day - Machine learning para organizaciones
Software Guru
 
Charla CADE - IA: hacia un uso responsable
Charla CADE - IA: hacia un uso responsableCharla CADE - IA: hacia un uso responsable
Charla CADE - IA: hacia un uso responsable
Fernando Cormenzana
 
Nestor Marquez Transformación Digital, Conferencista, México,
Nestor Marquez Transformación Digital, Conferencista, México, Nestor Marquez Transformación Digital, Conferencista, México,
Nestor Marquez Transformación Digital, Conferencista, México,
Future Experts
 
Antonio Bahamonde - IA y Ciencia de datos: contexto y perspectiva
Antonio Bahamonde - IA y Ciencia de datos: contexto y perspectivaAntonio Bahamonde - IA y Ciencia de datos: contexto y perspectiva
Antonio Bahamonde - IA y Ciencia de datos: contexto y perspectiva
COIICV
 

Similar a Historias de Ciencia de Datos desde la Trinchera (20)

Entrepreneurship with Data, Machine Learning and AI
Entrepreneurship with Data, Machine Learning and AIEntrepreneurship with Data, Machine Learning and AI
Entrepreneurship with Data, Machine Learning and AI
 
Emprendiendo con Data Science, Machine Learning y AI
Emprendiendo con Data Science, Machine Learning y AIEmprendiendo con Data Science, Machine Learning y AI
Emprendiendo con Data Science, Machine Learning y AI
 
WTF with Big Data?
WTF with Big Data?WTF with Big Data?
WTF with Big Data?
 
Estadistica y Machine Learning para Todos
Estadistica y Machine Learning para TodosEstadistica y Machine Learning para Todos
Estadistica y Machine Learning para Todos
 
Introducción a la Teoría de Juegos con aplicación a las Ciencias de la Comput...
Introducción a la Teoría de Juegos con aplicación a las Ciencias de la Comput...Introducción a la Teoría de Juegos con aplicación a las Ciencias de la Comput...
Introducción a la Teoría de Juegos con aplicación a las Ciencias de la Comput...
 
Tópicos de Big Data - Introducción
Tópicos de Big Data - IntroducciónTópicos de Big Data - Introducción
Tópicos de Big Data - Introducción
 
El futuro del trabajo En la Era de la Singularidad Tecnológica
El futuro del trabajo En la Era de la Singularidad TecnológicaEl futuro del trabajo En la Era de la Singularidad Tecnológica
El futuro del trabajo En la Era de la Singularidad Tecnológica
 
Transformación Digital y Redes Sociales
Transformación Digital y Redes SocialesTransformación Digital y Redes Sociales
Transformación Digital y Redes Sociales
 
Nuevas formas de comunicación en una escuela hiperconectada. Del Bigdata al ...
Nuevas formas de comunicación  en una escuela hiperconectada. Del Bigdata al ...Nuevas formas de comunicación  en una escuela hiperconectada. Del Bigdata al ...
Nuevas formas de comunicación en una escuela hiperconectada. Del Bigdata al ...
 
Inteligencia Artificial en las aulas de los institutos
Inteligencia Artificial en las aulas de los institutosInteligencia Artificial en las aulas de los institutos
Inteligencia Artificial en las aulas de los institutos
 
Profesiones en matemáticas
Profesiones en matemáticas Profesiones en matemáticas
Profesiones en matemáticas
 
Sesion 2 gerencia de ti cs u de m abril-2015
Sesion 2   gerencia de ti cs  u de m   abril-2015Sesion 2   gerencia de ti cs  u de m   abril-2015
Sesion 2 gerencia de ti cs u de m abril-2015
 
EMBD2018 | Small Data y Dark Data: reconstruyendo la información del futuro.
EMBD2018 | Small Data y Dark Data: reconstruyendo la información del futuro.EMBD2018 | Small Data y Dark Data: reconstruyendo la información del futuro.
EMBD2018 | Small Data y Dark Data: reconstruyendo la información del futuro.
 
Retos y desafíos del Big Data
Retos y desafíos del Big Data Retos y desafíos del Big Data
Retos y desafíos del Big Data
 
De la Inteligencia Artificial a la sabiduría humana
De la Inteligencia Artificial a la sabiduría humanaDe la Inteligencia Artificial a la sabiduría humana
De la Inteligencia Artificial a la sabiduría humana
 
Big Data y el ERP en México
Big Data y el ERP en MéxicoBig Data y el ERP en México
Big Data y el ERP en México
 
Solid Day - Machine learning para organizaciones
Solid Day - Machine learning para organizacionesSolid Day - Machine learning para organizaciones
Solid Day - Machine learning para organizaciones
 
Charla CADE - IA: hacia un uso responsable
Charla CADE - IA: hacia un uso responsableCharla CADE - IA: hacia un uso responsable
Charla CADE - IA: hacia un uso responsable
 
Nestor Marquez Transformación Digital, Conferencista, México,
Nestor Marquez Transformación Digital, Conferencista, México, Nestor Marquez Transformación Digital, Conferencista, México,
Nestor Marquez Transformación Digital, Conferencista, México,
 
Antonio Bahamonde - IA y Ciencia de datos: contexto y perspectiva
Antonio Bahamonde - IA y Ciencia de datos: contexto y perspectivaAntonio Bahamonde - IA y Ciencia de datos: contexto y perspectiva
Antonio Bahamonde - IA y Ciencia de datos: contexto y perspectiva
 

Más de Jesus Ramos

Formando Equipos de Ciencia de Datos
Formando Equipos de Ciencia de DatosFormando Equipos de Ciencia de Datos
Formando Equipos de Ciencia de Datos
Jesus Ramos
 
Practical Machine Ethics @ SXSW2019
Practical Machine Ethics @ SXSW2019Practical Machine Ethics @ SXSW2019
Practical Machine Ethics @ SXSW2019
Jesus Ramos
 
Inferencia Estadística para Periodistas
Inferencia Estadística para PeriodistasInferencia Estadística para Periodistas
Inferencia Estadística para Periodistas
Jesus Ramos
 
Data Quality for Data Science Projects
Data Quality for Data Science ProjectsData Quality for Data Science Projects
Data Quality for Data Science Projects
Jesus Ramos
 
Algorithmic Transparency
Algorithmic TransparencyAlgorithmic Transparency
Algorithmic Transparency
Jesus Ramos
 
Mexican Landscape of DS & AI
Mexican Landscape of DS & AIMexican Landscape of DS & AI
Mexican Landscape of DS & AI
Jesus Ramos
 
Machine Learning For Organizations
Machine Learning For OrganizationsMachine Learning For Organizations
Machine Learning For Organizations
Jesus Ramos
 
Wonderful Wacky Wide World of Data Analysis Applications
Wonderful Wacky Wide World of Data Analysis ApplicationsWonderful Wacky Wide World of Data Analysis Applications
Wonderful Wacky Wide World of Data Analysis Applications
Jesus Ramos
 
Big Data, Big Flops: The gag reel of algorithms
Big Data, Big Flops: The gag reel of algorithmsBig Data, Big Flops: The gag reel of algorithms
Big Data, Big Flops: The gag reel of algorithms
Jesus Ramos
 
Big Data, Big Disappointment (@TheDataPub)
Big Data, Big Disappointment (@TheDataPub)Big Data, Big Disappointment (@TheDataPub)
Big Data, Big Disappointment (@TheDataPub)
Jesus Ramos
 
Big Data, Big Disappointment
Big Data, Big DisappointmentBig Data, Big Disappointment
Big Data, Big Disappointment
Jesus Ramos
 

Más de Jesus Ramos (11)

Formando Equipos de Ciencia de Datos
Formando Equipos de Ciencia de DatosFormando Equipos de Ciencia de Datos
Formando Equipos de Ciencia de Datos
 
Practical Machine Ethics @ SXSW2019
Practical Machine Ethics @ SXSW2019Practical Machine Ethics @ SXSW2019
Practical Machine Ethics @ SXSW2019
 
Inferencia Estadística para Periodistas
Inferencia Estadística para PeriodistasInferencia Estadística para Periodistas
Inferencia Estadística para Periodistas
 
Data Quality for Data Science Projects
Data Quality for Data Science ProjectsData Quality for Data Science Projects
Data Quality for Data Science Projects
 
Algorithmic Transparency
Algorithmic TransparencyAlgorithmic Transparency
Algorithmic Transparency
 
Mexican Landscape of DS & AI
Mexican Landscape of DS & AIMexican Landscape of DS & AI
Mexican Landscape of DS & AI
 
Machine Learning For Organizations
Machine Learning For OrganizationsMachine Learning For Organizations
Machine Learning For Organizations
 
Wonderful Wacky Wide World of Data Analysis Applications
Wonderful Wacky Wide World of Data Analysis ApplicationsWonderful Wacky Wide World of Data Analysis Applications
Wonderful Wacky Wide World of Data Analysis Applications
 
Big Data, Big Flops: The gag reel of algorithms
Big Data, Big Flops: The gag reel of algorithmsBig Data, Big Flops: The gag reel of algorithms
Big Data, Big Flops: The gag reel of algorithms
 
Big Data, Big Disappointment (@TheDataPub)
Big Data, Big Disappointment (@TheDataPub)Big Data, Big Disappointment (@TheDataPub)
Big Data, Big Disappointment (@TheDataPub)
 
Big Data, Big Disappointment
Big Data, Big DisappointmentBig Data, Big Disappointment
Big Data, Big Disappointment
 

Último

DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
mvargasleveau
 
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
defola5717
 
3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt
nahumrondanurbano
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
AaronPleitez
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
brayansangar73
 
nombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docxnombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docx
silvanasotos
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
IrapuatoCmovamos
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
SantiagoMejia99
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Emisor Digital
 
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdfMinería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
MedTechBiz
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
diegozuniga768
 
Sistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 cursoSistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 curso
NereaMolina10
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
GustavoTello19
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
IrapuatoCmovamos
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
MarcoPolo545324
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
christianllacchasand
 
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdfEncuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
DivergenteDespierto
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
DieguinhoSalazar
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
DilmerCarranza
 
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdfSemana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
WendyMLaura
 

Último (20)

DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
 
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
Obligaciones_de_los_Municipios_y_Departamentos_en_los_Determinantes_Ambiental...
 
3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
 
nombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docxnombres de las unidades y situacion significativa 2024.docx
nombres de las unidades y situacion significativa 2024.docx
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
 
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdfMinería de Datos e IA  Conceptos, Fundamentos y Aplicaciones.pdf
Minería de Datos e IA Conceptos, Fundamentos y Aplicaciones.pdf
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
 
Sistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 cursoSistema informatico, power point asir 1 curso
Sistema informatico, power point asir 1 curso
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
 
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdfEncuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
Encuesta CATI Verdad Venezuela abril 2024 (PÚBLICO).pdf
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
 
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdfSemana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
Semana 09 - Tema 02 Dinámica de cuentas del plan contable.pdf
 

Historias de Ciencia de Datos desde la Trinchera

  • 1. 1 Historias de DS desde la trinchera Historias malas, buenas, y feas, mexicanas, y del mundo. Copyright © @xuxoramos 2017
  • 2. "All models are wrong, but some are useful" - George E.P. Box 2
  • 4. Cómo lo logra? Balanceando componentes del error 4Copyright © @xuxoramos 2017
  • 8. X1 X2 YX3 X4 X5 X6
  • 9. X1 X2 YX3 X4 X5 X6 X7 X8
  • 10.
  • 11. ¡Aquí es donde se concentran mates, estadística, lógica y ética! - Lógica para tener higiene argumentativa y hacer la pregunta correcta - Estadística para evaluar la aportación de información de éstas - Mates para modelar este conjunto y reflejar fielmente la realidad - Ética para reconocer sesgos y tratarlos 11
  • 12. ...Y donde más se equivoca la gente. A veces a propósito... 12
  • 14. "DS done right" 14Copyright © @xuxoramos 2017
  • 16. Google Img Classifier 16Copyright © @xuxoramos 2017
  • 18. Google Flu Trends 18Copyright © @xuxoramos 2017
  • 19. Solid Gold Bomb 19Copyright © @xuxoramos 2017
  • 20. Score de reincidencia 20Copyright © @xuxoramos 2017
  • 21. 2008 Subprime Mortgage Crisis 21Copyright © @xuxoramos 2017
  • 23. Y México? 23Copyright © @xuxoramos 2017 - Telcel identifica con clustering un grupo de usrs que consume $7,000 MXN de tiempo aire en prepago. - Con aprendizaje supervisado crea un producto de crédito para estos clientes. - Le trae 4mdp anuales en facturación. - Luego hacen georeferenciación de estos clientes. - Todos están en Sinaloa y Tamaulipas. - ¿Qué tipo de personas creen que eran?
  • 24. Y México? 24Copyright © @xuxoramos 2017 - Durante el sismo del 19S, Codeando México atrae un grupo de programadores que quieren entrenar una red neuronal para detectar daño estrucural con fotos de TW. - Todas las fotos están taggeadas con #RevisaMiGrieta, pero son solo 600. - Las redes neuronales necesitan decenas de miles de fotos, de lo contrario arrojarán muchos falsos positivos y falsos negativos. - ¿Qué costo social pueden tener estas equivocaciones?
  • 25. ¿Cómo anda MX en análisis de datos? 113K Ingenieros de Software al año. 350 Matemáticos, físicos y estadísticos. No se conoce la diferencia entre Data Scientist (DS) y Data Engineer (DE). Tenemos miles de Data Engineers talentosos. No tenemos casi Data Scientists. Tenemos muchos DE queriendo ser DS sin las bases de mates o proba. + 25Copyright © @xuxoramos 2017
  • 26. ¿Cómo anda MX en análisis de datos? En 1982 México le entró al modelo neoliberal con la economía de maquila. La SEP instruyó al sistema educativo eliminar la filosofía y mates de las ingenierías. Era más importante producir gente con capacidades secundarias, repetibles y transferibles, que crear conocimiento. La ingeniería en compu es la más afectada. La reducen a recetas de cocina. Algunas universidades autónomas se salvan. Fast forward a 2018: 11 generaciones de ingenieros que razonan con falacias, y cuyas matemáticas más avanzadas llegan solo a cálculo. + 26Copyright © @xuxoramos 2017
  • 27. Con todo esto, ¿debemos convertirnos en hub de talento para DS? 27
  • 28. ¿Qué tenemos en contra? La frontera norte se cierra a nuestros productos y servicios. Poco petróleo, y a precio muy bajo. Corrupción rampante. Mercado interno débil. Variables macroeconómicas malas. La "mano de obra barata" no será relevante en la era de la automatización. 28Copyright © @xuxoramos 2017
  • 29. Debe México convertirse en un hub de Ciencia de Datos? Sí. 29Copyright © @xuxoramos 2017
  • 30. Cómo pueden ayudar? Entra a un programa académico completo. Regresa a la escuela a aprender mates. Usa la educación abierta en internet para hacer tu propia maestría. Únete a grupos profesionales. Únete a comunidades. 30Copyright © @xuxoramos 2017
  • 31. Mates aplicadas @ ITAM, UNAM, IPN Física @ UNAM Economía @ ITAM, UNAM MSc Ciencia de Datos @ ITAM MSc Inteligencia Analítica @ UAnáhuac MSc Ciencia de Datos @ CIMAT Programas académicos en MX* + * Evaluación de 63 candidatos para posiciones de Ciencia de Datos en Bolsa Mexicana de Valores, GBM, TERAN/TBWA, Klustera, Globant, OPI y ConCrédito. 31Copyright © @xuxoramos 2017
  • 32. Intro to Mathematical Thinking: Stanford + Coursera Intro to Logic: Stanford + Coursera Business Analytics: Wharton + Coursera Data Science Specialization: JHU + Coursera Machine Learning: Stanford + Coursera Executive Data Science: JHU + Coursera "Hága su propia maestría"* * Ver ratings de cursos en https://www.class-central.com/ 32Copyright © @xuxoramos 2017
  • 33. The Data Pub (FB: /thedatapub, TW: @thedatapub) +1800 miembros. Meetups cada último Jueves del mes. Cursos de Stats & Machine Learning para Developers. Job posting - porque las empresas están perdidas. Badges - porque los endorsements de LinkedIn son "la hoguera de las vanidades". Hackathones: Walmart, Grupo Modelo. Grupos Profesionales 33Copyright © @xuxoramos 2017
  • 34. El Juramento del Científico de Datos 34
  • 36. 36