Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

WTF with Big Data?

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Cargando en…3
×

Eche un vistazo a continuación

1 de 70 Anuncio
Anuncio

Más Contenido Relacionado

Presentaciones para usted (19)

Similares a WTF with Big Data? (20)

Anuncio

Más reciente (20)

Anuncio

WTF with Big Data?

  1. 1. WTF with Big Data? Conceptos, use-cases, y advertencias para una buena práctica Jesús Ramos TW: @xuxoramos FB: /xuxoramos Email: jesus@datank.ai 1
  2. 2. Quién soy? 1. ISC02 (ITESM). 2. Financial Econometrics (UNottingham + UWashington) 3. Graduado de la Data Science Specialization de Coursera + JHU. 4. Consultado con 6 firmas para levantar capacidades analíticas (BMV, Indeval, GBM, ConCrédito, Propiedades.com, Nestlé, etc). 5. Cofundador de @TheDataPub, la comunidad de Ciencia de Datos más grande de México. 6. COO en Datank.ai. 7. Anti-buzzwords, anti-hype: Data Gestapo. 8. Gamer los sábados. Foodie los domingos. 2
  3. 3. Qué busco esta noche? Que sepan la diferencia entre Big Data, Data Science, Business Intelligence, Machine Learning y AI. Que puedan ver más allá de los sales pitches de los IT vendors. Que sepan qué se puede hacer y qué han hecho otras industrias con ML. Que conozcan los retos más grandes para traer DS y ML a las empresas. Que reconozcan por qué es crítico para México especializarse en DS y ML. 3
  4. 4. Cómo trabajaremos? Parte I: Definiciones (para el taller y para la vida) - 40 min. Parte II: Use cases (malos y buenos) - 20 min. Parte III: Por qué los proyectos de ML fallan? - 20 min. Parte IV: Qué necesita México para ser referente de ML? - 20 min. 4
  5. 5. Parte I Definiciones "Data is the new oil? Qué es Big Data? Qué es Analytics? Qué es BI? Qué es Data Science? Qué es Machine Learning? Qué es Artificial Intelligence? 5
  6. 6. @xuxoramos Qué tiene diferente la economía de datos? 6
  7. 7. @xuxoramos Qué tiene diferente la economía de datos? Escasez 7
  8. 8. @xuxoramos Qué tiene diferente la economía de datos? Escasez Capital + Mano de obra = Bienes y Servicios 8
  9. 9. @xuxoramos Qué tiene diferente la economía de datos? Escasez Abundancia VS Capital + Mano de obra = Bienes y Servicios 9
  10. 10. @xuxoramos Qué tiene diferente la economía de datos? Escasez Abundancia VS Capital + Mano de obra = Bienes y Servicios Capital + Mano de Obra + DATA = Bienes y Servicios Inteligentes 10
  11. 11. @xuxoramos Qué tiene diferente la economía de datos? Escasez Abundancia VS Capital + Mano de obra = Bienes y Servicios Capital + Mano de Obra + DATA = Bienes y Servicios Inteligentes 11
  12. 12. @xuxoramos Cuánto vale esto? 12
  13. 13. @xuxoramos Cuánto vale esto? $19mmdd 13
  14. 14. @xuxoramos Cuánto vale esto? $19mmdd $2.5mdd 14
  15. 15. @xuxoramos Cuánto vale esto? $19mmdd $2.5mdd $990mdd 15
  16. 16. @xuxoramos Cuánto vale esto? $19mmdd $2.5mdd $990mdd Ca$h Flow? 16
  17. 17. @xuxoramos Cuánto vale esto? $19mmdd $2.5mdd $990mdd Ca$h Flow? 17
  18. 18. @xuxoramos Cuánto vale esto? $19mmdd $2.5mdd $990mdd DATA* * https://techcrunch.com/2015/10/13/whats-the-value-of-your-data/ 18
  19. 19. @xuxoramos Cuánto vale esto? 19
  20. 20. @xuxoramos Cuánto vale esto? 20 $80mmddEn intangibles (i.e. DATA!) 12% del PIB Mexicano atribuible a servicios!
  21. 21. Entonces qué es "big data"? 21
  22. 22. @xuxoramos Definición "Big Data" 22 Servers, pipelines, cloud infra, boxes para procesar y mover datos
  23. 23. @xuxoramos Definición "Big Data" 23 Servers, pipelines, cloud infra, boxes para procesar y mover datos
  24. 24. @xuxoramos Definición "Big Data" 24 Servers, pipelines, cloud infra, boxes para procesar y mover datos El conocimiento que sacamos de estos datos.
  25. 25. @xuxoramos Definición "Big Data" 25 Big Data Analytics
  26. 26. @xuxoramos Definición "Big Data" 26 Una empresa que tiene: - Tablas (+120 columnas, 1M renglones, 6TB) - Texto (2K páginas) - Social (5K seguidores, 10 TW/posts x seguidor) - Vídeo (20TB) - Y puede/espera monetizar todo. - Entonces si tiene Big Data.
  27. 27. "Big data needs Analytics. Analytics doesn't need big data" - Carla Gentry 27
  28. 28. Qué es "Analytics"? 28
  29. 29. "Describir un conjunto de datos en sus cantidades, tiempos, factores, frecuencias, e inferir algo que afecte mi realidad." 29
  30. 30. @xuxoramos Qué es "Analytics"? 30
  31. 31. @xuxoramos Qué es "Analytics"? 31
  32. 32. Qué es "Data Science"? 32
  33. 33. Mates, vueltas "operacionales". 33
  34. 34. @xuxoramos Qué distingue BI de Data Science? 34
  35. 35. @xuxoramos Qué compone a Data Science? 35
  36. 36. Qué es "Machine Learning"? 36
  37. 37. @xuxoramos Qué es ML? "Descubrimiento de funciones que partan el espacio de datos, ajusten a una curva sin conocer su orígen, o detecten grupos emergentes." - Dr. Fernando Esponda (ITAM) 37
  38. 38. @xuxoramos Qué diferencia tiene con Desarrollo de SW? 38 Máquina Programa Datos Contexto Resultado de negocio Proyectos de Software Máquina Resultado de negocio Datos Contexto Programa Proyectos de Machine Learning
  39. 39. @xuxoramos Objetivo del Machine Learning 39 Identificar patrones equivocándose lo menor posible.
  40. 40. @xuxoramos Cómo lo logra? 40 Balanceando componentes del error: sesgo + varianza.
  41. 41. @xuxoramos Cómo balanceamos? 41 A mayor número de variables, mayor complejidad. También mayor varianza. Y menor sesgo.
  42. 42. @xuxoramos Usos del Machine Learning 42 Clasificación Partir el espacio de datos en N categorías con funciones.
  43. 43. @xuxoramos Usos del Machine Learning 43 Regresión Función que se ajuste al espacio de datos.
  44. 44. @xuxoramos Usos del Machine Learning 44 Agrupamiento/ Clustering No supervisado! Descubrimiento de grupos emergentes.
  45. 45. @xuxoramos Usos del Machine Learning 45 Reducción de dimensionalidad Proyectar el espacio de datos a una sola dimensión y evaluar pérdida de información.
  46. 46. Y qué es Artificial Intelligence? 46
  47. 47. @xuxoramos Qué es AI? 47 Actuar racionalmente Actuar como humano Pensar como humano Pensar racionalmente
  48. 48. @xuxoramos Qué es AI? 48 Actuar racionalmente Actuar como humano Pensar como humano Pensar racionalmente
  49. 49. Parte II Use Cases (buenos y malos) - Buenos - Banca - Telco - Logística - Remesas - Medios - Malos - Fashion - Internet - Telco - Twitter - Salud 49
  50. 50. Los Buenos 50
  51. 51. Importante Financiera Mexicana 1. Conversión de cliente de nómina a TC en 29%. 2. $2.7mmdp en revenue al año desde 2010. 3. Cómo lo hizo? 4. Clasificación! 51
  52. 52. UPS 1. Ahorro de combustible haciendo que camiones sólo den vuelta a la derecha. 2. Ahorro de $47mdd al año. 3. Cómo lo hicieron? 4. Diseño de experimentos! 52
  53. 53. Importante Telco Mexicana 1. Identificación de usrs consumiendo $7K MXN semanales de tiempo aire en prepago. 2. Creación de producto de crédito de tiempo aire de hasta $2K. 3. $4mmdp al año de revenue. 4. Cómo lo hicieron? 5. Clustering! 53
  54. 54. Western Union 1. Prevención de fraude en remesas en automático y personalizado. 2. $32mdd en ahorro operativo en 2012. $21mdd son de transacciones detenidas al momento. 3. Cómo le hicieron? 4. Clasificación! 5. Similar a algoritmos de spam/ham. 54
  55. 55. Importante Grupo Editorial 1. Bajar bounce rate y mantener al visitante en sitios de las marcas del grupo. 2. Aumentar ad impressions. 3. Cómo lo están haciendo? 4. Recommender Systems! 55
  56. 56. Los Malos 56
  57. 57. Los Malos Importante Telco Mexicana Google Microsoft Google Walmart 2008 Financial Crisis Trump Victory 57
  58. 58. Parte III Por qué fallan los proyectos de ML y DS? Una breve historia Barreras a la adopción 58
  59. 59. Historia de un Proyecto de "Pig Data" 59 CTOs drink the "Big Data" kool-aid and call their "buddy" at an IT Vendor. Vendor promises unprecedented return if firm buys their "fridges". Board grants budget out of ignorance. CTO buys boxes. CTO migrates DWH from RDBMS to Hadoop. For them, this is DS. Next Q arrives. No ROI. Project canceled. Boxes returned. CTO no longer able to innovate. SWEngs quit and call themselves DS.
  60. 60. Barreras a la adopción Costo / Tiempo Organizacionales Culturales 60
  61. 61. Barrera de Costo / Tiempo - Ecosistema de datos fragmentado - Levantarlo es costoso (2 años para una organización mediana) - Solo sirve para fines normativos - Operación siempre va más rápido que IT 61
  62. 62. Barrera Organizacional: Dónde debe vivir DS? 62
  63. 63. Barrera Organizacional: Dónde vive realmente? 63
  64. 64. Barrera Cultural 64 Sin preguntas correctas Sin mindset correcto Sin leverage organizacio nal
  65. 65. Barrera Cultural 65
  66. 66. Parte IV El caso de México Deficiencias en Talent Pool Escenario Macroeconómico 66
  67. 67. Cómo anda México en DS y ML? 67 113K Ingenieros de Software al año. 350 Matemáticos, actuarios, físicos y estadísticos. No se conoce la diferencia entre Data Scientist (DS) y Data Engineer (DE). Tenemos miles de Data Engineers chingones. No tenemos casi Científicos de Datos. Tenemos muchos DE queriendo ser DS cuando no saben ni proba.
  68. 68. Qué tenemos en nuestra contra? 68 La frontera norte se cierra a nuestros productos y servicios. Poco petróleo, y a precio muy bajo. Corrupción rampante. Mercado interno débil. Variables macroeconómicas malas. La "mano de obra barata" no será relevante en la era de la automatización.
  69. 69. Cómo lo hacemos bien? 1. Estableciendo un Repositorio Central de Datos a. Reportería normativa b. Operativa / BI c. Data Science / Machine Learning 2. Patrocinando estos proyectos desde el más alto nivel a. Compromiso de recursos a largo plazo b. No tratarlos como proyectos de SW c. Reporte directo de Analytics / Data Science al CEO 3. Contratando correctamente a. Business first, Math second, Technology Third. b. IT no es suficiente. 69
  70. 70. Gracias Jesús Ramos TW: @xuxoramos FB: /xuxoramos Email: jesus@datank.ai 70

×