SlideShare una empresa de Scribd logo
BIG DATA 30 MIN HOW TO
September 2014
M. en I. Tenoch Gonzalez
tenoch@ieee.org
@tenoch_g
Linkedin.com/in/tenochgonzalez
CAFETERA CONECTADA A TWITTER!
QUE ES BIG DATA
Conjuntos de datos que son muy grandes para
manipular con métodos o herramientas estándar.
QUE ES BIG DATA
Conjuntos de datos que son muy grandes para
manipular con métodos o herramientas estándar.
QUE ES BIG DATA
Gartner usa las siguientes v’s
para hablar de Big Data.
• volumen la cantidad de
data.
• velocidad la velocidad en
que se genera y fluye la
información en la empresa.
• variedad el tipo de data
disponible.
• veracidad que tan
confiable es la información.
• valor que representa para
la empresa.
QUE ES BIG DATA
Gartner usa las siguientes v’s
para hablar de Big Data.
• volumen la cantidad de
data.
• velocidad la velocidad en
que se genera y fluye la
información en la empresa.
• variedad el tipo de data
disponible.
• veracidad que tan
confiable es la información.
• valor que representa para
la empresa.
BIG DATA DESCRIPCIÓN GRÁFICA.
DE DONDE SALIERON
TANTOS DATOS?
Google propuso soluciones a sus problemas de
almacenamiento, consulta y procesamiento de información:
Google File System y Map Reduce
CUANDO TIENES UN
MARTILLO TODO SE VE
COMO UN CLAVO.
UNA BUENA SOLUCIÓN
SIRVE PARA MÁS DE UN
PROBLEMA.
COMO EMPEZAR!
Is the Data!
Is the Data!
Vamos con una historia…
HISTORIA DE HORROR.
PORQUE PREOCUPARSE?
Se supone que los científicos de
datos son magos no?
UN ALGORITMOS SÓLO ES TAN BUENO COMO
LOS DATOS CON LOS QUE LOS ALIMENTAS
NO IMPORTA EL TAMAÑO DE TU
PROYECTO.
Tu data set debe
ser
Completo.
Correcto.
Conectable
.
Que es critico para tu negocio?
Están los campos críticos para la empresa
guardados en el sistema?
… guardamos las urls que referimos
http://example.com/123?referrer=ourclient.com
COMPLETO
Que es critico para tu negocio?
Están los campos críticos para la empresa
guardados en el sistema?
… guardamos las urls que referimos
http://example.com/123?referrer=ourclient.com
Campo critico para el negocio
referrer=ourclient.com
COMPLETO
Volumen.
Se están guardando tantos datos como
esperas?
Google analytics dice que tienes 50,000
visitas y tu tienes datos de 500 :S
Perdiendo 99% de los datos.
Revisa el volumen.
COMPLETO
Captura eventos no sólo
errores!
Todo lo que hacen en tu
app, sitio, servicio, etc.
COMPLETO
Fecha del servicio.
Hora que se buscó el viaje.
Lugar y hora de origen.
Lugar y hora de destino.
Tiempo del viaje.
Clima
Monto de la transacción.
Cliente
SERVICIO DE TRANSPORTE DE PASAJEROS
Fecha del servicio.
Hora que se buscó el viaje.
Lugar y hora de origen.
Lugar y hora de destino.
Tiempo del viaje.
Clima.
Monto de la transacción.
Cliente.
VIAJES
Fecha del servicio.
Hora que se buscó el viaje.
Lugar y hora de origen.
Lugar y hora de destino.
Tiempo del viaje.
Clima.
VIAJES
SÓLO CAPTURABAN:
Monto de la transacción.
Cliente.
THE HORROR!!!
REVISA CONTRA EL SENTIDO COMÚN.
CORRECTO
M : 579
H : 6870
??????
Por mucho
tiempo no se
capturaba el
genero del
usuario y en
los datos se
hacía default a
‘M’
REVISAN Y LOS RESULTADOS
NO SABES?
NULL
‘’
Unique ID?
CONECTABLE??
No hacemos e-commerce…
La mayoría de las compañías de
retail/financieras no llevan la conexión
entre el cliente y la compra.
CONECTABLE??
CONECTABLE??
3ª vez mi numero de
cliente???
HERRAMIENTAS UTILES EN EL CAMPO
Conjunto de utilerías que permiten trabajar
los logs desde terminal.
En python
Está en github
pip install csvkit
Está en github
JSON, SQL
CSVKIT
Utilerías en línea de comandos para
análisis de datos.
En python
Está en github
pip install data_hacks
Está en github
JSON, SQL
DATA_HACKS
DATA_HACKS
iPython
Numpy
Scipy
PyMC
Matplotlib
Pandas
COMO SE TRABAJA CON LOS DATOS?
NO ES “FÁCIL” PERO ES POSIBLE.
PORQUE HACER ESTO?
5 Historias de éxito con
ciencia de datos.
SISTEMA DE RECOMENDACIONES BASADO EN
LO QUE HAZ VISTO, COMPRADO Y WISH LIST
PUBLICIDAD ENFOCADA A PERFILES ESPECIFICOS…
QUE PERSONAS ES MAS PROBABLE QUE CAMBIEN SU
VOTO SI SE LES CONTACTAY PORQUE MEDIO. EL
EQUIPO SE ADJUDICA 3 A 4% DE VENTAJA.
PUBLICIDAD ENFOCADA POR REGIÓN NO POR PAÍS.
SE ALIO CON SAP ANALISIS DEL EQUIPO E
INDIVIDUAL. LOGRARON BAJAR EL TIEMPO
DE POSESIÓN DE 3.4 A 1.1 SEGUNDOS
CIENCIA DE DATOS ES DE CAMPEONES!
TE DAMOS TODA LA PERSPECTIVA
tenoch@ieee.org @tenoch_g

Más contenido relacionado

Similar a Big data data How to y casos de exito

Utilice el CRO para maximizar las conversiones de tus activos digitales -Un m...
Utilice el CRO para maximizar las conversiones de tus activos digitales -Un m...Utilice el CRO para maximizar las conversiones de tus activos digitales -Un m...
Utilice el CRO para maximizar las conversiones de tus activos digitales -Un m...
VWO
 
Cómo superar con éxito tu próxima entrevista de trabajo online.
Cómo superar con éxito tu próxima entrevista de trabajo online.Cómo superar con éxito tu próxima entrevista de trabajo online.
Cómo superar con éxito tu próxima entrevista de trabajo online.
Aumenta
 
Traiga su propio dispositivo/datos
Traiga su propio dispositivo/datosTraiga su propio dispositivo/datos
Traiga su propio dispositivo/datos
Data IQ Argentina
 
Presentación David Aleman - eCommerce Day Ecuador 2017
Presentación David Aleman - eCommerce Day Ecuador 2017Presentación David Aleman - eCommerce Day Ecuador 2017
Presentación David Aleman - eCommerce Day Ecuador 2017
eCommerce Institute
 
Taller marketing digital Endeavor - Google
Taller marketing digital Endeavor - Google Taller marketing digital Endeavor - Google
Taller marketing digital Endeavor - Google
Endeavor colombia
 
Presentación Corporativa de Analytics.
Presentación Corporativa de Analytics.Presentación Corporativa de Analytics.
Presentación Corporativa de Analytics.
BUSINESS ANALYTICS SAC
 
Datos y marco legal. las nuevas fronteras del negocio
Datos y marco legal. las nuevas fronteras del negocio Datos y marco legal. las nuevas fronteras del negocio
Datos y marco legal. las nuevas fronteras del negocio
Pepe Cerezo
 
Hacia una buena comunicación en un entorno de complejidad: Planificación estr...
Hacia una buena comunicación en un entorno de complejidad: Planificación estr...Hacia una buena comunicación en un entorno de complejidad: Planificación estr...
Hacia una buena comunicación en un entorno de complejidad: Planificación estr...
Fundación CiGob
 
Curso Exprés Herramientas Marketing Digital (Red de Asesores TIC CLM)
Curso Exprés Herramientas Marketing Digital (Red de Asesores TIC CLM)Curso Exprés Herramientas Marketing Digital (Red de Asesores TIC CLM)
Curso Exprés Herramientas Marketing Digital (Red de Asesores TIC CLM)
Centro de Desarrollo de Competencias Digitales de Castilla-La Mancha
 
Digital Intelligence
Digital IntelligenceDigital Intelligence
Digital Intelligence
Juan Carlos Briceño Trujillo
 
Primeros pasos hacia el Big Data - OMExpo 2015
Primeros pasos hacia el Big Data - OMExpo 2015Primeros pasos hacia el Big Data - OMExpo 2015
Primeros pasos hacia el Big Data - OMExpo 2015
David Olivares
 
Patty Yunen - eCommerce Day República Dominicana Blended [Professional] Exper...
Patty Yunen - eCommerce Day República Dominicana Blended [Professional] Exper...Patty Yunen - eCommerce Day República Dominicana Blended [Professional] Exper...
Patty Yunen - eCommerce Day República Dominicana Blended [Professional] Exper...
eCommerce Institute
 
Seminario:¿Cómo convertir los usuarios online en clientes tips y casos práct...
Seminario:¿Cómo convertir los usuarios online  en clientes tips y casos práct...Seminario:¿Cómo convertir los usuarios online  en clientes tips y casos práct...
Seminario:¿Cómo convertir los usuarios online en clientes tips y casos práct...
Cámara Argentina de Comercio Electrónico
 
Gestion de eventos de moda
Gestion de eventos de modaGestion de eventos de moda
Gestion de eventos de moda
Magda Victoria Restrepo Moná
 
PORTAFOLIO.FOCUS
PORTAFOLIO.FOCUSPORTAFOLIO.FOCUS
PORTAFOLIO.FOCUS
Carlos M
 
Big Data y el Turismo
Big Data y el TurismoBig Data y el Turismo
Big Data y el Turismo
Silvia Rojas
 
Caterina Signorino - eAnalytics Experience - eRetail Week LATAM Online [Live]...
Caterina Signorino - eAnalytics Experience - eRetail Week LATAM Online [Live]...Caterina Signorino - eAnalytics Experience - eRetail Week LATAM Online [Live]...
Caterina Signorino - eAnalytics Experience - eRetail Week LATAM Online [Live]...
eCommerce Institute
 
Antonio carletto panel de database
Antonio carletto   panel de databaseAntonio carletto   panel de database
Antonio carletto panel de database
amdia
 
The Lean Startup Hacker
The Lean Startup HackerThe Lean Startup Hacker
The Lean Startup Hacker
Ernesto Tagwerker
 
El año 2016 será de video en LaTam. tradigitaline - #TDL (marketing mix)
El año 2016 será de video en LaTam. tradigitaline - #TDL (marketing mix)El año 2016 será de video en LaTam. tradigitaline - #TDL (marketing mix)
El año 2016 será de video en LaTam. tradigitaline - #TDL (marketing mix)
Andres Venegas Piedrahita
 

Similar a Big data data How to y casos de exito (20)

Utilice el CRO para maximizar las conversiones de tus activos digitales -Un m...
Utilice el CRO para maximizar las conversiones de tus activos digitales -Un m...Utilice el CRO para maximizar las conversiones de tus activos digitales -Un m...
Utilice el CRO para maximizar las conversiones de tus activos digitales -Un m...
 
Cómo superar con éxito tu próxima entrevista de trabajo online.
Cómo superar con éxito tu próxima entrevista de trabajo online.Cómo superar con éxito tu próxima entrevista de trabajo online.
Cómo superar con éxito tu próxima entrevista de trabajo online.
 
Traiga su propio dispositivo/datos
Traiga su propio dispositivo/datosTraiga su propio dispositivo/datos
Traiga su propio dispositivo/datos
 
Presentación David Aleman - eCommerce Day Ecuador 2017
Presentación David Aleman - eCommerce Day Ecuador 2017Presentación David Aleman - eCommerce Day Ecuador 2017
Presentación David Aleman - eCommerce Day Ecuador 2017
 
Taller marketing digital Endeavor - Google
Taller marketing digital Endeavor - Google Taller marketing digital Endeavor - Google
Taller marketing digital Endeavor - Google
 
Presentación Corporativa de Analytics.
Presentación Corporativa de Analytics.Presentación Corporativa de Analytics.
Presentación Corporativa de Analytics.
 
Datos y marco legal. las nuevas fronteras del negocio
Datos y marco legal. las nuevas fronteras del negocio Datos y marco legal. las nuevas fronteras del negocio
Datos y marco legal. las nuevas fronteras del negocio
 
Hacia una buena comunicación en un entorno de complejidad: Planificación estr...
Hacia una buena comunicación en un entorno de complejidad: Planificación estr...Hacia una buena comunicación en un entorno de complejidad: Planificación estr...
Hacia una buena comunicación en un entorno de complejidad: Planificación estr...
 
Curso Exprés Herramientas Marketing Digital (Red de Asesores TIC CLM)
Curso Exprés Herramientas Marketing Digital (Red de Asesores TIC CLM)Curso Exprés Herramientas Marketing Digital (Red de Asesores TIC CLM)
Curso Exprés Herramientas Marketing Digital (Red de Asesores TIC CLM)
 
Digital Intelligence
Digital IntelligenceDigital Intelligence
Digital Intelligence
 
Primeros pasos hacia el Big Data - OMExpo 2015
Primeros pasos hacia el Big Data - OMExpo 2015Primeros pasos hacia el Big Data - OMExpo 2015
Primeros pasos hacia el Big Data - OMExpo 2015
 
Patty Yunen - eCommerce Day República Dominicana Blended [Professional] Exper...
Patty Yunen - eCommerce Day República Dominicana Blended [Professional] Exper...Patty Yunen - eCommerce Day República Dominicana Blended [Professional] Exper...
Patty Yunen - eCommerce Day República Dominicana Blended [Professional] Exper...
 
Seminario:¿Cómo convertir los usuarios online en clientes tips y casos práct...
Seminario:¿Cómo convertir los usuarios online  en clientes tips y casos práct...Seminario:¿Cómo convertir los usuarios online  en clientes tips y casos práct...
Seminario:¿Cómo convertir los usuarios online en clientes tips y casos práct...
 
Gestion de eventos de moda
Gestion de eventos de modaGestion de eventos de moda
Gestion de eventos de moda
 
PORTAFOLIO.FOCUS
PORTAFOLIO.FOCUSPORTAFOLIO.FOCUS
PORTAFOLIO.FOCUS
 
Big Data y el Turismo
Big Data y el TurismoBig Data y el Turismo
Big Data y el Turismo
 
Caterina Signorino - eAnalytics Experience - eRetail Week LATAM Online [Live]...
Caterina Signorino - eAnalytics Experience - eRetail Week LATAM Online [Live]...Caterina Signorino - eAnalytics Experience - eRetail Week LATAM Online [Live]...
Caterina Signorino - eAnalytics Experience - eRetail Week LATAM Online [Live]...
 
Antonio carletto panel de database
Antonio carletto   panel de databaseAntonio carletto   panel de database
Antonio carletto panel de database
 
The Lean Startup Hacker
The Lean Startup HackerThe Lean Startup Hacker
The Lean Startup Hacker
 
El año 2016 será de video en LaTam. tradigitaline - #TDL (marketing mix)
El año 2016 será de video en LaTam. tradigitaline - #TDL (marketing mix)El año 2016 será de video en LaTam. tradigitaline - #TDL (marketing mix)
El año 2016 será de video en LaTam. tradigitaline - #TDL (marketing mix)
 

Último

AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICOAVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
ronaldomarca1999
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
GustavoTello19
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
DilmerCarranza
 
Informe fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docxInforme fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docx
mirimerlos5
 
William James funcionalismo datos relevantes.pdf
William James funcionalismo datos relevantes.pdfWilliam James funcionalismo datos relevantes.pdf
William James funcionalismo datos relevantes.pdf
IvanNievesEspinoza
 
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllllANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
eliassalascolonia43
 
Plan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdfPlan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdf
agustincarranza11
 
resumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TIresumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TI
riveroarlett5b
 
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdfREPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
IrapuatoCmovamos
 
Presentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptxPresentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptx
eleandroth
 
Informe 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docx
Informe 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docxInforme 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docx
Informe 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docx
francescasansonikoga
 
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptxUGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
Mayra798665
 
INTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdfINTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdf
YulEz1
 
Reporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptx
Reporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptxReporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptx
Reporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptx
ZuppaSRL
 
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
hugowagner811
 
Libro - Teoria Historia de la Arquitectura
Libro - Teoria Historia de la ArquitecturaLibro - Teoria Historia de la Arquitectura
Libro - Teoria Historia de la Arquitectura
baceg35604
 
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
darkskills2011
 

Último (17)

AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICOAVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
 
Informe fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docxInforme fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docx
 
William James funcionalismo datos relevantes.pdf
William James funcionalismo datos relevantes.pdfWilliam James funcionalismo datos relevantes.pdf
William James funcionalismo datos relevantes.pdf
 
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllllANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
 
Plan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdfPlan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdf
 
resumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TIresumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TI
 
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdfREPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
 
Presentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptxPresentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptx
 
Informe 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docx
Informe 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docxInforme 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docx
Informe 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docx
 
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptxUGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
 
INTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdfINTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdf
 
Reporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptx
Reporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptxReporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptx
Reporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptx
 
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
 
Libro - Teoria Historia de la Arquitectura
Libro - Teoria Historia de la ArquitecturaLibro - Teoria Historia de la Arquitectura
Libro - Teoria Historia de la Arquitectura
 
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
 

Big data data How to y casos de exito

  • 1. BIG DATA 30 MIN HOW TO September 2014 M. en I. Tenoch Gonzalez tenoch@ieee.org @tenoch_g Linkedin.com/in/tenochgonzalez
  • 2.
  • 4. QUE ES BIG DATA Conjuntos de datos que son muy grandes para manipular con métodos o herramientas estándar.
  • 5. QUE ES BIG DATA Conjuntos de datos que son muy grandes para manipular con métodos o herramientas estándar.
  • 6. QUE ES BIG DATA Gartner usa las siguientes v’s para hablar de Big Data. • volumen la cantidad de data. • velocidad la velocidad en que se genera y fluye la información en la empresa. • variedad el tipo de data disponible. • veracidad que tan confiable es la información. • valor que representa para la empresa.
  • 7. QUE ES BIG DATA Gartner usa las siguientes v’s para hablar de Big Data. • volumen la cantidad de data. • velocidad la velocidad en que se genera y fluye la información en la empresa. • variedad el tipo de data disponible. • veracidad que tan confiable es la información. • valor que representa para la empresa.
  • 9. DE DONDE SALIERON TANTOS DATOS? Google propuso soluciones a sus problemas de almacenamiento, consulta y procesamiento de información: Google File System y Map Reduce
  • 10. CUANDO TIENES UN MARTILLO TODO SE VE COMO UN CLAVO.
  • 11. UNA BUENA SOLUCIÓN SIRVE PARA MÁS DE UN PROBLEMA.
  • 12. COMO EMPEZAR! Is the Data! Is the Data! Vamos con una historia…
  • 14. PORQUE PREOCUPARSE? Se supone que los científicos de datos son magos no?
  • 15. UN ALGORITMOS SÓLO ES TAN BUENO COMO LOS DATOS CON LOS QUE LOS ALIMENTAS
  • 16. NO IMPORTA EL TAMAÑO DE TU PROYECTO.
  • 17. Tu data set debe ser Completo. Correcto. Conectable .
  • 18. Que es critico para tu negocio? Están los campos críticos para la empresa guardados en el sistema? … guardamos las urls que referimos http://example.com/123?referrer=ourclient.com COMPLETO
  • 19. Que es critico para tu negocio? Están los campos críticos para la empresa guardados en el sistema? … guardamos las urls que referimos http://example.com/123?referrer=ourclient.com Campo critico para el negocio referrer=ourclient.com COMPLETO
  • 20. Volumen. Se están guardando tantos datos como esperas? Google analytics dice que tienes 50,000 visitas y tu tienes datos de 500 :S Perdiendo 99% de los datos. Revisa el volumen. COMPLETO
  • 21. Captura eventos no sólo errores! Todo lo que hacen en tu app, sitio, servicio, etc. COMPLETO
  • 22. Fecha del servicio. Hora que se buscó el viaje. Lugar y hora de origen. Lugar y hora de destino. Tiempo del viaje. Clima Monto de la transacción. Cliente SERVICIO DE TRANSPORTE DE PASAJEROS
  • 23. Fecha del servicio. Hora que se buscó el viaje. Lugar y hora de origen. Lugar y hora de destino. Tiempo del viaje. Clima. Monto de la transacción. Cliente. VIAJES
  • 24. Fecha del servicio. Hora que se buscó el viaje. Lugar y hora de origen. Lugar y hora de destino. Tiempo del viaje. Clima. VIAJES SÓLO CAPTURABAN: Monto de la transacción. Cliente. THE HORROR!!!
  • 25. REVISA CONTRA EL SENTIDO COMÚN. CORRECTO
  • 26. M : 579 H : 6870 ?????? Por mucho tiempo no se capturaba el genero del usuario y en los datos se hacía default a ‘M’ REVISAN Y LOS RESULTADOS
  • 29. No hacemos e-commerce… La mayoría de las compañías de retail/financieras no llevan la conexión entre el cliente y la compra. CONECTABLE??
  • 30. CONECTABLE?? 3ª vez mi numero de cliente???
  • 32. Conjunto de utilerías que permiten trabajar los logs desde terminal. En python Está en github pip install csvkit Está en github JSON, SQL CSVKIT
  • 33. Utilerías en línea de comandos para análisis de datos. En python Está en github pip install data_hacks Está en github JSON, SQL DATA_HACKS
  • 35. iPython Numpy Scipy PyMC Matplotlib Pandas COMO SE TRABAJA CON LOS DATOS? NO ES “FÁCIL” PERO ES POSIBLE.
  • 36. PORQUE HACER ESTO? 5 Historias de éxito con ciencia de datos.
  • 37. SISTEMA DE RECOMENDACIONES BASADO EN LO QUE HAZ VISTO, COMPRADO Y WISH LIST
  • 38. PUBLICIDAD ENFOCADA A PERFILES ESPECIFICOS…
  • 39. QUE PERSONAS ES MAS PROBABLE QUE CAMBIEN SU VOTO SI SE LES CONTACTAY PORQUE MEDIO. EL EQUIPO SE ADJUDICA 3 A 4% DE VENTAJA.
  • 40. PUBLICIDAD ENFOCADA POR REGIÓN NO POR PAÍS.
  • 41. SE ALIO CON SAP ANALISIS DEL EQUIPO E INDIVIDUAL. LOGRARON BAJAR EL TIEMPO DE POSESIÓN DE 3.4 A 1.1 SEGUNDOS
  • 42. CIENCIA DE DATOS ES DE CAMPEONES!
  • 43. TE DAMOS TODA LA PERSPECTIVA tenoch@ieee.org @tenoch_g

Notas del editor

  1. HOLA SOY