SlideShare una empresa de Scribd logo
1 de 37
Descargar para leer sin conexión
El Arte de la
Ciencia de Datos
Campus Party 2016
#DatosALoGrande
Presentación
- Machine Learning
Stanford
- Mining Massive Datasets
Stanford
- Process Mining
Eindhoven
- Data Analysis
John Hopkins
- Data Lakes for Big Data
EMC
- Big Data with Spark
Berkeley
Héctor Neri Cano
neri.cano@gmail.com
Data Science Enthusiast
Datos a lo Grande
Beneficios
• Resultados más precisos.
• Mejores recomendaciones.
• Los periodistas pueden analizar y entender mejor.
• Soluciones para el problema de tráfico en las ciudades.
• Predecir las enfermedades que cada persona pueda padecer.
• Encontrar la mejor cura y tratamiento personalizados.
Acciones impulsadas por Datos
• Aprender de los datos
• Convertir los datos en algo valioso
• Tomar decisiones basadas en los datos
• Crear productos y servicios impulsados por los datos
El Trabajo en Equipo es fundamental.
El tratamiento de los datos para extraer conocimiento,
es un arte y una ciencia.
Data Vincis
El rol de científico de datos se ha descrito como “parte
analista, parte artista”. De acuerdo a Anjul Bhambhri,
vicepresidente de productos de Big Data en IBM, “un
científico de datos es alguien inquisitivo, que puede mirar
a los datos y encontrar patrones. Es casi como un
individuo del Renacimiento que realmente quiere aprender
y traer cambio a una organización”.
Las 7 Artes Liberales
de la Ciencia de Datos
Trivium 1 (Dialéctica)
Análisis
Estadístico
Trivium 2 (Gramática)
Estructura
de Datos
Trivium 3 (Retórica)
Data Visualization
+ Open Data
Quadrivium 1 (Aritmética)
Big Data
Quadrivium 2 (Geometría)
Distributed
FileSystem
Quadrivium 3 (Música)
MapReduce
Quadrivium 4 (Astronomía)
Data Mining
El Arte de
Analizar Datos
El Científico de Datos
Un científico de datos
debe reunir y aplicar
herramientas adecuadas
a los datos para
responder una pregunta
relevante.
Actividades Centrales
1. Definir (y refinar) la pregunta
2. Explorar los datos
3. Construir modelos
estadísticos formales
4. Interpretar los resultados
5. Comunicar los resultados
El Epiciclo
de Análisis Ajustar las
expectativas
Se necesitará repasar
este epiciclo
continuamente para
refinar las
actividades centrales.
Recolectar
información
(datos)
Comparar tu
información o
datos con tus
expectativas
Corregir tus
expectativas
o arreglar
los datos
Definir la Pregunta
Muchas de las trampas
mortales de un análisis
de datos pueden ser
evitados al gastar
energía mental para
hacer que la pregunta
quede bien formulada.
Tipos de Preguntas
1. Descriptiva
2. Exploratoria
3. Inferencial
4. Predictiva
5. Causal
6. Mecánica
Pregunta
Descriptiva
Pregunta
Exploratoria
Pregunta
Inferencial
Pregunta
Predictiva
Pregunta
Causal
Pregunta
Mecánica
Características de
una Buena Pregunta
Ejemplo de una
Buena Pregunta
¿Comer 5 porciones de
fruta y vegetales frescos
se relaciona con menos
infecciones de las vías
respiratorias?
Debe ser de interés para tu
audiencia
No debe haber sido ya
respondida
Debe provenir de un cuadro de
trabajo plausible
Debe poder ser respondida con
los datos adquiribles
Debe ser lo suficientemente
específica
Traducir una pregunta
en un problema de datos
Piensa cómo lucirían los
resultados del análisis
de datos y cómo pueden
ser interpretados.
Evita preguntas que usan
datos inapropiados y con
una infinidad de
interpretaciones.
Asegurate que los datos
disponibles pueden
proveer los factores
necesarios para obtener
la respuesta.
Evita las Variables
de Confusión
Se presenta cuando un factor que
no se consideró está relacionado.
Se refiere a aquellas variables que
aparentemente son significativas,
pero que en realidad no lo son
porque son dependientes de otras
que no han sido consideradas.
Conviene identificar si el
dataset incluye información
acerca de estas potenciales
variables de confusión.
Evita la Parcialidad
(Bias)
Una selección parcializada
ocurre cuando los datos
inflan la proporción de la
gente que tiene más ciertas
características que la
población general.
Si la forma en que los
datos son recolectados
lleva a un resultado
parcializado, el
resultado no puede ser
bien interpretado.
La parcialidad puede ser un
problema si estás más (o
menos) propenso de observar
individuos con ciertos
factores debido a cómo la
población fue seleccionada.
Revisa tus datos
primero
Los datos
usualmente vendrán
en un formato muy
desordenado y
necesitarás hacer
algo de limpieza.
Con algunas cuantas
maniobras, puedes identificar
problemas potenciales con el
conjunto de datos antes de
que te enfrasques en un
complicado análisis de datos.
Frecuentemente es útil mirar
al “inicio” y al “final” de
un conjunto de datos. Esto te
permite conocer si los datos
fueron leídos propiamente, si
las cosas están propiamente
formateadas y si todo está en
su sitio.
Valida con al menos
una fuente externa
En Machine Learning, el
dataset es mejor separarlo
en 3 subconjuntos
Testing
Asegurarse de que los
datos concuerdan con algo
fuera de tu conjunto de
datos es muy importante.
Permite que te asegures
de que las medidas están
firmemente en línea con
lo que debe ser y sirve
como una revisión sobre
qué otras cosas podrían
estar mal en tu conjunto
de datos.
Aprendizaje
Validación
Intenta lo más fácil,
pero siempre desafialo
La intención de intentar
primero la solución más
fácil es ver cómo podría
proveerse evidencia ‘a
primera vista’.
Si no encuentras
evidencia en los datos
usando solo un simple
plot o análisis, entonces
frecuentemente es poco
probable que encuentres
algo en un análisis más
sofisticado.
Se debe siempre pensar
en formas de desafiar
los resultados,
especialmente si esos
resultados se comportan
según tus expectativas
previas.
Utiliza un modelo
razonable y útil.
Tener todos los datos es
importante, pero no siempre
es muy útil. Esto es debido
a que el modelo trivial (no
tener ni un solo modelo) no
provee ninguna reducción de
los datos. El primer
elemento clave de un modelo
estadístico es la reducción
de los datos.
La pregunta es si el
modelo provee una
aproximación razonable
que pueda ser útil.
Un modelo
estadístico
permite una
aleatoriedad
al generar
los datos.
El modelo es
esencialmente
una expectativa
de la relación
entre varios
factores del
mundo real en
tu conjunto de
datos.
¿Ciencia
de Datos?
Analítica de Datos
vs Ciencia de Datos
Descubrir aquellas
cosas que no sabemos
que desconocemos
Más que un
interés en
conocer
aquellas
cosas que no
conocemos
Ciencia de
Datos: Más
que muchas
disciplinas
y diversas
herramientas
Fuente: DataScientistInsight.com
.Aspecto Análitica de Datos Ciencia de Datos
Filosofía Saber Entender
Modelos Generados Descriptivos, Diagnósticos Predictivos, Prescriptivos
Nivel de Comprensión Aprendizaje Sencillo Aprendizaje Profundo
Resultados Operacionales y Tácticos Estratégicos y Generan Valor
Carga de Trabajo Repetitiva y Sistemática Experimental y Particular
Ámbito de Estudio Limitado y Específico Amplio y General
Variedad de Datos Datasets limitados y coherentes Ilimitados y formados flexibles
Veracidad de los Datos Calidad y Certeza Controlada Calidad y Certeza Desconocida
¿Dudas o Comentarios?
Héctor Neri Cano
neri.cano@gmail.com
www.datalab.mx
Muchas Gracias
por estar aquí

Más contenido relacionado

Destacado

Bases de datos de ciencia y tecnología
Bases de datos de ciencia y tecnología Bases de datos de ciencia y tecnología
Bases de datos de ciencia y tecnología María Camila Castillo
 
Optimizando la operación en campo
Optimizando la operación en campo Optimizando la operación en campo
Optimizando la operación en campo hobregon
 
Big Data: Buceando en océano de datos ¿Ciencia Ficción o Realidad?
Big Data: Buceando en océano de datos ¿Ciencia Ficción o Realidad?Big Data: Buceando en océano de datos ¿Ciencia Ficción o Realidad?
Big Data: Buceando en océano de datos ¿Ciencia Ficción o Realidad?Ignacio Villoch
 
Teorias cibernetica compensar
Teorias cibernetica compensarTeorias cibernetica compensar
Teorias cibernetica compensarocallepena
 
Búsqueda en base de datos. Scopus y Cinahl.
Búsqueda en base de datos. Scopus y Cinahl.Búsqueda en base de datos. Scopus y Cinahl.
Búsqueda en base de datos. Scopus y Cinahl.miguelprietomartinez
 
La cibernética exposicion
La cibernética exposicionLa cibernética exposicion
La cibernética exposicionLuisa Urda
 
Análisis de Interacción Espacial
Análisis de Interacción EspacialAnálisis de Interacción Espacial
Análisis de Interacción EspacialOsvaldo Hernandez
 
Mejores prácticas desarrollo de base de datos
Mejores prácticas desarrollo de base de datos Mejores prácticas desarrollo de base de datos
Mejores prácticas desarrollo de base de datos Eduardo Castro
 
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGIEjemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGIAbel Alejandro Coronado Iruegas
 
Estadistica y Machine Learning para Todos
Estadistica y Machine Learning para TodosEstadistica y Machine Learning para Todos
Estadistica y Machine Learning para TodosJesus Ramos
 
00 introducción a la ciencia small
00 introducción a la ciencia   small00 introducción a la ciencia   small
00 introducción a la ciencia smallEspaciotecnic
 
The CEO guide to China's future
The CEO guide to China's futureThe CEO guide to China's future
The CEO guide to China's futureMcKinsey & Company
 
Visual Design with Data
Visual Design with DataVisual Design with Data
Visual Design with DataSeth Familian
 

Destacado (20)

Bases de datos de ciencia y tecnología
Bases de datos de ciencia y tecnología Bases de datos de ciencia y tecnología
Bases de datos de ciencia y tecnología
 
Tecnología y-medio-ambiente
Tecnología y-medio-ambienteTecnología y-medio-ambiente
Tecnología y-medio-ambiente
 
Optimizando la operación en campo
Optimizando la operación en campo Optimizando la operación en campo
Optimizando la operación en campo
 
Big Data: Buceando en océano de datos ¿Ciencia Ficción o Realidad?
Big Data: Buceando en océano de datos ¿Ciencia Ficción o Realidad?Big Data: Buceando en océano de datos ¿Ciencia Ficción o Realidad?
Big Data: Buceando en océano de datos ¿Ciencia Ficción o Realidad?
 
Cibernetica
CiberneticaCibernetica
Cibernetica
 
Teorias cibernetica compensar
Teorias cibernetica compensarTeorias cibernetica compensar
Teorias cibernetica compensar
 
Búsqueda en base de datos. Scopus y Cinahl.
Búsqueda en base de datos. Scopus y Cinahl.Búsqueda en base de datos. Scopus y Cinahl.
Búsqueda en base de datos. Scopus y Cinahl.
 
Base de datos
Base de datosBase de datos
Base de datos
 
Investigación cualitativa en Ciencia de la Información
Investigación cualitativa en Ciencia de la InformaciónInvestigación cualitativa en Ciencia de la Información
Investigación cualitativa en Ciencia de la Información
 
La cibernética exposicion
La cibernética exposicionLa cibernética exposicion
La cibernética exposicion
 
Análisis de Interacción Espacial
Análisis de Interacción EspacialAnálisis de Interacción Espacial
Análisis de Interacción Espacial
 
Microsoft R Server
Microsoft R ServerMicrosoft R Server
Microsoft R Server
 
Cibernetica
CiberneticaCibernetica
Cibernetica
 
Mejores prácticas desarrollo de base de datos
Mejores prácticas desarrollo de base de datos Mejores prácticas desarrollo de base de datos
Mejores prácticas desarrollo de base de datos
 
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGIEjemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
 
Estadistica y Machine Learning para Todos
Estadistica y Machine Learning para TodosEstadistica y Machine Learning para Todos
Estadistica y Machine Learning para Todos
 
00 introducción a la ciencia small
00 introducción a la ciencia   small00 introducción a la ciencia   small
00 introducción a la ciencia small
 
The CEO guide to China's future
The CEO guide to China's futureThe CEO guide to China's future
The CEO guide to China's future
 
Cibernetica
CiberneticaCibernetica
Cibernetica
 
Visual Design with Data
Visual Design with DataVisual Design with Data
Visual Design with Data
 

Similar a El arte de la Ciencia de Datos

Análisis estadístico de los datos.pptx
Análisis estadístico de los datos.pptxAnálisis estadístico de los datos.pptx
Análisis estadístico de los datos.pptxsantiagooscarpazaran
 
#9 INVESTIGACION: RECOPILACION DE DATOS.
#9 INVESTIGACION: RECOPILACION DE DATOS.#9 INVESTIGACION: RECOPILACION DE DATOS.
#9 INVESTIGACION: RECOPILACION DE DATOS.Evelyn Vega Siancas
 
Etapas del Metodo Estadístico.pdf
Etapas del Metodo Estadístico.pdfEtapas del Metodo Estadístico.pdf
Etapas del Metodo Estadístico.pdfssuser9166491
 
Etapas del Metodo Estadístico.pdf
Etapas del Metodo Estadístico.pdfEtapas del Metodo Estadístico.pdf
Etapas del Metodo Estadístico.pdfssuser9166491
 
Investigación de mercados
Investigación de mercados Investigación de mercados
Investigación de mercados epgonzalez
 
DIAPOSITIVAS COMPLETAS DE INVESTIGACION.pptx
DIAPOSITIVAS COMPLETAS DE INVESTIGACION.pptxDIAPOSITIVAS COMPLETAS DE INVESTIGACION.pptx
DIAPOSITIVAS COMPLETAS DE INVESTIGACION.pptxvidafeliz355
 
Perez willian actinvestigacionmercadotecnia
Perez willian actinvestigacionmercadotecniaPerez willian actinvestigacionmercadotecnia
Perez willian actinvestigacionmercadotecniaWILLIANOMARPEREZBRIZ
 
Encuestas virtuales
Encuestas virtualesEncuestas virtuales
Encuestas virtualesjaiden_18
 
El método científico en la investigación
El método científico en la investigaciónEl método científico en la investigación
El método científico en la investigaciónEdison Coimbra G.
 
INTRODUCCIÓN ANÁLISIS DE DATOS.pptx
INTRODUCCIÓN ANÁLISIS DE DATOS.pptxINTRODUCCIÓN ANÁLISIS DE DATOS.pptx
INTRODUCCIÓN ANÁLISIS DE DATOS.pptxIrineo HerSan
 
Diseño de Investigación
Diseño de InvestigaciónDiseño de Investigación
Diseño de Investigaciónmariaha93
 

Similar a El arte de la Ciencia de Datos (20)

Estructura de anàlisis.pptx
Estructura de anàlisis.pptxEstructura de anàlisis.pptx
Estructura de anàlisis.pptx
 
Análisis estadístico de los datos.pptx
Análisis estadístico de los datos.pptxAnálisis estadístico de los datos.pptx
Análisis estadístico de los datos.pptx
 
#9 INVESTIGACION: RECOPILACION DE DATOS.
#9 INVESTIGACION: RECOPILACION DE DATOS.#9 INVESTIGACION: RECOPILACION DE DATOS.
#9 INVESTIGACION: RECOPILACION DE DATOS.
 
238904-COMO-SE-ELABORA-UN-CUESTIONARIO.doc
238904-COMO-SE-ELABORA-UN-CUESTIONARIO.doc238904-COMO-SE-ELABORA-UN-CUESTIONARIO.doc
238904-COMO-SE-ELABORA-UN-CUESTIONARIO.doc
 
Etapas del Metodo Estadístico.pdf
Etapas del Metodo Estadístico.pdfEtapas del Metodo Estadístico.pdf
Etapas del Metodo Estadístico.pdf
 
Etapas del Metodo Estadístico.pdf
Etapas del Metodo Estadístico.pdfEtapas del Metodo Estadístico.pdf
Etapas del Metodo Estadístico.pdf
 
A Investigar
A InvestigarA Investigar
A Investigar
 
A Investigar
A InvestigarA Investigar
A Investigar
 
Investigación de mercados
Investigación de mercados Investigación de mercados
Investigación de mercados
 
DIAPOSITIVAS COMPLETAS DE INVESTIGACION.pptx
DIAPOSITIVAS COMPLETAS DE INVESTIGACION.pptxDIAPOSITIVAS COMPLETAS DE INVESTIGACION.pptx
DIAPOSITIVAS COMPLETAS DE INVESTIGACION.pptx
 
Exposicion Datos Masivos V1.pptx
Exposicion Datos Masivos V1.pptxExposicion Datos Masivos V1.pptx
Exposicion Datos Masivos V1.pptx
 
Perez willian actinvestigacionmercadotecnia
Perez willian actinvestigacionmercadotecniaPerez willian actinvestigacionmercadotecnia
Perez willian actinvestigacionmercadotecnia
 
Encuestas virtuales
Encuestas virtualesEncuestas virtuales
Encuestas virtuales
 
El método científico en la investigación
El método científico en la investigaciónEl método científico en la investigación
El método científico en la investigación
 
Investigacion cuantitativa.
Investigacion cuantitativa. Investigacion cuantitativa.
Investigacion cuantitativa.
 
E01_Distribuciones_R01.ppt
E01_Distribuciones_R01.pptE01_Distribuciones_R01.ppt
E01_Distribuciones_R01.ppt
 
E01_Distribuciones_R01.ppt
E01_Distribuciones_R01.pptE01_Distribuciones_R01.ppt
E01_Distribuciones_R01.ppt
 
Cuestionario 9
Cuestionario 9Cuestionario 9
Cuestionario 9
 
INTRODUCCIÓN ANÁLISIS DE DATOS.pptx
INTRODUCCIÓN ANÁLISIS DE DATOS.pptxINTRODUCCIÓN ANÁLISIS DE DATOS.pptx
INTRODUCCIÓN ANÁLISIS DE DATOS.pptx
 
Diseño de Investigación
Diseño de InvestigaciónDiseño de Investigación
Diseño de Investigación
 

Más de DataLab Community

Meetup Julio Algoritmos Genéticos
Meetup Julio Algoritmos GenéticosMeetup Julio Algoritmos Genéticos
Meetup Julio Algoritmos GenéticosDataLab Community
 
Meetup Junio Data Analysis with python 2018
Meetup Junio Data Analysis with python 2018Meetup Junio Data Analysis with python 2018
Meetup Junio Data Analysis with python 2018DataLab Community
 
Meetup Junio Apache Spark Fundamentals
Meetup Junio Apache Spark FundamentalsMeetup Junio Apache Spark Fundamentals
Meetup Junio Apache Spark FundamentalsDataLab Community
 
Procesar e interpretar señales biológicas para hacer predicción de movimiento...
Procesar e interpretar señales biológicas para hacer predicción de movimiento...Procesar e interpretar señales biológicas para hacer predicción de movimiento...
Procesar e interpretar señales biológicas para hacer predicción de movimiento...DataLab Community
 
Metodos de kernel en machine learning by MC Luis Ricardo Peña Llamas
Metodos de kernel en machine learning by MC Luis Ricardo Peña LlamasMetodos de kernel en machine learning by MC Luis Ricardo Peña Llamas
Metodos de kernel en machine learning by MC Luis Ricardo Peña LlamasDataLab Community
 
Curse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaCurse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaDataLab Community
 
Tensor models and other dreams by PhD Andres Mendez-Vazquez
Tensor models and other dreams by PhD Andres Mendez-VazquezTensor models and other dreams by PhD Andres Mendez-Vazquez
Tensor models and other dreams by PhD Andres Mendez-VazquezDataLab Community
 
Quiénes somos - DataLab Community
Quiénes somos - DataLab CommunityQuiénes somos - DataLab Community
Quiénes somos - DataLab CommunityDataLab Community
 
Presentación de DataLab Community
Presentación de DataLab CommunityPresentación de DataLab Community
Presentación de DataLab CommunityDataLab Community
 
De qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data ScienceDe qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data ScienceDataLab Community
 

Más de DataLab Community (10)

Meetup Julio Algoritmos Genéticos
Meetup Julio Algoritmos GenéticosMeetup Julio Algoritmos Genéticos
Meetup Julio Algoritmos Genéticos
 
Meetup Junio Data Analysis with python 2018
Meetup Junio Data Analysis with python 2018Meetup Junio Data Analysis with python 2018
Meetup Junio Data Analysis with python 2018
 
Meetup Junio Apache Spark Fundamentals
Meetup Junio Apache Spark FundamentalsMeetup Junio Apache Spark Fundamentals
Meetup Junio Apache Spark Fundamentals
 
Procesar e interpretar señales biológicas para hacer predicción de movimiento...
Procesar e interpretar señales biológicas para hacer predicción de movimiento...Procesar e interpretar señales biológicas para hacer predicción de movimiento...
Procesar e interpretar señales biológicas para hacer predicción de movimiento...
 
Metodos de kernel en machine learning by MC Luis Ricardo Peña Llamas
Metodos de kernel en machine learning by MC Luis Ricardo Peña LlamasMetodos de kernel en machine learning by MC Luis Ricardo Peña Llamas
Metodos de kernel en machine learning by MC Luis Ricardo Peña Llamas
 
Curse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaCurse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando Garcia
 
Tensor models and other dreams by PhD Andres Mendez-Vazquez
Tensor models and other dreams by PhD Andres Mendez-VazquezTensor models and other dreams by PhD Andres Mendez-Vazquez
Tensor models and other dreams by PhD Andres Mendez-Vazquez
 
Quiénes somos - DataLab Community
Quiénes somos - DataLab CommunityQuiénes somos - DataLab Community
Quiénes somos - DataLab Community
 
Presentación de DataLab Community
Presentación de DataLab CommunityPresentación de DataLab Community
Presentación de DataLab Community
 
De qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data ScienceDe qué hablamos cuando hablamos de Data Science
De qué hablamos cuando hablamos de Data Science
 

Último

Ocaña, Diego de. - Viaje por el Nuevo Mundo - De Guadalupe a Potosí, 1599-16...
Ocaña, Diego de. - Viaje por el Nuevo Mundo - De Guadalupe a Potosí, 1599-16...Ocaña, Diego de. - Viaje por el Nuevo Mundo - De Guadalupe a Potosí, 1599-16...
Ocaña, Diego de. - Viaje por el Nuevo Mundo - De Guadalupe a Potosí, 1599-16...frank0071
 
Pelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibrasPelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibrasPaola Rodríguez
 
Moda colonial de 1810 donde podemos ver las distintas prendas
Moda colonial de 1810 donde podemos ver las distintas prendasModa colonial de 1810 donde podemos ver las distintas prendas
Moda colonial de 1810 donde podemos ver las distintas prendasMorenaVictorero1
 
Glaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdfGlaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdffrank0071
 
Estructura, propiedades, usos y reacciones del benceno.pptx
Estructura, propiedades, usos y reacciones del benceno.pptxEstructura, propiedades, usos y reacciones del benceno.pptx
Estructura, propiedades, usos y reacciones del benceno.pptxAlejandroPrez777060
 
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALES
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALESLIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALES
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALESGuiseppyCuchilloMira
 
Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...
Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...
Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...frank0071
 
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docxPRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docxAlexandraNeryHuamanM2
 
DILATADORES ESOFAGICOS estenosis benignas (1).pptx
DILATADORES ESOFAGICOS estenosis benignas (1).pptxDILATADORES ESOFAGICOS estenosis benignas (1).pptx
DILATADORES ESOFAGICOS estenosis benignas (1).pptxGabyCrespo6
 
Soporte vital basico maniobras de soporte vital basico
Soporte vital basico maniobras de soporte vital basicoSoporte vital basico maniobras de soporte vital basico
Soporte vital basico maniobras de soporte vital basicoNAYDA JIMENEZ
 
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETCREINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETCbayolethBarboza
 
El Genoma Humano, Características, Definición, ETC
El Genoma Humano, Características, Definición, ETCEl Genoma Humano, Características, Definición, ETC
El Genoma Humano, Características, Definición, ETCJ0S3G4LV1S
 
SESION 3º caracteristicas de los seres vivos.pdf
SESION 3º caracteristicas de los seres vivos.pdfSESION 3º caracteristicas de los seres vivos.pdf
SESION 3º caracteristicas de los seres vivos.pdfAlexandraNeryHuamanM2
 
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdfAlthusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdffrank0071
 
Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.ChiquinquirMilagroTo
 
Musculos Paraproteticos, protesis, musculos
Musculos Paraproteticos, protesis, musculosMusculos Paraproteticos, protesis, musculos
Musculos Paraproteticos, protesis, musculosCatalinaSezCrdenas
 
PRESENTACION PRE-DEFENSA PROYECTO I.pptx
PRESENTACION PRE-DEFENSA PROYECTO I.pptxPRESENTACION PRE-DEFENSA PROYECTO I.pptx
PRESENTACION PRE-DEFENSA PROYECTO I.pptxdanimaxi2320
 
Homo Ergaster. Evolución y datos del hominido
Homo Ergaster. Evolución y datos del hominidoHomo Ergaster. Evolución y datos del hominido
Homo Ergaster. Evolución y datos del hominidoMIGUELSANTIAGODORADO
 
Matemáticas Aplicadas usando Python
Matemáticas Aplicadas   usando    PythonMatemáticas Aplicadas   usando    Python
Matemáticas Aplicadas usando PythonErnesto Crespo
 
Enfermeria_Geriatrica_TeresaPerezCastro.doc
Enfermeria_Geriatrica_TeresaPerezCastro.docEnfermeria_Geriatrica_TeresaPerezCastro.doc
Enfermeria_Geriatrica_TeresaPerezCastro.docsroxana523
 

Último (20)

Ocaña, Diego de. - Viaje por el Nuevo Mundo - De Guadalupe a Potosí, 1599-16...
Ocaña, Diego de. - Viaje por el Nuevo Mundo - De Guadalupe a Potosí, 1599-16...Ocaña, Diego de. - Viaje por el Nuevo Mundo - De Guadalupe a Potosí, 1599-16...
Ocaña, Diego de. - Viaje por el Nuevo Mundo - De Guadalupe a Potosí, 1599-16...
 
Pelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibrasPelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibras
 
Moda colonial de 1810 donde podemos ver las distintas prendas
Moda colonial de 1810 donde podemos ver las distintas prendasModa colonial de 1810 donde podemos ver las distintas prendas
Moda colonial de 1810 donde podemos ver las distintas prendas
 
Glaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdfGlaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdf
 
Estructura, propiedades, usos y reacciones del benceno.pptx
Estructura, propiedades, usos y reacciones del benceno.pptxEstructura, propiedades, usos y reacciones del benceno.pptx
Estructura, propiedades, usos y reacciones del benceno.pptx
 
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALES
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALESLIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALES
LIPIDOS y ACIDOS NUCLEICOS Y TODOS SUS SILLARES ESTRUCTURALES
 
Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...
Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...
Morgado & Rodríguez (eds.) - Los animales en la historia y en la cultura [201...
 
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docxPRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
 
DILATADORES ESOFAGICOS estenosis benignas (1).pptx
DILATADORES ESOFAGICOS estenosis benignas (1).pptxDILATADORES ESOFAGICOS estenosis benignas (1).pptx
DILATADORES ESOFAGICOS estenosis benignas (1).pptx
 
Soporte vital basico maniobras de soporte vital basico
Soporte vital basico maniobras de soporte vital basicoSoporte vital basico maniobras de soporte vital basico
Soporte vital basico maniobras de soporte vital basico
 
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETCREINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
REINO FUNGI: CONCEPTO, CARACTERISTICAS, ETC
 
El Genoma Humano, Características, Definición, ETC
El Genoma Humano, Características, Definición, ETCEl Genoma Humano, Características, Definición, ETC
El Genoma Humano, Características, Definición, ETC
 
SESION 3º caracteristicas de los seres vivos.pdf
SESION 3º caracteristicas de los seres vivos.pdfSESION 3º caracteristicas de los seres vivos.pdf
SESION 3º caracteristicas de los seres vivos.pdf
 
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdfAlthusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
Althusser, Louis. - Ideología y aparatos ideológicos de Estado [ocr] [2003].pdf
 
Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.Terapia Cognitivo Conductual CAPITULO 2.
Terapia Cognitivo Conductual CAPITULO 2.
 
Musculos Paraproteticos, protesis, musculos
Musculos Paraproteticos, protesis, musculosMusculos Paraproteticos, protesis, musculos
Musculos Paraproteticos, protesis, musculos
 
PRESENTACION PRE-DEFENSA PROYECTO I.pptx
PRESENTACION PRE-DEFENSA PROYECTO I.pptxPRESENTACION PRE-DEFENSA PROYECTO I.pptx
PRESENTACION PRE-DEFENSA PROYECTO I.pptx
 
Homo Ergaster. Evolución y datos del hominido
Homo Ergaster. Evolución y datos del hominidoHomo Ergaster. Evolución y datos del hominido
Homo Ergaster. Evolución y datos del hominido
 
Matemáticas Aplicadas usando Python
Matemáticas Aplicadas   usando    PythonMatemáticas Aplicadas   usando    Python
Matemáticas Aplicadas usando Python
 
Enfermeria_Geriatrica_TeresaPerezCastro.doc
Enfermeria_Geriatrica_TeresaPerezCastro.docEnfermeria_Geriatrica_TeresaPerezCastro.doc
Enfermeria_Geriatrica_TeresaPerezCastro.doc
 

El arte de la Ciencia de Datos

  • 1. El Arte de la Ciencia de Datos Campus Party 2016 #DatosALoGrande
  • 2. Presentación - Machine Learning Stanford - Mining Massive Datasets Stanford - Process Mining Eindhoven - Data Analysis John Hopkins - Data Lakes for Big Data EMC - Big Data with Spark Berkeley Héctor Neri Cano neri.cano@gmail.com Data Science Enthusiast
  • 3.
  • 4. Datos a lo Grande
  • 5. Beneficios • Resultados más precisos. • Mejores recomendaciones. • Los periodistas pueden analizar y entender mejor. • Soluciones para el problema de tráfico en las ciudades. • Predecir las enfermedades que cada persona pueda padecer. • Encontrar la mejor cura y tratamiento personalizados.
  • 6. Acciones impulsadas por Datos • Aprender de los datos • Convertir los datos en algo valioso • Tomar decisiones basadas en los datos • Crear productos y servicios impulsados por los datos El Trabajo en Equipo es fundamental. El tratamiento de los datos para extraer conocimiento, es un arte y una ciencia.
  • 7. Data Vincis El rol de científico de datos se ha descrito como “parte analista, parte artista”. De acuerdo a Anjul Bhambhri, vicepresidente de productos de Big Data en IBM, “un científico de datos es alguien inquisitivo, que puede mirar a los datos y encontrar patrones. Es casi como un individuo del Renacimiento que realmente quiere aprender y traer cambio a una organización”.
  • 8.
  • 9. Las 7 Artes Liberales de la Ciencia de Datos
  • 12. Trivium 3 (Retórica) Data Visualization + Open Data
  • 18. El Científico de Datos Un científico de datos debe reunir y aplicar herramientas adecuadas a los datos para responder una pregunta relevante. Actividades Centrales 1. Definir (y refinar) la pregunta 2. Explorar los datos 3. Construir modelos estadísticos formales 4. Interpretar los resultados 5. Comunicar los resultados
  • 19. El Epiciclo de Análisis Ajustar las expectativas Se necesitará repasar este epiciclo continuamente para refinar las actividades centrales. Recolectar información (datos) Comparar tu información o datos con tus expectativas Corregir tus expectativas o arreglar los datos
  • 20. Definir la Pregunta Muchas de las trampas mortales de un análisis de datos pueden ser evitados al gastar energía mental para hacer que la pregunta quede bien formulada. Tipos de Preguntas 1. Descriptiva 2. Exploratoria 3. Inferencial 4. Predictiva 5. Causal 6. Mecánica
  • 24. Características de una Buena Pregunta Ejemplo de una Buena Pregunta ¿Comer 5 porciones de fruta y vegetales frescos se relaciona con menos infecciones de las vías respiratorias? Debe ser de interés para tu audiencia No debe haber sido ya respondida Debe provenir de un cuadro de trabajo plausible Debe poder ser respondida con los datos adquiribles Debe ser lo suficientemente específica
  • 25. Traducir una pregunta en un problema de datos Piensa cómo lucirían los resultados del análisis de datos y cómo pueden ser interpretados. Evita preguntas que usan datos inapropiados y con una infinidad de interpretaciones. Asegurate que los datos disponibles pueden proveer los factores necesarios para obtener la respuesta.
  • 26. Evita las Variables de Confusión Se presenta cuando un factor que no se consideró está relacionado. Se refiere a aquellas variables que aparentemente son significativas, pero que en realidad no lo son porque son dependientes de otras que no han sido consideradas. Conviene identificar si el dataset incluye información acerca de estas potenciales variables de confusión.
  • 27. Evita la Parcialidad (Bias) Una selección parcializada ocurre cuando los datos inflan la proporción de la gente que tiene más ciertas características que la población general. Si la forma en que los datos son recolectados lleva a un resultado parcializado, el resultado no puede ser bien interpretado. La parcialidad puede ser un problema si estás más (o menos) propenso de observar individuos con ciertos factores debido a cómo la población fue seleccionada.
  • 28. Revisa tus datos primero Los datos usualmente vendrán en un formato muy desordenado y necesitarás hacer algo de limpieza. Con algunas cuantas maniobras, puedes identificar problemas potenciales con el conjunto de datos antes de que te enfrasques en un complicado análisis de datos. Frecuentemente es útil mirar al “inicio” y al “final” de un conjunto de datos. Esto te permite conocer si los datos fueron leídos propiamente, si las cosas están propiamente formateadas y si todo está en su sitio.
  • 29. Valida con al menos una fuente externa En Machine Learning, el dataset es mejor separarlo en 3 subconjuntos Testing Asegurarse de que los datos concuerdan con algo fuera de tu conjunto de datos es muy importante. Permite que te asegures de que las medidas están firmemente en línea con lo que debe ser y sirve como una revisión sobre qué otras cosas podrían estar mal en tu conjunto de datos. Aprendizaje Validación
  • 30. Intenta lo más fácil, pero siempre desafialo La intención de intentar primero la solución más fácil es ver cómo podría proveerse evidencia ‘a primera vista’. Si no encuentras evidencia en los datos usando solo un simple plot o análisis, entonces frecuentemente es poco probable que encuentres algo en un análisis más sofisticado. Se debe siempre pensar en formas de desafiar los resultados, especialmente si esos resultados se comportan según tus expectativas previas.
  • 31. Utiliza un modelo razonable y útil. Tener todos los datos es importante, pero no siempre es muy útil. Esto es debido a que el modelo trivial (no tener ni un solo modelo) no provee ninguna reducción de los datos. El primer elemento clave de un modelo estadístico es la reducción de los datos. La pregunta es si el modelo provee una aproximación razonable que pueda ser útil. Un modelo estadístico permite una aleatoriedad al generar los datos. El modelo es esencialmente una expectativa de la relación entre varios factores del mundo real en tu conjunto de datos.
  • 33.
  • 34. Analítica de Datos vs Ciencia de Datos Descubrir aquellas cosas que no sabemos que desconocemos Más que un interés en conocer aquellas cosas que no conocemos Ciencia de Datos: Más que muchas disciplinas y diversas herramientas Fuente: DataScientistInsight.com
  • 35. .Aspecto Análitica de Datos Ciencia de Datos Filosofía Saber Entender Modelos Generados Descriptivos, Diagnósticos Predictivos, Prescriptivos Nivel de Comprensión Aprendizaje Sencillo Aprendizaje Profundo Resultados Operacionales y Tácticos Estratégicos y Generan Valor Carga de Trabajo Repetitiva y Sistemática Experimental y Particular Ámbito de Estudio Limitado y Específico Amplio y General Variedad de Datos Datasets limitados y coherentes Ilimitados y formados flexibles Veracidad de los Datos Calidad y Certeza Controlada Calidad y Certeza Desconocida
  • 36. ¿Dudas o Comentarios? Héctor Neri Cano neri.cano@gmail.com www.datalab.mx