SlideShare una empresa de Scribd logo
1 de 25
Descargar para leer sin conexión
Ciencia	
  de	
  datos:	
  
Aprendiendo	
  lo	
  básico
Roberto	
  Muñoz,	
  PhD
Astronomer	
  and	
  Data	
  Scientist
Pontificia	
  Universidad	
  Católicade	
  Chile
github.com/rpmunoz
Roberto  Muñoz github.com/rpmunoz
Evolución	
  procesamiento	
  
de	
  datos
• 1890:	
  Se	
  usa	
  la	
  máquina	
  tabuladora	
  de	
  Hollerith	
  para	
  
procesar los datos del	
  censo de	
  EE.UU.
• 1951:	
  Se	
  diseña	
  el	
  primer	
  computador	
  electrónico	
  
con	
  fines	
  comerciales,	
  UNIVAC	
  I.
Cómputo
Manual
Cómputo
Automático
Cómputo
Automático
Cómputo
Electrónico
Roberto  Muñoz github.com/rpmunoz
Costo	
  del	
  cómputo
• Desde	
  la	
  invención	
  de	
  los	
  computadores	
  
electrónicos,	
  tanto	
  el	
  precio	
  como	
  el	
  tamaño	
  han	
  
disminuido	
  sostenidamente.
Roberto  Muñoz github.com/rpmunoz
Tsunami	
  de	
  datos
• Durante las últimas décadas la sociedad en su
conjunto se ha digitalizado.
• Mayor capacidad de cómputo y tecnología más
asequible han permitido un crecimiento explosivo
de los datos.
Fuente: Oracle, 2012
Los datos crecen a una
tasa anual del 40%.
Se estima una producción
de 45 ZB para el 2020.
Roberto  Muñoz github.com/rpmunoz
Comunidad	
  Open	
  Source
• Una mayor variedad y cantidad de datos trae
consigo nuevos desafíos.
• Desarrollo continuo de herramientas y métodos
para analizar los datos.
• Transición de software empaquetado y comercial
a uno desarrollado por comunidad open source.
Roberto  Muñoz github.com/rpmunoz
Casos	
  notables
nyc-­taxi-­data
uber-­tlc-­foil-­response
Análisis de  uso  de  Taxis  y  Uber  en  NYC
Open  Data+Open Source
Fuente: FiveThirtyEight
Roberto  Muñoz github.com/rpmunoz
Casos	
  notables
datausa
Análisis de  datos  públicos  de  USA
Open  Data+Open Source
Fuente: The New York Times
Roberto  Muñoz github.com/rpmunoz
Evolución	
  del	
  Analytics
1968 1973 1974 1981
1991199320062015
Release  0.17
Roberto  Muñoz github.com/rpmunoz
¿Qué	
  es	
  la	
  Ciencia	
  de	
  datos?
• La Ciencia de datos o Data Science es un campo
interdisciplinario que se ocupa de los procesos y
sistemas usados en la extracción de conocimiento
a partir del análisis de datos.
• Se dice interdisciplinario pues requiere
conocimientos de los campos de la computación,
matemáticas y estadística.
Programación Estadística Data	
  
Science
Roberto  Muñoz github.com/rpmunoz
¿Cambio	
  de	
  paradigma?
• Los datos digitales y las tecnologías han
cambiado la manera en cómo vivimos y cómo
entendemos el mundo.
• Jim Gray, investigador de
Microsoft y pionero en bases de
datos introdujo el concepto del
cuarto paradigma.
• Era experimental, teórica,
computacional y últimamente la
Era del dato.
Roberto  Muñoz github.com/rpmunoz
Carácter interdisciplinario
Diagrama de  Venn  para  Data  Science
Drew  Conway  (2010)
Habilidades
Programación
Exploración de datos
Soluciones creativas
Conocimientos
Matemáticas
Estadística
Experticia
Especialización
Conocimiento   de  campo
Roberto  Muñoz github.com/rpmunoz
¿Qué	
  hace	
  un	
  Data	
  Scientist?
• Profesional que posee las herramientas y los
conocimientosnecesarios para:
– Recolectar y filtrar datos de diversas fuentes
– Explorar de manera efectiva un set de datos
– Obtener información valiosa oculta en los datos
– Construir modelos que permitan tomar decisiones
informadas.
Data Scientist: Persona que es mejor en estadística que
cualquier ingeniero de software y que es mejor en
ingeniería de software que cualquier estadístico.
Roberto  Muñoz github.com/rpmunoz
Conocimientos	
  y	
  Habilidades
• Formación universitaria en las áreas de
Ingeniería y Ciencias Naturales. Idealmente
tienen Magister y PhD.
• Poseen conocimientos de Matemáticas,
Estadísticay Programación computacional.
• Se caracterizan por su curiosidad intelectual,
son capaces de diseñar experimentos y
comunicar de manera efectiva los resultados.
Roberto  Muñoz github.com/rpmunoz
Roles	
  en	
  la	
  Organización
Roberto  Muñoz github.com/rpmunoz
Trabajo en equipo
Fuente: DataCamp
Roberto  Muñoz github.com/rpmunoz
Tipos	
  de	
  datos
• Los datos son el punto de partida para todo
análisis.
• Tipos de datos de acuerdo a organización
– Estructurados: Están altamente organizados.
Se almacenan en una base de datos relacional.
BD
Roberto  Muñoz github.com/rpmunoz
Tipos	
  de	
  datos
– No estructurados: Son datos crudos y no están
organizados. Deben ser procesados y
transformados para luego ser almacenados en
una base de datos.
Roberto  Muñoz github.com/rpmunoz
Lenguajes	
  de	
  programación
• Los lenguajes más usados por la comunidad de
Data Science son Python y R. Se estima que
Python tiene más de 30M de usuarios y R más de
16M.
• R es más funcional y los módulos de análisis
estadísitico vienen incorporados.
• Python es más orientado a objetos y deben
cargarse módulos para hacer análisis.
Roberto  Muñoz github.com/rpmunoz
Visualizaciones
• Las visualizaciones juega un rol importante en
todo el proceso de análisis de datos. Permiten
explorar los datos, examinar resultados y
comparar cualitativamentelos modelos.
Edad
Número
personas
Anscombe’s quartet
Roberto  Muñoz github.com/rpmunoz
Construcción de	
  modelos
• La construcción y validación de modelos son
es clave para los objetivos.
• Permiten entender el comportamiento del
sistema, definir cantidades de interés, buscar
outliers en los datos y últimamente hacer
análisis predictivo.
Roberto  Muñoz github.com/rpmunoz
Esquema simple	
  Data	
  Science
Roberto  Muñoz github.com/rpmunoz
Recursos	
  en	
  Internet
http://www.datasciencecentral.com
http://blog.kaggle.com
http://www.kdnuggets.com
https://www.quora.com/topic/Data-­Science
Roberto  Muñoz github.com/rpmunoz
Tutorial	
  análisis de	
  datos
• Usaremos un	
  notebook	
  de	
  Jupyter y	
  Python	
  3	
  
para	
  mostrar	
  parte	
  del	
  proceso	
  que	
  se	
  hace	
  en	
  
Data	
  Science.
• El	
  notebook	
  de	
  Python	
  se	
  puede	
  descargar	
  desde	
  
la	
  carpeta	
  CIO2016 en	
  
github.com/rpmunoz/datascience
Gracias
Roberto  Muñoz github.com/rpmunoz
Bibliografía
• A	
  very	
  short	
  history	
  of	
  Data	
  Science
• From	
  Data	
  Mining	
  to	
  Knowledge	
  Discovery	
  in	
  
Databases
• A	
  Project-­‐Based	
  Case	
  Study	
  of	
  Data	
  Science	
  
Education

Más contenido relacionado

Destacado

Astronomy in the Data Driven Science Era
Astronomy in the Data Driven Science EraAstronomy in the Data Driven Science Era
Astronomy in the Data Driven Science EraRoberto Muñoz
 
Future of Gay Pride Apps: case study EuroPride 2016 App
Future of Gay Pride Apps: case study EuroPride 2016 AppFuture of Gay Pride Apps: case study EuroPride 2016 App
Future of Gay Pride Apps: case study EuroPride 2016 AppBas van der Lans
 
The professional expert’s physicians in Dallas and Frisco
The professional expert’s physicians in Dallas and Frisco The professional expert’s physicians in Dallas and Frisco
The professional expert’s physicians in Dallas and Frisco Diamond Physicians
 
Габріела Містраль
Габріела МістральГабріела Містраль
Габріела Містральtim_art16
 
Baltic SCOPE kick-off - Tackling MSP integration challenges in the BSR*
Baltic SCOPE kick-off - Tackling MSP integration challenges in the BSR*Baltic SCOPE kick-off - Tackling MSP integration challenges in the BSR*
Baltic SCOPE kick-off - Tackling MSP integration challenges in the BSR*Pan Baltic Scope / Baltic SCOPE
 
Efficient data reduction and analysis of DECam images using multicore archite...
Efficient data reduction and analysis of DECam images using multicore archite...Efficient data reduction and analysis of DECam images using multicore archite...
Efficient data reduction and analysis of DECam images using multicore archite...Roberto Muñoz
 
Pinterest for Business Results Advanced Strategies and Tactics Social Fresh 2016
Pinterest for Business Results Advanced Strategies and Tactics Social Fresh 2016Pinterest for Business Results Advanced Strategies and Tactics Social Fresh 2016
Pinterest for Business Results Advanced Strategies and Tactics Social Fresh 2016Pam Moore
 
Marine communication
Marine communicationMarine communication
Marine communicationsagun subedi
 

Destacado (13)

Makerkultur i skolan
Makerkultur i skolan Makerkultur i skolan
Makerkultur i skolan
 
Brasileiros no Mundo - Estimativas 2008
Brasileiros no Mundo - Estimativas 2008Brasileiros no Mundo - Estimativas 2008
Brasileiros no Mundo - Estimativas 2008
 
Astronomy in the Data Driven Science Era
Astronomy in the Data Driven Science EraAstronomy in the Data Driven Science Era
Astronomy in the Data Driven Science Era
 
Future of Gay Pride Apps: case study EuroPride 2016 App
Future of Gay Pride Apps: case study EuroPride 2016 AppFuture of Gay Pride Apps: case study EuroPride 2016 App
Future of Gay Pride Apps: case study EuroPride 2016 App
 
CETRI Tech Portfolio 2015
CETRI Tech Portfolio 2015CETRI Tech Portfolio 2015
CETRI Tech Portfolio 2015
 
The professional expert’s physicians in Dallas and Frisco
The professional expert’s physicians in Dallas and Frisco The professional expert’s physicians in Dallas and Frisco
The professional expert’s physicians in Dallas and Frisco
 
Габріела Містраль
Габріела МістральГабріела Містраль
Габріела Містраль
 
Baltic SCOPE kick-off - Tackling MSP integration challenges in the BSR*
Baltic SCOPE kick-off - Tackling MSP integration challenges in the BSR*Baltic SCOPE kick-off - Tackling MSP integration challenges in the BSR*
Baltic SCOPE kick-off - Tackling MSP integration challenges in the BSR*
 
Topic paper (Southwest Baltic Case) - Fisheries *
Topic paper (Southwest Baltic Case) - Fisheries *Topic paper (Southwest Baltic Case) - Fisheries *
Topic paper (Southwest Baltic Case) - Fisheries *
 
AIS Data for the Baltic SCOPE project *
AIS Data for the Baltic SCOPE project *AIS Data for the Baltic SCOPE project *
AIS Data for the Baltic SCOPE project *
 
Efficient data reduction and analysis of DECam images using multicore archite...
Efficient data reduction and analysis of DECam images using multicore archite...Efficient data reduction and analysis of DECam images using multicore archite...
Efficient data reduction and analysis of DECam images using multicore archite...
 
Pinterest for Business Results Advanced Strategies and Tactics Social Fresh 2016
Pinterest for Business Results Advanced Strategies and Tactics Social Fresh 2016Pinterest for Business Results Advanced Strategies and Tactics Social Fresh 2016
Pinterest for Business Results Advanced Strategies and Tactics Social Fresh 2016
 
Marine communication
Marine communicationMarine communication
Marine communication
 

Similar a Ciencia de datos - CIO Update 2016

Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosLuis Fernando Aguas Bucheli
 
Data science como motor de la innovación
Data science como motor de la innovaciónData science como motor de la innovación
Data science como motor de la innovaciónRoberto Muñoz
 
La geografía y la estadística. dos necesidades para entender big data
La geografía y la estadística. dos necesidades para entender big dataLa geografía y la estadística. dos necesidades para entender big data
La geografía y la estadística. dos necesidades para entender big datapedro_juanes
 
@LNData, un proyecto multidisciplinario de periodismo de datos
@LNData, un proyecto multidisciplinario de periodismo de datos@LNData, un proyecto multidisciplinario de periodismo de datos
@LNData, un proyecto multidisciplinario de periodismo de datosgrmadryn
 
Webinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosWebinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosSandra Crucianelli
 
1.Unidad1. Fundamentos DataScience.pptx
1.Unidad1. Fundamentos DataScience.pptx1.Unidad1. Fundamentos DataScience.pptx
1.Unidad1. Fundamentos DataScience.pptxRupertoCisneros3
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosOscar Corcho
 
2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigDataKEEDIO
 
Descubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdfDescubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdfCarlos Fuentes
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big DataDaniel Jiménez
 
Innovación en el tratamiento de la información desde la Ingeniería del Conoc...
Innovación en el tratamiento de la información desde la  Ingeniería del Conoc...Innovación en el tratamiento de la información desde la  Ingeniería del Conoc...
Innovación en el tratamiento de la información desde la Ingeniería del Conoc...Joaquín Borrego-Díaz
 
LA NACIÓN Data
LA NACIÓN DataLA NACIÓN Data
LA NACIÓN DataFopea
 
PROYECCION BASES DE DATOS AL FUTURO
PROYECCION BASES DE DATOS AL FUTUROPROYECCION BASES DE DATOS AL FUTURO
PROYECCION BASES DE DATOS AL FUTUROdaayala
 
INTERNET: Retos y Oportunidades en los Archivos
INTERNET:Retos y Oportunidades en los ArchivosINTERNET:Retos y Oportunidades en los Archivos
INTERNET: Retos y Oportunidades en los ArchivosKarla Arosemena
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de DatosLuisAzofeifa6
 
Esp #001-no son los documentos; son los datos-traducido
 Esp #001-no son los documentos; son los datos-traducido Esp #001-no son los documentos; son los datos-traducido
Esp #001-no son los documentos; son los datos-traducidoJ T "Tom" Johnson
 

Similar a Ciencia de datos - CIO Update 2016 (20)

Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
 
Big data
Big dataBig data
Big data
 
Data science como motor de la innovación
Data science como motor de la innovaciónData science como motor de la innovación
Data science como motor de la innovación
 
La geografía y la estadística. dos necesidades para entender big data
La geografía y la estadística. dos necesidades para entender big dataLa geografía y la estadística. dos necesidades para entender big data
La geografía y la estadística. dos necesidades para entender big data
 
@LNData, un proyecto multidisciplinario de periodismo de datos
@LNData, un proyecto multidisciplinario de periodismo de datos@LNData, un proyecto multidisciplinario de periodismo de datos
@LNData, un proyecto multidisciplinario de periodismo de datos
 
Webinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosWebinario sobre Periodismo de Datos
Webinario sobre Periodismo de Datos
 
Big Data para mortales
Big Data para mortalesBig Data para mortales
Big Data para mortales
 
1.Unidad1. Fundamentos DataScience.pptx
1.Unidad1. Fundamentos DataScience.pptx1.Unidad1. Fundamentos DataScience.pptx
1.Unidad1. Fundamentos DataScience.pptx
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los Datos
 
2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData
 
Descubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdfDescubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdf
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Innovación en el tratamiento de la información desde la Ingeniería del Conoc...
Innovación en el tratamiento de la información desde la  Ingeniería del Conoc...Innovación en el tratamiento de la información desde la  Ingeniería del Conoc...
Innovación en el tratamiento de la información desde la Ingeniería del Conoc...
 
LA NACIÓN Data
LA NACIÓN DataLA NACIÓN Data
LA NACIÓN Data
 
Big data
Big dataBig data
Big data
 
PROYECCION BASES DE DATOS AL FUTURO
PROYECCION BASES DE DATOS AL FUTUROPROYECCION BASES DE DATOS AL FUTURO
PROYECCION BASES DE DATOS AL FUTURO
 
Periodismo de datos
Periodismo de datosPeriodismo de datos
Periodismo de datos
 
INTERNET: Retos y Oportunidades en los Archivos
INTERNET:Retos y Oportunidades en los ArchivosINTERNET:Retos y Oportunidades en los Archivos
INTERNET: Retos y Oportunidades en los Archivos
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de Datos
 
Esp #001-no son los documentos; son los datos-traducido
 Esp #001-no son los documentos; son los datos-traducido Esp #001-no son los documentos; son los datos-traducido
Esp #001-no son los documentos; son los datos-traducido
 

Más de Roberto Muñoz

Astronomía en la era de la información
Astronomía en la era de la informaciónAstronomía en la era de la información
Astronomía en la era de la informaciónRoberto Muñoz
 
Global AI nights - Casos de uso de ML en Astronomia
Global AI nights - Casos de uso de ML en AstronomiaGlobal AI nights - Casos de uso de ML en Astronomia
Global AI nights - Casos de uso de ML en AstronomiaRoberto Muñoz
 
Inserción de científicos en la industria tecnológica
Inserción de científicos en la industria tecnológicaInserción de científicos en la industria tecnológica
Inserción de científicos en la industria tecnológicaRoberto Muñoz
 
From academy to industry
From academy to industryFrom academy to industry
From academy to industryRoberto Muñoz
 
Avances y desafíos en la exploración del Universo
Avances y desafíos en la exploración del UniversoAvances y desafíos en la exploración del Universo
Avances y desafíos en la exploración del UniversoRoberto Muñoz
 
AstroCV: A computer vision library for Astronomy
AstroCV: A computer vision library for AstronomyAstroCV: A computer vision library for Astronomy
AstroCV: A computer vision library for AstronomyRoberto Muñoz
 
Video analytics: Mejorando la seguridad y calidad de vida
Video analytics: Mejorando la seguridad y calidad de vidaVideo analytics: Mejorando la seguridad y calidad de vida
Video analytics: Mejorando la seguridad y calidad de vidaRoberto Muñoz
 
Open Science: El costo de leer y publicar
Open Science: El costo de leer y publicarOpen Science: El costo de leer y publicar
Open Science: El costo de leer y publicarRoberto Muñoz
 
The role of Computer Vision in Astronomy
The role of Computer Vision in AstronomyThe role of Computer Vision in Astronomy
The role of Computer Vision in AstronomyRoberto Muñoz
 
From astronomy to video analytics industry
From astronomy to video analytics industryFrom astronomy to video analytics industry
From astronomy to video analytics industryRoberto Muñoz
 
The Next Generation Fornax Survey - Pucon Symposium 2015
The Next Generation Fornax Survey - Pucon Symposium 2015The Next Generation Fornax Survey - Pucon Symposium 2015
The Next Generation Fornax Survey - Pucon Symposium 2015Roberto Muñoz
 
Todo un universo por descubrir - Putre, Octubre del 2014
Todo un universo por descubrir - Putre, Octubre del 2014Todo un universo por descubrir - Putre, Octubre del 2014
Todo un universo por descubrir - Putre, Octubre del 2014Roberto Muñoz
 
Astronomía en la era del big data - Arica, junio del 2015
Astronomía en la era del big data - Arica, junio del 2015Astronomía en la era del big data - Arica, junio del 2015
Astronomía en la era del big data - Arica, junio del 2015Roberto Muñoz
 

Más de Roberto Muñoz (13)

Astronomía en la era de la información
Astronomía en la era de la informaciónAstronomía en la era de la información
Astronomía en la era de la información
 
Global AI nights - Casos de uso de ML en Astronomia
Global AI nights - Casos de uso de ML en AstronomiaGlobal AI nights - Casos de uso de ML en Astronomia
Global AI nights - Casos de uso de ML en Astronomia
 
Inserción de científicos en la industria tecnológica
Inserción de científicos en la industria tecnológicaInserción de científicos en la industria tecnológica
Inserción de científicos en la industria tecnológica
 
From academy to industry
From academy to industryFrom academy to industry
From academy to industry
 
Avances y desafíos en la exploración del Universo
Avances y desafíos en la exploración del UniversoAvances y desafíos en la exploración del Universo
Avances y desafíos en la exploración del Universo
 
AstroCV: A computer vision library for Astronomy
AstroCV: A computer vision library for AstronomyAstroCV: A computer vision library for Astronomy
AstroCV: A computer vision library for Astronomy
 
Video analytics: Mejorando la seguridad y calidad de vida
Video analytics: Mejorando la seguridad y calidad de vidaVideo analytics: Mejorando la seguridad y calidad de vida
Video analytics: Mejorando la seguridad y calidad de vida
 
Open Science: El costo de leer y publicar
Open Science: El costo de leer y publicarOpen Science: El costo de leer y publicar
Open Science: El costo de leer y publicar
 
The role of Computer Vision in Astronomy
The role of Computer Vision in AstronomyThe role of Computer Vision in Astronomy
The role of Computer Vision in Astronomy
 
From astronomy to video analytics industry
From astronomy to video analytics industryFrom astronomy to video analytics industry
From astronomy to video analytics industry
 
The Next Generation Fornax Survey - Pucon Symposium 2015
The Next Generation Fornax Survey - Pucon Symposium 2015The Next Generation Fornax Survey - Pucon Symposium 2015
The Next Generation Fornax Survey - Pucon Symposium 2015
 
Todo un universo por descubrir - Putre, Octubre del 2014
Todo un universo por descubrir - Putre, Octubre del 2014Todo un universo por descubrir - Putre, Octubre del 2014
Todo un universo por descubrir - Putre, Octubre del 2014
 
Astronomía en la era del big data - Arica, junio del 2015
Astronomía en la era del big data - Arica, junio del 2015Astronomía en la era del big data - Arica, junio del 2015
Astronomía en la era del big data - Arica, junio del 2015
 

Último

Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfFamilias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfJC Díaz Herrera
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptMelina Alama Visitacion
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosEstefaniaRojas54
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfJC Díaz Herrera
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxLuisAngelYomonaYomon
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfJC Díaz Herrera
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdfJC Díaz Herrera
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfJC Díaz Herrera
 
Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfJC Díaz Herrera
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdfJC Díaz Herrera
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosMarycarmenNuez4
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxMiguelPerz4
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfLos_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfJC Díaz Herrera
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 

Último (20)

Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfFamilias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.ppt
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdf
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdf
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdf
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
 
Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdf
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicos
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptx
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfLos_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 

Ciencia de datos - CIO Update 2016

  • 1. Ciencia  de  datos:   Aprendiendo  lo  básico Roberto  Muñoz,  PhD Astronomer  and  Data  Scientist Pontificia  Universidad  Católicade  Chile github.com/rpmunoz
  • 2. Roberto  Muñoz github.com/rpmunoz Evolución  procesamiento   de  datos • 1890:  Se  usa  la  máquina  tabuladora  de  Hollerith  para   procesar los datos del  censo de  EE.UU. • 1951:  Se  diseña  el  primer  computador  electrónico   con  fines  comerciales,  UNIVAC  I. Cómputo Manual Cómputo Automático Cómputo Automático Cómputo Electrónico
  • 3. Roberto  Muñoz github.com/rpmunoz Costo  del  cómputo • Desde  la  invención  de  los  computadores   electrónicos,  tanto  el  precio  como  el  tamaño  han   disminuido  sostenidamente.
  • 4. Roberto  Muñoz github.com/rpmunoz Tsunami  de  datos • Durante las últimas décadas la sociedad en su conjunto se ha digitalizado. • Mayor capacidad de cómputo y tecnología más asequible han permitido un crecimiento explosivo de los datos. Fuente: Oracle, 2012 Los datos crecen a una tasa anual del 40%. Se estima una producción de 45 ZB para el 2020.
  • 5. Roberto  Muñoz github.com/rpmunoz Comunidad  Open  Source • Una mayor variedad y cantidad de datos trae consigo nuevos desafíos. • Desarrollo continuo de herramientas y métodos para analizar los datos. • Transición de software empaquetado y comercial a uno desarrollado por comunidad open source.
  • 6. Roberto  Muñoz github.com/rpmunoz Casos  notables nyc-­taxi-­data uber-­tlc-­foil-­response Análisis de  uso  de  Taxis  y  Uber  en  NYC Open  Data+Open Source Fuente: FiveThirtyEight
  • 7. Roberto  Muñoz github.com/rpmunoz Casos  notables datausa Análisis de  datos  públicos  de  USA Open  Data+Open Source Fuente: The New York Times
  • 8. Roberto  Muñoz github.com/rpmunoz Evolución  del  Analytics 1968 1973 1974 1981 1991199320062015 Release  0.17
  • 9. Roberto  Muñoz github.com/rpmunoz ¿Qué  es  la  Ciencia  de  datos? • La Ciencia de datos o Data Science es un campo interdisciplinario que se ocupa de los procesos y sistemas usados en la extracción de conocimiento a partir del análisis de datos. • Se dice interdisciplinario pues requiere conocimientos de los campos de la computación, matemáticas y estadística. Programación Estadística Data   Science
  • 10. Roberto  Muñoz github.com/rpmunoz ¿Cambio  de  paradigma? • Los datos digitales y las tecnologías han cambiado la manera en cómo vivimos y cómo entendemos el mundo. • Jim Gray, investigador de Microsoft y pionero en bases de datos introdujo el concepto del cuarto paradigma. • Era experimental, teórica, computacional y últimamente la Era del dato.
  • 11. Roberto  Muñoz github.com/rpmunoz Carácter interdisciplinario Diagrama de  Venn  para  Data  Science Drew  Conway  (2010) Habilidades Programación Exploración de datos Soluciones creativas Conocimientos Matemáticas Estadística Experticia Especialización Conocimiento   de  campo
  • 12. Roberto  Muñoz github.com/rpmunoz ¿Qué  hace  un  Data  Scientist? • Profesional que posee las herramientas y los conocimientosnecesarios para: – Recolectar y filtrar datos de diversas fuentes – Explorar de manera efectiva un set de datos – Obtener información valiosa oculta en los datos – Construir modelos que permitan tomar decisiones informadas. Data Scientist: Persona que es mejor en estadística que cualquier ingeniero de software y que es mejor en ingeniería de software que cualquier estadístico.
  • 13. Roberto  Muñoz github.com/rpmunoz Conocimientos  y  Habilidades • Formación universitaria en las áreas de Ingeniería y Ciencias Naturales. Idealmente tienen Magister y PhD. • Poseen conocimientos de Matemáticas, Estadísticay Programación computacional. • Se caracterizan por su curiosidad intelectual, son capaces de diseñar experimentos y comunicar de manera efectiva los resultados.
  • 14. Roberto  Muñoz github.com/rpmunoz Roles  en  la  Organización
  • 15. Roberto  Muñoz github.com/rpmunoz Trabajo en equipo Fuente: DataCamp
  • 16. Roberto  Muñoz github.com/rpmunoz Tipos  de  datos • Los datos son el punto de partida para todo análisis. • Tipos de datos de acuerdo a organización – Estructurados: Están altamente organizados. Se almacenan en una base de datos relacional. BD
  • 17. Roberto  Muñoz github.com/rpmunoz Tipos  de  datos – No estructurados: Son datos crudos y no están organizados. Deben ser procesados y transformados para luego ser almacenados en una base de datos.
  • 18. Roberto  Muñoz github.com/rpmunoz Lenguajes  de  programación • Los lenguajes más usados por la comunidad de Data Science son Python y R. Se estima que Python tiene más de 30M de usuarios y R más de 16M. • R es más funcional y los módulos de análisis estadísitico vienen incorporados. • Python es más orientado a objetos y deben cargarse módulos para hacer análisis.
  • 19. Roberto  Muñoz github.com/rpmunoz Visualizaciones • Las visualizaciones juega un rol importante en todo el proceso de análisis de datos. Permiten explorar los datos, examinar resultados y comparar cualitativamentelos modelos. Edad Número personas Anscombe’s quartet
  • 20. Roberto  Muñoz github.com/rpmunoz Construcción de  modelos • La construcción y validación de modelos son es clave para los objetivos. • Permiten entender el comportamiento del sistema, definir cantidades de interés, buscar outliers en los datos y últimamente hacer análisis predictivo.
  • 22. Roberto  Muñoz github.com/rpmunoz Recursos  en  Internet http://www.datasciencecentral.com http://blog.kaggle.com http://www.kdnuggets.com https://www.quora.com/topic/Data-­Science
  • 23. Roberto  Muñoz github.com/rpmunoz Tutorial  análisis de  datos • Usaremos un  notebook  de  Jupyter y  Python  3   para  mostrar  parte  del  proceso  que  se  hace  en   Data  Science. • El  notebook  de  Python  se  puede  descargar  desde   la  carpeta  CIO2016 en   github.com/rpmunoz/datascience
  • 25. Roberto  Muñoz github.com/rpmunoz Bibliografía • A  very  short  history  of  Data  Science • From  Data  Mining  to  Knowledge  Discovery  in   Databases • A  Project-­‐Based  Case  Study  of  Data  Science   Education