Este documento presenta una introducción a la ciencia de datos. Explica la evolución del procesamiento de datos desde el censo de 1890 hasta la actualidad, destacando el tsunami de datos digitales. Define la ciencia de datos como un campo interdisciplinario que utiliza herramientas de computación, estadística y programación para extraer conocimiento de grandes conjuntos de datos. Finalmente, resume los roles clave, habilidades, lenguajes de programación y métodos de análisis de datos empleados.
Future of Gay Pride Apps: case study EuroPride 2016 AppBas van der Lans
Presentation about the future of Gay Pride Apps by Bas van der Lans at the InterPride Gay Pride Conference. Followed by a Q&A by Ruben Nederpel (Amsterdam Gay Pride organiser) and Bas van der Lans (Technical Director Van Ons Web and App Development).
The professional expert’s physicians in Dallas and Frisco Diamond Physicians
Physicians in Dallas and Frisco are very beneficial in numerous ways. Because there are highly qualified, board certified and experienced physicians and doctors, who are generalists, dealing with a broad range of physician. To know more details visit herehttp://diamondphysicians.com/Who-We-Are.html
Baltic SCOPE kick-off - Tackling MSP integration challenges in the BSR by Michael Gilek, BaltSpace Project Coordinator, Södertörn University
29 September 2015 Riga, Latvia
* The information presented is the working exercise of the cross-border maritime spatial planning discussions and can not be treated as the official opinion of the European Commission and the Member States involved in the consortium of the Baltic SCOPE project.
* This Topic paper is the working paper based on the joint Baltic SCOPE exercise and cannot be treated as the official opinion of the European Commission and Member States involved.
Read more on: www.balticscope.eu
AIS Data for the Baltic SCOPE project at its partner meeting on 21-22 June 2016 in Szczecin, POLAND
Read more on: www.balticscope.eu
* The information presented is the working exercise on the cross-border maritime spatial planning discussions and can not be treated as the official opinion of the European Commission and the Member States involved in the consortium of the Baltic SCOPE project.
Efficient data reduction and analysis of DECam images using multicore archite...Roberto Muñoz
A talk I gave in the workshop "Tools for astronomical big data" held in Tucson, Arizona on March 2015. My talk was about how to do data science and big data in Astronomy having a small budget.
Pinterest for Business Results Advanced Strategies and Tactics Social Fresh 2016Pam Moore
Pinterest for business results. Provides advanced strategies and tactics to develop a Pinterest strategy, plan to inspire your audiences, increase brand awareness, generate leads and increase sales. Includes strategies to build your online digital platform / website, content marketing strategy, measure results and conversion optimization. Included is visual marketing best practices and loads of industry statistics. These tactics are helpful for large business to small business and entrepreneurs, b2b or b2c.
La geografía y la estadística. dos necesidades para entender big datapedro_juanes
Definir de manera concreta y concisa Big Data como fenómeno. Justificar la Estadística Multivariante aplicada a Big Data. Clasificar y calificar las técnicas multivariantes clásicas que se pueden aplicar.Presentar la GISciencia como el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data.
@LNData, un proyecto multidisciplinario de periodismo de datosgrmadryn
Presentación realizada por Gastón Roitberg (Secretario de Redacción Multimedia de LA NACION) en el marco del primer DataFest de la Argentina, organizado por LA NACION y la Universidad Austral en Buenos Aires, Argentina (2 de noviembre de 2012)
El mundo de Big Data y Data Science es altamente técnico, pero entender cuáles son sus ideas centrales no requiere súper poderes. Explicaremos en qué consiste esta fascinante tendencia tecnológica y sus principales conceptos, herramientas y posibilidades.
Future of Gay Pride Apps: case study EuroPride 2016 AppBas van der Lans
Presentation about the future of Gay Pride Apps by Bas van der Lans at the InterPride Gay Pride Conference. Followed by a Q&A by Ruben Nederpel (Amsterdam Gay Pride organiser) and Bas van der Lans (Technical Director Van Ons Web and App Development).
The professional expert’s physicians in Dallas and Frisco Diamond Physicians
Physicians in Dallas and Frisco are very beneficial in numerous ways. Because there are highly qualified, board certified and experienced physicians and doctors, who are generalists, dealing with a broad range of physician. To know more details visit herehttp://diamondphysicians.com/Who-We-Are.html
Baltic SCOPE kick-off - Tackling MSP integration challenges in the BSR by Michael Gilek, BaltSpace Project Coordinator, Södertörn University
29 September 2015 Riga, Latvia
* The information presented is the working exercise of the cross-border maritime spatial planning discussions and can not be treated as the official opinion of the European Commission and the Member States involved in the consortium of the Baltic SCOPE project.
* This Topic paper is the working paper based on the joint Baltic SCOPE exercise and cannot be treated as the official opinion of the European Commission and Member States involved.
Read more on: www.balticscope.eu
AIS Data for the Baltic SCOPE project at its partner meeting on 21-22 June 2016 in Szczecin, POLAND
Read more on: www.balticscope.eu
* The information presented is the working exercise on the cross-border maritime spatial planning discussions and can not be treated as the official opinion of the European Commission and the Member States involved in the consortium of the Baltic SCOPE project.
Efficient data reduction and analysis of DECam images using multicore archite...Roberto Muñoz
A talk I gave in the workshop "Tools for astronomical big data" held in Tucson, Arizona on March 2015. My talk was about how to do data science and big data in Astronomy having a small budget.
Pinterest for Business Results Advanced Strategies and Tactics Social Fresh 2016Pam Moore
Pinterest for business results. Provides advanced strategies and tactics to develop a Pinterest strategy, plan to inspire your audiences, increase brand awareness, generate leads and increase sales. Includes strategies to build your online digital platform / website, content marketing strategy, measure results and conversion optimization. Included is visual marketing best practices and loads of industry statistics. These tactics are helpful for large business to small business and entrepreneurs, b2b or b2c.
La geografía y la estadística. dos necesidades para entender big datapedro_juanes
Definir de manera concreta y concisa Big Data como fenómeno. Justificar la Estadística Multivariante aplicada a Big Data. Clasificar y calificar las técnicas multivariantes clásicas que se pueden aplicar.Presentar la GISciencia como el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data.
@LNData, un proyecto multidisciplinario de periodismo de datosgrmadryn
Presentación realizada por Gastón Roitberg (Secretario de Redacción Multimedia de LA NACION) en el marco del primer DataFest de la Argentina, organizado por LA NACION y la Universidad Austral en Buenos Aires, Argentina (2 de noviembre de 2012)
El mundo de Big Data y Data Science es altamente técnico, pero entender cuáles son sus ideas centrales no requiere súper poderes. Explicaremos en qué consiste esta fascinante tendencia tecnológica y sus principales conceptos, herramientas y posibilidades.
Innovación en el tratamiento de la información desde la Ingeniería del Conoc...Joaquín Borrego-Díaz
1ª parte de la charla que impartí en el Sistemas de Información Avanzados (Comercio electrónico)
Máster de estudios avanzados en dirección de empresas de la U. de Sevilla en Febrero de 2012
Presentación de Gastón Roitberg en el VII Congreso de FOPEA "El periodismo de investigación en la era digital: un nuevo desafío, la misma ética". Mesa redonda sobre "Periodismo de Datos en América Latina".
Los avances tecnológicos del último siglo nos han permitido abrir nuevas ventanas de exploración y nos han ayudado a empujar las fronteras del conocimiento. Gracias a la introducción de computadores cada vez más veloces e instrumentos astronómicos cada vez más sensibles a la luz, hoy en día contamos con catálogos de cientos de millones de estrellas y galaxias que habitan en nuestro Universo. Vivimos en la Era de la información y la exploración del Universo requiere que sepamos de Astronomía, Informática y Estadística.
Global AI nights - Casos de uso de ML en AstronomiaRoberto Muñoz
Charla que dicte en el capitulo chileno de Global AI Nights en Septiembre del 2019. Se muestran dos casos de uso para observatorios astronomicos en Chile
Inserción de científicos en la industria tecnológicaRoberto Muñoz
Charla que dicté en el 1er Workshop de Innovación organizado por la Universidad de Santiago de Chile. Presento el actual escenario en latinoamerica y Chile acerca de la inserción de científicos en el sector productivo. Cierro entregando un par ce consejos a estudiantes de pregrado y posgrado en disciplinas científicas.
An invited talk I gave in the Observatorio de Cordoba in Argentina. I talk about my research in Astronomy and how I made the transition from academia to industry.
I will list the main differences between the academic and industrial research, what skills are the most valued by tech companies and how young scientists can make the move to industry as smoothly and successful as possible.
Avances y desafíos en la exploración del UniversoRoberto Muñoz
Charla que dicté en el colegio Sol de Chile de la comuna de Los Espejo en Santiago, Chile. La charla estuvo enmarcada dentro de las actividades del Día del Asteroide.
Video analytics: Mejorando la seguridad y calidad de vidaRoberto Muñoz
Charla que dicté en el evento de Internet of Things organizado por Microsoft y MetricArts en Chile. Se discute acerca de la solución tecnológica que hemos desarrollado para mejorar la seguridad en el transporte público y la ciudad.
From astronomy to video analytics industryRoberto Muñoz
Talk I gave at the 3rd Astroengineering workshop in Santiago, Chile. Projects I'm currently involved as a researcher in an Institute of Astrophysics and a Business intelligence company.
The Next Generation Fornax Survey - Pucon Symposium 2015Roberto Muñoz
It's the talk I gave in the Pucon Symposium 2015 about the Next Generation Fornax Survey and the discovery of a large number of dwarf galaxies in the Fornax cluster.
Astronomía en la era del big data - Arica, junio del 2015Roberto Muñoz
Charla dada en la ciudad de Arica, Chile acerca de cómo la comunidad astronómica chilena se está preparando para el tsunami de datos que están generando los telescopios en territorio nacional.
Diapositivas D.I.P.. sobre la importancia que tiene la interpol en HonduraspptxWalterOrdoez22
Es un conjunto de diapositivas creadas para la información sobre la importancia que tienen la interpol en honduras y los tratados entre ambas instituciones
Ipsos, empresa de investigación de mercados y opinión pública, divulgó su informe N°29 “Claves Ipsos” correspondiente al mes de abril, que encuestó a 800 personas con el fin de identificar las principales opiniones y comportamientos de las y los ciudadanos respecto de temas de interés para el país. En esta edición se abordó la a Carabineros de Chile, su evaluación, legitimidad en su actuar y el asesinato de tres funcionarios en Cañete. Además, se consultó sobre el Ejército y la opinión respecto de la marcha en Putre.
1. Ciencia
de
datos:
Aprendiendo
lo
básico
Roberto
Muñoz,
PhD
Astronomer
and
Data
Scientist
Pontificia
Universidad
Católicade
Chile
github.com/rpmunoz
2. Roberto Muñoz github.com/rpmunoz
Evolución
procesamiento
de
datos
• 1890:
Se
usa
la
máquina
tabuladora
de
Hollerith
para
procesar los datos del
censo de
EE.UU.
• 1951:
Se
diseña
el
primer
computador
electrónico
con
fines
comerciales,
UNIVAC
I.
Cómputo
Manual
Cómputo
Automático
Cómputo
Automático
Cómputo
Electrónico
3. Roberto Muñoz github.com/rpmunoz
Costo
del
cómputo
• Desde
la
invención
de
los
computadores
electrónicos,
tanto
el
precio
como
el
tamaño
han
disminuido
sostenidamente.
4. Roberto Muñoz github.com/rpmunoz
Tsunami
de
datos
• Durante las últimas décadas la sociedad en su
conjunto se ha digitalizado.
• Mayor capacidad de cómputo y tecnología más
asequible han permitido un crecimiento explosivo
de los datos.
Fuente: Oracle, 2012
Los datos crecen a una
tasa anual del 40%.
Se estima una producción
de 45 ZB para el 2020.
5. Roberto Muñoz github.com/rpmunoz
Comunidad
Open
Source
• Una mayor variedad y cantidad de datos trae
consigo nuevos desafíos.
• Desarrollo continuo de herramientas y métodos
para analizar los datos.
• Transición de software empaquetado y comercial
a uno desarrollado por comunidad open source.
6. Roberto Muñoz github.com/rpmunoz
Casos
notables
nyc-taxi-data
uber-tlc-foil-response
Análisis de uso de Taxis y Uber en NYC
Open Data+Open Source
Fuente: FiveThirtyEight
9. Roberto Muñoz github.com/rpmunoz
¿Qué
es
la
Ciencia
de
datos?
• La Ciencia de datos o Data Science es un campo
interdisciplinario que se ocupa de los procesos y
sistemas usados en la extracción de conocimiento
a partir del análisis de datos.
• Se dice interdisciplinario pues requiere
conocimientos de los campos de la computación,
matemáticas y estadística.
Programación Estadística Data
Science
10. Roberto Muñoz github.com/rpmunoz
¿Cambio
de
paradigma?
• Los datos digitales y las tecnologías han
cambiado la manera en cómo vivimos y cómo
entendemos el mundo.
• Jim Gray, investigador de
Microsoft y pionero en bases de
datos introdujo el concepto del
cuarto paradigma.
• Era experimental, teórica,
computacional y últimamente la
Era del dato.
11. Roberto Muñoz github.com/rpmunoz
Carácter interdisciplinario
Diagrama de Venn para Data Science
Drew Conway (2010)
Habilidades
Programación
Exploración de datos
Soluciones creativas
Conocimientos
Matemáticas
Estadística
Experticia
Especialización
Conocimiento de campo
12. Roberto Muñoz github.com/rpmunoz
¿Qué
hace
un
Data
Scientist?
• Profesional que posee las herramientas y los
conocimientosnecesarios para:
– Recolectar y filtrar datos de diversas fuentes
– Explorar de manera efectiva un set de datos
– Obtener información valiosa oculta en los datos
– Construir modelos que permitan tomar decisiones
informadas.
Data Scientist: Persona que es mejor en estadística que
cualquier ingeniero de software y que es mejor en
ingeniería de software que cualquier estadístico.
13. Roberto Muñoz github.com/rpmunoz
Conocimientos
y
Habilidades
• Formación universitaria en las áreas de
Ingeniería y Ciencias Naturales. Idealmente
tienen Magister y PhD.
• Poseen conocimientos de Matemáticas,
Estadísticay Programación computacional.
• Se caracterizan por su curiosidad intelectual,
son capaces de diseñar experimentos y
comunicar de manera efectiva los resultados.
16. Roberto Muñoz github.com/rpmunoz
Tipos
de
datos
• Los datos son el punto de partida para todo
análisis.
• Tipos de datos de acuerdo a organización
– Estructurados: Están altamente organizados.
Se almacenan en una base de datos relacional.
BD
17. Roberto Muñoz github.com/rpmunoz
Tipos
de
datos
– No estructurados: Son datos crudos y no están
organizados. Deben ser procesados y
transformados para luego ser almacenados en
una base de datos.
18. Roberto Muñoz github.com/rpmunoz
Lenguajes
de
programación
• Los lenguajes más usados por la comunidad de
Data Science son Python y R. Se estima que
Python tiene más de 30M de usuarios y R más de
16M.
• R es más funcional y los módulos de análisis
estadísitico vienen incorporados.
• Python es más orientado a objetos y deben
cargarse módulos para hacer análisis.
19. Roberto Muñoz github.com/rpmunoz
Visualizaciones
• Las visualizaciones juega un rol importante en
todo el proceso de análisis de datos. Permiten
explorar los datos, examinar resultados y
comparar cualitativamentelos modelos.
Edad
Número
personas
Anscombe’s quartet
20. Roberto Muñoz github.com/rpmunoz
Construcción de
modelos
• La construcción y validación de modelos son
es clave para los objetivos.
• Permiten entender el comportamiento del
sistema, definir cantidades de interés, buscar
outliers en los datos y últimamente hacer
análisis predictivo.
22. Roberto Muñoz github.com/rpmunoz
Recursos
en
Internet
http://www.datasciencecentral.com
http://blog.kaggle.com
http://www.kdnuggets.com
https://www.quora.com/topic/Data-Science
23. Roberto Muñoz github.com/rpmunoz
Tutorial
análisis de
datos
• Usaremos un
notebook
de
Jupyter y
Python
3
para
mostrar
parte
del
proceso
que
se
hace
en
Data
Science.
• El
notebook
de
Python
se
puede
descargar
desde
la
carpeta
CIO2016 en
github.com/rpmunoz/datascience
25. Roberto Muñoz github.com/rpmunoz
Bibliografía
• A
very
short
history
of
Data
Science
• From
Data
Mining
to
Knowledge
Discovery
in
Databases
• A
Project-‐Based
Case
Study
of
Data
Science
Education