5. BIG DATA
Término que hace referencia a una cantidad de datos tal que supera la capacidad
del software habitual para ser capturados, gestionados y procesados en un tiempo
razonable. Deben garantizarse las 3 Vs (volumen, variedad y velocidad)
5
9. Que es “Data Science”
Habilidades para resolver problemas
Habilidades de comunicación
Mente abierta
Otras cualidades:
Es escéptico y curioso.
Conocimientos sobre machine learning
Estadísticas y probabilidad
Aplica el método científico.
Ejecuta experimentos.
Es bueno codificando y hackeando.
Capaz de hacer frente a la ingeniería de datos de TI.
Capaz de encontrar respuestas a las incógnitas.
Tiene conocimiento del dominio
9
11. Que hacen los Data Scientists
Diseña y personaliza sistemas y herramientas
Trabaja con datos estructurados y no estructurados
Crea flujos de procesos de datos
Analiza grandes volúmenes de datos (TB, PB)
Construye modelos predictivos
Crea visualizaciones
Diseña productos de datos
Usa Hadoop, MapReduce, Hive, Python, R
11
16. Data Science y el Open Source
Sistemas operativos:
Linux + Shell tools
Instrumentos Big data:
Hadoop (MapReduce) + hadoop tools
Hive, Pig
NoSQL (Hbase, MongoDB, Cassandra, Neo4J)
Bases de datos
SQL
16
17. Data Science y el Open Source
Programación:
Python
Java
R
Machine Learning:
Matlab
Python libraries (NumPy, SciPy, Nltk)
Java Libraries (Mahout)
17
18. Programación en R
Here are just a few examples:
Google uses R to calculate the ROI on advertising campaigns.
Ford uses R to improve the design of its vehicles.
Twitter uses R to monitor user experience.
The US National Weather Service uses R to predict severe flooding.
The Rockefeller Institute of Government uses R to develop models for simulating the
finances of public pension funds.
The Human Rights Data Analysis Group uses R to quantify the impact of war.
R is used frequently by The New York Times to create infographics and interactive data
journalism applications.
18
19. PROGRAMACIÓN CON R
Que es R?
R es un lenguaje de programación estadístico con licencia GPL.
Está basado en el leguaje S desarrollado en los laboratorios Bell.
Es un lenguaje muy poderoso para escribir programas y es
multiplataforma (MacOS, Linux, Windows)
Posee muchas funciones estadísticas.
Existen muchísimos paquetes que extienden su funcionalidad
19
20. Introducción con R
Donde lo obtenemos: http://www.r-project.org
Descargas: CRAN
Seleccionar un mirror
Seleccionar el sistema operativo.
Seleccionar la base, ultima versión: R 3.2.0
20
22. R Studio
RStudio es un entorno de desarrollo integrado (IDE) para R que funciona con la
versión estándar de R disponible en CRAN.
Al igual que R, RStudio es software libre.
El objetivo de sus creadores es desarrollar una herramienta potente que soporte
los procedimientos y técnicas requeridas para realizar análisis de alta calidad y
dignos de confianza.
Al mismo tiempo, pretenden que RStudio sea tan sencillo e intuitivo como sea
posible para proporcionar un entorno amigable, tanto para los ya experimentados
como para los nuevos usuarios de R.
22