Módulo 3. Administración Avanzada del Sistema
operativo GNU/Linux
Asignatura: 3.2 Administración y análisis de datos
Docente: Mauricio Arancibia Patzi
Tema 3. Business Intelligence y Data Science
3.3 Introducción al Data Science
Sucre – Bolivia, Abril 2016
2
Datos, el nuevo petróleo!!!!!!!!!
✔
Cada día se genera 2,5 trillones de bytes de
datos.
✔
90% de esta información solo en los últimos
años.
✔
Para el 2020 esta cifra será 50 veces mayor.
✔
Para el 2032 nos enfrentaremos a un panorama
donde el 80% del “BigData” estará des-
estructurado.
Tema 3.3 Introducción al Data Science
3
Porque tiene importancia ahora?
✔
Con la emergencia en los últimos
años del BigData, existe una
disponibilidad enorme de datos tanto
a nivel de internet como en las
organizaciones.
✔
Ademas existe una importante
apuesta por los datos abiertos “Open
Data” y muchos organizamos se están
adhiriendo a esta iniciativa.
✔
Gobiernos y compañías han puesto
énfasis en el valor de la cantidad de
datos disponibles y la posibilidad de
extraer conocimiento de ellos.
Tema 3.3 Introducción al Data Science
4
El internet de los eventos
5
Qué es Data Science?
Podemos decir que trata del estudio de la extracción
generalizada de conocimiento a partir de información,
de datos.
6
Que es un Científico de datos (Data Scientist)?
7
Data Scientist: El trabajo más sexy del sigo 21
✔
Miles de científicos de datos están
trabajando en start-ups y
compañías bien establecidas
✔
El Bigdata reclama una nueva
tecnología que maneja toda esa
montaña de datos y sepa
aprovecharla
8
Data Science es Multidisciplinario
9
Como cambiará la forma de hacer negocios en el
futuro?
✔
Capacidad de predecir el futuro
Los científicos de datos visualizan y analizan los datos para predecir lo que puede
llegar a pasar en un mercado ante una decisión de la empresa o de sus competidores
✔
Ayuda a tomar decisiones
Los análisis predictivos ayuda en la toma de decisiones en los niveles gerenciales.
✔
Encaminar los planes de mercadeo
Un científico de datos no solo recurre al pasado (BI) sino que anticipa el futuro a través
del poder predictivo de la analítica de negocios.
✔
Mejorar los niveles de servicio o atención a ciudadanos
Entidades publica podrán saber a ciencia cierta que quiere sus ciudadanos que
conlleva a elevar los niveles de satisfacción.
Tema 3.3 Introducción al Data Science
10
Demanda de Data Scientist
Tema 3.3 Introducción al Data Science
11
Que habilidades y cualidades tiene que tener un
Data Scientist?
✔
Conocimientos en estadística
✔
Investigación operativa y optimización
✔
Programar en varios lenguajes
✔
Capacidad de traducir un problema real a un modelo
✔
Se capaz de optimizar el modelo
✔
Ayudar a que dicho modelo sea fácil de implementar y se
traduzca en retornos para la compañía o valor útil para una
institución.
“MULTITASKING”
12
Caja de herramientas
Muchos de los conocimientos tiene que ver con la matemática y
la estadística, pero además se precisa de diversos
conocimientos informáticos:
✔ Bases de datos relaciones, SQL
✔ Bases de datos no relacionales, Big Data, NoSQL
✔ Lenguajes de programación: R, Python
✔ Machine Learning
✔ Programación de altas prestaciones, programación distribuida.
13
BI vs Data Science
14
BI vs Data Science
Business Intelligence Data Science
Análisis de Datos SI SI
Estadística SI SI
Visualización SI SI
Data Source Usualmente SQL, a
menudo Data
Warehouse
Menos estructurado
(logs, cloud, data, SQL,
NoSQL, textos)
Herramientas Estadística,
Visualización
Estadística,Machine
Learning, Análisis de
Gráficos
Enfoque Presente y pasado Futuro
Método Analítico Científico
Objetivo Mejores decisiones
estratégicas
Funcionalidad avanzada
Están muy relacionados. En algunos aspectos DS es una evolución del BI
15
Evolución del BI → Data Science
16
Flujo de trabajo de un Data Scientist
17
Algunas aplicaciones
Marketing:
✔Segmentación del mercado
✔Análisis de productos
✔Adquisición de nuevos clientes
✔Sistemas de recomendación de ventas
✔Análisis del social media
Finanzas y seguros:
✔Prevención de fraudes
✔Detección de anomalías
✔Análisis de riesgos crediticios
✔Modelados para aseguradoras
✔Optimización de portafolio
Salud y Farmacéuticos:
✔Análisis genético
✔Análisis clínico
✔Sistema de soporte en diagnósticos
18
Data Science y el Open Source
✔
Sistemas operativos
✔ Linux + herramientas Shell
✔
Instrumentos Big Data
✔ Hadoop (MapReduce) + hadoop tools
✔ Hive, Pig
✔ NoSQL (Hbase, MongoDB, Cassandra, Neo4J)
✔
Bases de datos
✔ SGBD libres (PostgreSQL, MySQL, etc.)
Tema 3.3 Introducción al Data Science
19
Data Science y el Open Source
✔
Programación
✔ Python
✔ Java
✔ Lenguaje R
✔
Dataminig
✔ RapidMiner
✔ Weka
✔ Orange
20
Rapidminer
✔
Herramienta para el análisis de datos y mineria de datos
✔
Desarrollado en Java.
✔
Multiplataforma.
✔
Representación interna de los procesos de análisis de datos en ficheros XML.
✔
Permite el desarrollo de programas a través de un lenguaje de script.
✔
Puede usarse de diversas maneras:
✔
A través de un GUI.
✔
En línea de comandos.
✔
En batch (lotes).
✔
Desde otros programas a través de llamadas a sus bibliotecas.
✔
Extensible.
✔
Incluye gráficos y herramientas de visualización de datos.
✔
Dispone de un módulo de integración con R.
21
Rapidminer (Cuadrante Gartner)

Tema 3.3 introduccion al data science

  • 1.
    Módulo 3. AdministraciónAvanzada del Sistema operativo GNU/Linux Asignatura: 3.2 Administración y análisis de datos Docente: Mauricio Arancibia Patzi Tema 3. Business Intelligence y Data Science 3.3 Introducción al Data Science Sucre – Bolivia, Abril 2016
  • 2.
    2 Datos, el nuevopetróleo!!!!!!!!! ✔ Cada día se genera 2,5 trillones de bytes de datos. ✔ 90% de esta información solo en los últimos años. ✔ Para el 2020 esta cifra será 50 veces mayor. ✔ Para el 2032 nos enfrentaremos a un panorama donde el 80% del “BigData” estará des- estructurado. Tema 3.3 Introducción al Data Science
  • 3.
    3 Porque tiene importanciaahora? ✔ Con la emergencia en los últimos años del BigData, existe una disponibilidad enorme de datos tanto a nivel de internet como en las organizaciones. ✔ Ademas existe una importante apuesta por los datos abiertos “Open Data” y muchos organizamos se están adhiriendo a esta iniciativa. ✔ Gobiernos y compañías han puesto énfasis en el valor de la cantidad de datos disponibles y la posibilidad de extraer conocimiento de ellos. Tema 3.3 Introducción al Data Science
  • 4.
    4 El internet delos eventos
  • 5.
    5 Qué es DataScience? Podemos decir que trata del estudio de la extracción generalizada de conocimiento a partir de información, de datos.
  • 6.
    6 Que es unCientífico de datos (Data Scientist)?
  • 7.
    7 Data Scientist: Eltrabajo más sexy del sigo 21 ✔ Miles de científicos de datos están trabajando en start-ups y compañías bien establecidas ✔ El Bigdata reclama una nueva tecnología que maneja toda esa montaña de datos y sepa aprovecharla
  • 8.
    8 Data Science esMultidisciplinario
  • 9.
    9 Como cambiará laforma de hacer negocios en el futuro? ✔ Capacidad de predecir el futuro Los científicos de datos visualizan y analizan los datos para predecir lo que puede llegar a pasar en un mercado ante una decisión de la empresa o de sus competidores ✔ Ayuda a tomar decisiones Los análisis predictivos ayuda en la toma de decisiones en los niveles gerenciales. ✔ Encaminar los planes de mercadeo Un científico de datos no solo recurre al pasado (BI) sino que anticipa el futuro a través del poder predictivo de la analítica de negocios. ✔ Mejorar los niveles de servicio o atención a ciudadanos Entidades publica podrán saber a ciencia cierta que quiere sus ciudadanos que conlleva a elevar los niveles de satisfacción. Tema 3.3 Introducción al Data Science
  • 10.
    10 Demanda de DataScientist Tema 3.3 Introducción al Data Science
  • 11.
    11 Que habilidades ycualidades tiene que tener un Data Scientist? ✔ Conocimientos en estadística ✔ Investigación operativa y optimización ✔ Programar en varios lenguajes ✔ Capacidad de traducir un problema real a un modelo ✔ Se capaz de optimizar el modelo ✔ Ayudar a que dicho modelo sea fácil de implementar y se traduzca en retornos para la compañía o valor útil para una institución. “MULTITASKING”
  • 12.
    12 Caja de herramientas Muchosde los conocimientos tiene que ver con la matemática y la estadística, pero además se precisa de diversos conocimientos informáticos: ✔ Bases de datos relaciones, SQL ✔ Bases de datos no relacionales, Big Data, NoSQL ✔ Lenguajes de programación: R, Python ✔ Machine Learning ✔ Programación de altas prestaciones, programación distribuida.
  • 13.
  • 14.
    14 BI vs DataScience Business Intelligence Data Science Análisis de Datos SI SI Estadística SI SI Visualización SI SI Data Source Usualmente SQL, a menudo Data Warehouse Menos estructurado (logs, cloud, data, SQL, NoSQL, textos) Herramientas Estadística, Visualización Estadística,Machine Learning, Análisis de Gráficos Enfoque Presente y pasado Futuro Método Analítico Científico Objetivo Mejores decisiones estratégicas Funcionalidad avanzada Están muy relacionados. En algunos aspectos DS es una evolución del BI
  • 15.
    15 Evolución del BI→ Data Science
  • 16.
    16 Flujo de trabajode un Data Scientist
  • 17.
    17 Algunas aplicaciones Marketing: ✔Segmentación delmercado ✔Análisis de productos ✔Adquisición de nuevos clientes ✔Sistemas de recomendación de ventas ✔Análisis del social media Finanzas y seguros: ✔Prevención de fraudes ✔Detección de anomalías ✔Análisis de riesgos crediticios ✔Modelados para aseguradoras ✔Optimización de portafolio Salud y Farmacéuticos: ✔Análisis genético ✔Análisis clínico ✔Sistema de soporte en diagnósticos
  • 18.
    18 Data Science yel Open Source ✔ Sistemas operativos ✔ Linux + herramientas Shell ✔ Instrumentos Big Data ✔ Hadoop (MapReduce) + hadoop tools ✔ Hive, Pig ✔ NoSQL (Hbase, MongoDB, Cassandra, Neo4J) ✔ Bases de datos ✔ SGBD libres (PostgreSQL, MySQL, etc.) Tema 3.3 Introducción al Data Science
  • 19.
    19 Data Science yel Open Source ✔ Programación ✔ Python ✔ Java ✔ Lenguaje R ✔ Dataminig ✔ RapidMiner ✔ Weka ✔ Orange
  • 20.
    20 Rapidminer ✔ Herramienta para elanálisis de datos y mineria de datos ✔ Desarrollado en Java. ✔ Multiplataforma. ✔ Representación interna de los procesos de análisis de datos en ficheros XML. ✔ Permite el desarrollo de programas a través de un lenguaje de script. ✔ Puede usarse de diversas maneras: ✔ A través de un GUI. ✔ En línea de comandos. ✔ En batch (lotes). ✔ Desde otros programas a través de llamadas a sus bibliotecas. ✔ Extensible. ✔ Incluye gráficos y herramientas de visualización de datos. ✔ Dispone de un módulo de integración con R.
  • 21.