Herramientas de Microsoft para el Científicos de Datos

Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
PASS Regional Mentor
PASS Global Board of Directors Advisor
ecastro@simsasys.com
http://www.youtube.com/eduardocastrom
Herramientas SQL Server y Microsoft
Azure para el Científico de Datos

Patrocinadores del SQL Saturday
Gold Sponsor
Geek Sponsor
Bronze Sponsor

Científico de datos
 Ciencia de datos: un término utilizado
indistintamente con inteligencia de negocio o
análitica empresarial

Qué es ciencia de datos?
 Descubrir lo que nó sabemos de los datos
 Obtener conocimiento de los datos, que
permita hacer predicciones y tomar acciones
 Crear soluciones basadas en datos que
tienen impacto en el negocio
 Relacionar los datos con el negocio
 Crear confianza en la toma de decisiones
que brindan valor para el negocio

Científico de datos
 Un científico de datos incorpora técnicas y
teorías de muchos campos, incluyendo las
matemáticas, la estadística, la ingeniería de
datos, reconocimiento de patrones, aprendizaje
avanzado , visualización, modelado de la
incertidumbre, almacenamiento de datos y la
computación de alto rendimiento con el objetivo
de extraer el significado de datos.

Quién es un científico de datos?
Alguien mejor en las estadísticas que cualquier ingeniero
de software, y alguien mejor
en la ingeniería de software que cualquier estadístico

Qué NO es un científico de datos?
Los ingenieros de software entienden
conceptualmente los modelos
como la regresión lineal, pero no
entienden realmente los supuestos de
modelización estadística
Usualmente los ingenieros inexpertos piensan
que están haciendo análisis de datos y
búsqueda de puntos de patrones, pero lo que
están encontrando son valores sin sentido, o al
menos no lo que ellos piensan que están
encontrando

Qué es un analista de datos?
Un analista de datos no sabe cómo codificar, sino que
se espera que sea experto en herramientas de la
industria, tales como Excel o Finanzas en un terminal
de Bloomberg

Qué es un Data Scientist?
Un científico de datos definitivamente tiene un mucho mayor
comprensión de la informática y se espera que él desarrolle
herramientas o que utilice algunas herramientas no estándar
para las necesidades de productos o las necesidades de la
empresa.

Qué es un Data Scientist?
Data Science London. 2013.

Qué hace un científico de datos?

10 Cosas que hacen los científicos de datos
1. Realizar preguntas adecuadas
 Qué es lo que no conocemos
 Qué es lo que nos gustaría conocer
2. Definir hipótesis y probarlas, ejecutar
experimentos
3. Scoop, Scrap, Sink datos del negocio
4. Data munging
5. Explorar Datos, Descubrir Datos, Descubrir
hechos desconocidos

10 Cosas que hacen los científicos de datos
 Modelar datos, modelar algoritmos
 Entender las relaciones de los datos
 Decirle a la máquina cómo aprender de los
datos
 Crear soluciones de datos que entregar
conocimiento para tomar decisiones
 Expresar los datos con conocimiento que es
relevante para el negocio

Data Scientist Toolkit
 Java, R, Python… (bonus: Clojure, Haskell, Scala)
 Hadoop, HDFS MapReduce… (bonus: Spark, Storm)
 HBase, Pig Hive… (bonus: Shark, Impala, Cascalog)
 ETL, Webscrapers,Flume, Sqoop… (bonus: Hume)
 SQL, RDBMS, DW, OLAP…
 Knime, Weka, RapidMiner…(bonus: SciPy, NumPy, scikit-
learn, pandas)
 D3.js, Gephi, ggplot2, Tableu, Flare, Shiny…
 SPSS, Matlab, SAS
 NoSQL, Mongo DB, Couchbase, Cassandra
 MS-Excel: la herramienta más utilizada

Encadenar Herramientas para la Ciencia de
Datos
Data
Preparation
Exploratory
Analysis
Inference /
Prediction
Solution
Implementation
Results
Communication
Sobresal
irHadoop
RDBMS
/ SQL
Pitón
Sobresa
lir
R
Pitón
Persona
lizado
Código
R
• Utilice el conjunto de herramientas de la derecha en diferente
etapas

Modern R es más difícil que SQL
http:
//cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html

Lo que importa más es la capacidad de elegir y aprender
las herramientas y los métodos correctos ...

Mezclado
en una
solo vista
Datos, datos por todas partes ...
Estructurado interna
Datos
financieros
I Estructuradonternal
Datos de las
ventas
Semiestructuradas
eXternal
Datos Sociales
Varios tipos,
múltiple
fuentes

Principales fuentes de datos
 Redes sociales y medios de comunicación
 700 millones de usuarios de Facebook, 250 millones de
usuarios de Twitter y 156 millones de blogs públicos
 Dispositivos móviles
 Más de 5 mil millones de teléfonos móviles en uso en
todo el mundo
 Transacciones en Internet
 miles de millones de compras en línea, operaciones de
bolsa y otras transacciones ocurren todos los días
 Dispositivos de red y sensores

Dominio Escenarios de grandes volúmenes datos comunes
Servicios financieros Modelado riesgo verdadero
Análisis de las amenazas y detección de fraude
Vigilancia Comercio
El puntaje de crédito y análisis
Medios y Entretenimiento Los motores de recomendación
Focalización Ad
Buscar calidad
Los abusos y detección de fraude de clics
Venta al por menor Punto de análisis de las transacciones de
ventas
Análisis de la pérdida de clientes
El análisis de sentimientos (sentiment
analysis)
Telecomunicaciones Cliente prevención del churn
La optimización del rendimiento de la red
Detalles de llamadas (CDR) y su análisis
Predicción de fallos de red
Gobierno Seguridad Cibernética (botnets, fraudes)
La congestión del tráfico y re-enrutamiento
Monitoreo Ambiental
Monitoreo Antisocial través de medios sociales
Salud La investigación del genoma
La investigación del cáncer
Pandemias detección temprana
Monitoreo de la calidad del aire

Nuevos Enfoques para el procesamiento y análisis de
datos
 Hay varios métodos para procesar y analizar grandes
volúmenes de datos, pero la mayoría tienen algunas
características comunes
 Hadoop
 NoSQL
 Bases de datos analíticos masivamente paralelo

ANALÍTICA DEL MAÑANA:
INICIA HOY

Escenarios de datos masivos
Transform
ar
+ Analizar
Visualizar
+ Decidir
Capturar
+
Organizar
Datos


Almacenamiento
adaptadores
Corriente
tratamient
o
Gateways Nube
(APIs web)
Field
gateways
Aplicaciones
Búsqueda y consulta
Análisis de datos (Excel)
/ Cliente pesado Web
cuadros de mando
Dispositivos
Kafka /
RabbitMQ /
ActiveMQ
Web y Social
Dispositivos
Sensore
s

Aplicaciones de datos
intensivos
Activity Queue
Azure Storage
Google Analytics
Logs
Azure Storage
Email DBs
SQL Azure x 16
Username DBs
SQL Azure x 16
User Profiles
SQL Azure x 400
Activity Table
X 50 Partitions
Azure Storage
IIS Logs
Azure Storage
Data Analysis: Staging
Virtual Machine
Data
Warehouse
Reporting
Services
Activity Processors
Worker Roles x 2
Cache
Users and Friends Feed
Games and Leader Boards
Resources and References
Distributed Cache x 32
Cache Tasks
Worker Roles x 4
Back Office
Web Roles x 2
Background Tasks DB
Utility DB, Content
DB, Taxonomy DB
SQL Azure
Web Application
Web Roles x 180
Web Service/API
Web Roles x 2
Moderation
Service/Appliance
CRISP/3rd
Party

Infraestructura de Datos en la SU

Clúster Hadoop
Yahoo! Hadoop clúster, 2007.
Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.

Clúster Hadoop
Buster Cluster, un proyecto de investigación Miles
Osborne, de la Universidad de Edimburgo, Facultad de
Informática.
Imagen utilizada con permiso.
http://homepages.inf.ed.ac.uk/miles/

Cluster Hadoop
Nube
Rent-A-Hadoop-cluster, o bien:
"Superordenador de centavos"
Windows Azure HD Insight

Windows HADOOP
 2 Versiones
 Cloud
 Azure Service
 On Permise
 Integración con el Hadoop File System with Active Directory
 Integración con BI
 Herramientas de integración
 Sqoop
 Integración con SQL Server

Introducción a HDInsight
 HDInsight es una implementación de Microsoft 100%
compatible con la distribución de Apache Hadoop
 Disponible tanto para Windows Server y como un servicio
Windows Azure
 Permite que las empresas analicen datos no estructurados
con herramientas bien conocidas tales como Excel

Windows Azure HDInsight Service
Query &
Metadata:
Data
Movement:
Workflow: Monitoring:

Windows Azure HDInsight Service

Procesamiento de la lógica en HDInsight
1.6, 2.1, 3.0

Procesamiento de la lógica en HDInsight 3.0
Hadoop 2.2: interactivo, en línea, stream, o por lotes

Ciencia de datos Hadoop
Actualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no
Filtrado colaborativo,
recomendadores, clustering,
singular value decomposition
parallel frequent pattern
mining, naïve Bayes, árbol de
decisión

Un mapa de mapas ....
Almacenamiento Columnar

Análisis de sensors
Consultas en tiempo real
Indexación Web
Sistemas de mensajería
Dashboards interactivos
Casos de uso enfoque columnar

• Escrituras/Lecturas aleatorias y
consitentes en tiempo real
• Sharding automático y escalabilidad
linea
• Miles de millones de filas - Millones
de columnas
• TB y PB de datos
• Esquema flexible
• Datos estructurados y semi-
estructurados
• Lecturas y escrituras rápidas
Patrones / En que funciona Anti-patrón / Peligro
Conjuntos de datos pequeños (miles /
millones de filas)
Agregaciones
Cualquier scenario que requiera:
• Union
• Transacciones
• Capacidades completas de un
RDBMS
¿Por qué en unfoque columnar?

¿Qué es HBase?
Base de datos distribuida no relacional
Modelo de datos en columnas
NoSQL construido sobre Hadoop
Gran escalabilidad
Escalabilidad lineal
Miles de millones de filas x millones de columnas
Muchas implementaciones con 1000 nodos, PB de datos
Baja latencia
Lecturas/Escrituras aleatorias en tiempo real
Código abierto
Siguiendo el modelo de Google BigTable
Iniciado en 2006
7

Arquitectura de HBase
21
Eficiente con lecturas /
escrituras aleatorias
Almacenamiento
distrubuido escalable
Utiliza Hadoop para la
persistencia
Ambos HBase y
Hadoop
son distribuidos
HRegionServer
HRegion
ConGrup
o
MenStore
Storefile
HFile
Tienda Hom
bres
Tiend
a
Tienda
HBase
Storefile
HFile
Storefile
HFile
HRegionServer
HRegion
ConGrup
o
MenStore
Storefile
HFile
Tienda Hom
bres
Tiend
a
Tienda
Storefile
HFile
Storefile
HFile
Cliente HmasterZooKeeper
DFS
Cliente
DFS
Cliente
Hadoop
DataNode DataNode DataNode DataNode DataNode

HBase Arquitectura Física : HDInsight
Region
Server N
L
RES
T
Blob
Storage
Account
Web Front
End 1
Web Front
End N
ZK1
Master1
M
ZK2
Master2
M
ZK3
Master3
M
Region
Server 1
L
RES
T
Virtual Network
Web App
Head Node
Yarn, M/R Services
L
HBase
GW 1
GW 2
45

CREATE TABLE IF NOT EXISTS "kinecttelemetry"(" K "clave
principal VARCHAR," edad "VARCHAR," género
"VARCHAR)default_column_family= 'demografía';
Apache Phoenix: SQL Skin sobre HBase
Phoenix en 15 minutos o menos

 Interfaz SQL sobre HBase
 Vista de solo lectura sobre los datos existentes HBase
 Typed data en conjunto con query optimizations
 Estadísticas
 Índices secundarios
 Escalamiento SQL con HBase como plataforma de
almacenamiento de datos
Apache Phoenix
http: //phoenix.apache.org/presentations/OC-HUG-2014-10-4x3.pdf

Cargar datos al blog storage de Windows
Azure
 Para prototipos y ejemplos: #put
 Para producción utilizer el blob storage APIs.
 AzCopy Command Line
 CopyBlob REST API

Cómo consumir Resultados de HDInsight
Destino Herramienta / Biblioteca Requiere Active HDInsight
Cluster
SQL Server,
Azure SQL DB
Sqoop (Hadoop ecosystem project) Yes
Excel Codename “Data Explorer” No
Otra Blob Storage
Account
Azure Blob Storage REST APIs (Copy Blob, etc) No
SQL Server Analysis
Services
Hive ODBC Driver Yes
BI Apps Existentes Hive ODBC Driver (assumes app supports
ODBC connections to data sources)
Yes

Hadoop y Kafka
Centro de datos en
directo
Centro de datos fuera
de línea
HadoopHadoopDev
Hadoop
InterfazInterfazLos
consumidoresre
s en tiempo real
KafkaKafkaKafka
KafkaKafkaKafka
HadoopHadoopPROD
Hadoop

¿Apache Storm?
4
Fácil de programar
Una plataforma de
procesamiento en tiempo
real distribuido
Tolerante a fallos
Se espera que que falle y
esta preparado para
recuperarse
Rápido
Velocidad de 1M +
mensajes por segundo
por nodo
Escalable
Miles de workers por
grupo
Seguro
Entrega de mensajes
garantizada
Exactamente una vez
Análisis de
Streaming de
datos

Procesamiento en tiempo real
Apache Storm es sistema de computación distribuida para
análisis en tiempo real.
Storm hace que sea fácil de procesar de manera fiable flujos ilimitadas
de datos, haciendo posible procesar en tiempo real lo Hadoop hizo para
el procesamiento por lotes
1
1

Storm Cluster
5
5
http://files.meetup.com/15878892/Storm%20Presentation.pptx

Casos de uso de Storm
7
Entrada Operadores (Ejemplos) Lookup Salida
Lenguaje De
Programación
Automoviles
Conectados
Event hubs
Window based aggregation,
Join stream/split stream
HBase, ML DocumentDB C# hybrid, Java
ETL Event Hubs
Partitioning/
organize
N/A WASB Java
IoT Event Hubs Window based aggregation Hbase, ML
DocumentDB,
HBase
Java
Detección
Fraude
ServiceBus
Queue
Filter ML Hbase C# hybrid
Análisis Sociales Twitter Groupby/trending topics N/A
Realtime dashboard
(BI)
Trident
Supervisión de
la red
Kafka Split (on success/ failure) ML SQL C# hybrid
Búsqueda de
Log
Storage
Queue/ Event
Hub
Parsing & index N/A Elastic Search Java
Dispositivos
Moviles
Eventhub Count HBase SignalR C# hybrid

Uso de Stormautomovilesconectados
Gateways
Obtener
los datos
Almacen
ar en
blob
Obtener
datos de
referencia
Haga
aprendizaj
e
automático
Almacenar
para
consultas
Servicio de
Queuing
Dashboard en
vivo
Servicio de
Queuing

Uso de Storm- automovilesconectados
6
Gateways
Obtener
los datos
Almacen
ar en
blob
Obtener
datos de
referencia
Haga
aprendizaj
e
automático
Almacenar
para
consultas
Servicio
de Queuing
Dashboard en
vivo
Servicio de
Queuing
Hubs de eventos
Blob HBase ML DocumentDB
PowerBI
Evento
Hubs

Apache Spark complementa Hadoop
• Spark aprovecha Hadoop ecosistema
• HDFS, HCatalog, Entrada de datos / OutputFormats
• Agrega opciones de mejor rendimiento

Intercambio de Datos en
MapReduce
iter. 1 iter. 2 . . .
Entrada
HDFS
leer
HDFS
escribir
HDFS
leer
HDFS
escribir
Entrada
consulta 1
consulta 2
consulta 3
resultado 1
resultado 2
número 3
. . .
HDFS
leer
Lento debido a la replicación, la serialización, y el disco
IO

iter. 1 iter. 2 . . .
Entrada
Intercambio de Datos en
Spark
Repartido
memoria
Entrada
consulta 1
pregunta 2
consulta 3
. . .
una vez
tratamiento
10-100× más rápido que la red y el disco

Combina streaming y análisis complejos

AZURE STREAM ANALYTICS
Ing. Eduardo Castro, PhD

Qué es Azure Stream Analytics

¿Por qué utilizar Stream Analytics en la
nube?
No todos los datos son locales
Los datos de eventos ya está
en la Nube Los datos de eventos esta
distribuida globalmente
TCO reducido scale-out Servicio,
No
infraestructura
Llevar el procesamiento a los datos,
no los datos en el procesamiento!

Componentes de una aplicación
Componentes de un Azure Stream Analytics Application
Azure SQL DB
Azure Event
Hubs
Azure Blob
Storage
Azure Blob
Storage
Azure Event Hubs
Reference Data
Query runs continuously against incoming stream of
events
Events
Havea definedschemaand
are temporal(sequencedin
time)

Definiciones
Frase Objetivo
"La minería de datos" Toma de decisiones
"Machine Learning" Determinar el algoritmo de mejor
desempeño

¿Cuál es el propósito de la minería de
datos?
 El análisis de grandes conjuntos de datos para revelar
patrones y tendencias ocultas
 Algoritmos de minería de datos realizar diferentes tipos
de análisis estadísticos para diferentes escenarios
 La minería de datos tiene una amplia gama de
aplicaciones, por ejemplo:
 Previsión de ventas
 La publicidad dirigida
 La formulación de recomendaciones en línea
 La evaluación de riesgos

Componentes de una solución de minería
de datos de Servicios de Análisis
 Estructura de minería de datos
 Contiene vista de origen de datos
 Contiene la tabla de casos y la estructura de minería de
columnas
 Contiene modelos de minería de datos
 Especifica conjunto de entrenamiento y un conjunto de pruebas
 Tabla de casos
 Tiendas suente datos para los modelos de minería de datos
 Las columnas se han definido los tipos de datos y el tipo de
contenido
 Minería de Datos Modelo
 Utiliza un único algoritmo de minería de datos
 Incluye columnas de estructura de minería de datos

SQL Server Data Mining
 Servicio, no aplicación
 SQL Server Análisis
Services (SSAS)
 Múltiples interfaces:
 SQL Server Data Tools
(SSDT) SQL Server
Management Studio
(SSMS)
 PowerShell

SQL Analysis Services Algoritmos de
minería
 Algoritmos de clasificación
 Árboles de decisión de Microsoft
 Microsoft Neural Network
 Microsoft Naive Bayes
 Algoritmos de regresión
 Serie temporal de Microsoft
 Regresión lineal de Microsoft
 Microsoft regresión logística
 Algoritmos de segmentación o agrupación
 Microsoft Clustering
 Algoritmos de asociación
 Microsoft Asociación
 Algoritmos de análisis de la secuencia
 Microsoft clústeres de secuencia

Minería de datos para Excel
 Construido para Office 2010:
32-bit o 64-bit Add-In
 Requiere Analysis Services
 SQL Server 2012 Data
Mining
 Enterprise o
 Inteligencia de Negocios o
 Revelador

Minería de datos para Excel
 Minería de datos cliente para Excel
 Construir, validar y gestionar los modelos de datos
 Examinar y modelos de minería de datos de consulta
• Herramientas de tabla de análisis para Excel
 Lleve a cabo una serie de análisis de mesa
 No se requieren conocimientos de la minería de datos

Creación de minería de datos Soluciones
 Herramientas de datos de
SQL Server
 Asistente para minería de
datos
 Diseñador de minería de datos
 Cliente de minería de datos
para Excel

¿Por qué el resurgimiento en el análisis
predictivo?

Introducción al Análisis predictivo
Predictive
Analytics
Predictive
Modeling
Data Mining

¿Qué es el análisis predictivo?
 El análisis de datos con técnicas matemáticas de
estadística, minería de datos y aprendizaje
automático. Se utiliza para descubrir patrones
ocultos, que da una ventaja competitiva.

¿Qué es el análisis predictivo?

 La automatización de la automatización
 Utilizar computadoras para programar computadoras
 Escribir software es el cuello de botella
 Deje que los datos hagan el trabajo!
Qué es el aprendizaje autómático o Machine
Learning

Evaluación del modelo
 Mean Absolute Error (MAE). El promedio de los errores
absolutos (un error es la diferencia entre el valor predicho y el
valor real)
 Root Mean Squared Error (RMSE). La raíz cuadrada del
promedio de errors al cuadrado
 Relative Absolute Error. El promedio de los valores absolutos
relativos a la diferencia absoluta entre los valores reales y el
promedio de todos los valores reales

 Relative Squared Error. El promedio de los errores
cuadrados relativos al cuadrado de la diferencia entre los
valores reales y el promedio de los todos los valores
reales
 Coefficient of Determination. También conocido como R
cuadrado, es una métrica estadísitca que indica qué tan
bien el modelo predice los datos
 Un coeficiente cercano a 1.0 significa mejores
predicciones. Un 1.0 significa que el modelo explica el
100% de los datos

Flujo en Azure Machine Learning

Herramientas para cumplir un objetivo

Calidad de
los Datos
Master Data
Integración
de Datos
Análisis Corporativo
Informes
Dashboards
Análisis

Retos del Científicos de Datos

Evaluaciones
Evaluacion del evento
http://www.sqlsaturday.com/443/eventeval.aspx
Evaluacion de las charlas
http://www.sqlsaturday.com/443/sessions/sessionevaluation.aspx

97 |
Eduardo
Castro
ecastro@simsasys.com http://ecastrom.blogspot.com
edocastro
PREGUNTAS Y RESPUESTAS

Herramientas de Microsoft para el Científicos de Datos

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Herramientas de Microsoft para el Científicos de Datos

Similar a Herramientas de Microsoft para el Científicos de Datos (20)

Más de Eduardo Castro

Más de Eduardo Castro (20)

Último

Último (20)

Herramientas de Microsoft para el Científicos de Datos