SlideShare una empresa de Scribd logo
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
PASS Regional Mentor
PASS Global Board of Directors Advisor
ecastro@simsasys.com
http://www.youtube.com/eduardocastrom
Herramientas SQL Server y Microsoft
Azure para el Científico de Datos
Patrocinadores del SQL Saturday
Gold Sponsor
Geek Sponsor
Bronze Sponsor
Científico de datos
 Ciencia de datos: un término utilizado
indistintamente con inteligencia de negocio o
análitica empresarial
Qué es ciencia de datos?
 Descubrir lo que nó sabemos de los datos
 Obtener conocimiento de los datos, que
permita hacer predicciones y tomar acciones
 Crear soluciones basadas en datos que
tienen impacto en el negocio
 Relacionar los datos con el negocio
 Crear confianza en la toma de decisiones
que brindan valor para el negocio
Científico de datos
 Un científico de datos incorpora técnicas y
teorías de muchos campos, incluyendo las
matemáticas, la estadística, la ingeniería de
datos, reconocimiento de patrones, aprendizaje
avanzado , visualización, modelado de la
incertidumbre, almacenamiento de datos y la
computación de alto rendimiento con el objetivo
de extraer el significado de datos.
Quién es un científico de datos?
Alguien mejor en las estadísticas que cualquier ingeniero
de software, y alguien mejor
en la ingeniería de software que cualquier estadístico
Qué NO es un científico de datos?
Los ingenieros de software entienden
conceptualmente los modelos
como la regresión lineal, pero no
entienden realmente los supuestos de
modelización estadística
Usualmente los ingenieros inexpertos piensan
que están haciendo análisis de datos y
búsqueda de puntos de patrones, pero lo que
están encontrando son valores sin sentido, o al
menos no lo que ellos piensan que están
encontrando
Qué es un analista de datos?
Un analista de datos no sabe cómo codificar, sino que
se espera que sea experto en herramientas de la
industria, tales como Excel o Finanzas en un terminal
de Bloomberg
Qué es un Data Scientist?
Un científico de datos definitivamente tiene un mucho mayor
comprensión de la informática y se espera que él desarrolle
herramientas o que utilice algunas herramientas no estándar
para las necesidades de productos o las necesidades de la
empresa.
Qué es un Data Scientist?
Data Science London. 2013.
Qué hace un científico de datos?
10 Cosas que hacen los científicos de datos
1. Realizar preguntas adecuadas
 Qué es lo que no conocemos
 Qué es lo que nos gustaría conocer
2. Definir hipótesis y probarlas, ejecutar
experimentos
3. Scoop, Scrap, Sink datos del negocio
4. Data munging
5. Explorar Datos, Descubrir Datos, Descubrir
hechos desconocidos
10 Cosas que hacen los científicos de datos
 Modelar datos, modelar algoritmos
 Entender las relaciones de los datos
 Decirle a la máquina cómo aprender de los
datos
 Crear soluciones de datos que entregar
conocimiento para tomar decisiones
 Expresar los datos con conocimiento que es
relevante para el negocio
Data Scientist Toolkit
 Java, R, Python… (bonus: Clojure, Haskell, Scala)
 Hadoop, HDFS MapReduce… (bonus: Spark, Storm)
 HBase, Pig Hive… (bonus: Shark, Impala, Cascalog)
 ETL, Webscrapers,Flume, Sqoop… (bonus: Hume)
 SQL, RDBMS, DW, OLAP…
 Knime, Weka, RapidMiner…(bonus: SciPy, NumPy, scikit-
learn, pandas)
 D3.js, Gephi, ggplot2, Tableu, Flare, Shiny…
 SPSS, Matlab, SAS
 NoSQL, Mongo DB, Couchbase, Cassandra
 MS-Excel: la herramienta más utilizada
Encadenar Herramientas para la Ciencia de
Datos
Data
Preparation
Exploratory
Analysis
Inference /
Prediction
Solution
Implementation
Results
Communication
Sobresal
irHadoop
RDBMS
/ SQL
Pitón
Sobresa
lir
R
Pitón
Persona
lizado
Código
R
• Utilice el conjunto de herramientas de la derecha en diferente
etapas
Modern R es más difícil que SQL
http:
//cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html
Lo que importa más es la capacidad de elegir y aprender
las herramientas y los métodos correctos ...
Mezclado
en una
solo vista
Datos, datos por todas partes ...
Estructurado interna
Datos
financieros
I Estructuradonternal
Datos de las
ventas
Semiestructuradas
eXternal
Datos Sociales
Varios tipos,
múltiple
fuentes
Analytics de Microsoft
Principales fuentes de datos
 Redes sociales y medios de comunicación
 700 millones de usuarios de Facebook, 250 millones de
usuarios de Twitter y 156 millones de blogs públicos
 Dispositivos móviles
 Más de 5 mil millones de teléfonos móviles en uso en
todo el mundo
 Transacciones en Internet
 miles de millones de compras en línea, operaciones de
bolsa y otras transacciones ocurren todos los días
 Dispositivos de red y sensores
Dominio Escenarios de grandes volúmenes datos comunes
Servicios financieros Modelado riesgo verdadero
Análisis de las amenazas y detección de fraude
Vigilancia Comercio
El puntaje de crédito y análisis
Medios y Entretenimiento Los motores de recomendación
Focalización Ad
Buscar calidad
Los abusos y detección de fraude de clics
Venta al por menor Punto de análisis de las transacciones de
ventas
Análisis de la pérdida de clientes
El análisis de sentimientos (sentiment
analysis)
Telecomunicaciones Cliente prevención del churn
La optimización del rendimiento de la red
Detalles de llamadas (CDR) y su análisis
Predicción de fallos de red
Gobierno Seguridad Cibernética (botnets, fraudes)
La congestión del tráfico y re-enrutamiento
Monitoreo Ambiental
Monitoreo Antisocial través de medios sociales
Salud La investigación del genoma
La investigación del cáncer
Pandemias detección temprana
Monitoreo de la calidad del aire
Nuevos Enfoques para el procesamiento y análisis de
datos
 Hay varios métodos para procesar y analizar grandes
volúmenes de datos, pero la mayoría tienen algunas
características comunes
 Hadoop
 NoSQL
 Bases de datos analíticos masivamente paralelo
ANALÍTICA DEL MAÑANA:
INICIA HOY
Escenarios de datos masivos
Transform
ar
+ Analizar
Visualizar
+ Decidir
Capturar
+
Organizar
Datos

Almacenamiento
adaptadores
Corriente
tratamient
o
Gateways Nube
(APIs web)
Field
gateways
Aplicaciones
Búsqueda y consulta
Análisis de datos (Excel)
/ Cliente pesado Web
cuadros de mando
Dispositivos
Kafka /
RabbitMQ /
ActiveMQ
Web y Social
Dispositivos
Sensore
s
Aplicaciones de datos
intensivos
Activity Queue
Azure Storage
Google Analytics
Logs
Azure Storage
Email DBs
SQL Azure x 16
Username DBs
SQL Azure x 16
User Profiles
SQL Azure x 400
Activity Table
X 50 Partitions
Azure Storage
IIS Logs
Azure Storage
Data Analysis: Staging
Virtual Machine
Data
Warehouse
Reporting
Services
Activity Processors
Worker Roles x 2
Cache
Users and Friends Feed
Games and Leader Boards
Resources and References
Distributed Cache x 32
Cache Tasks
Worker Roles x 4
Back Office
Web Roles x 2
Background Tasks DB
Utility DB, Content
DB, Taxonomy DB
SQL Azure
Web Application
Web Roles x 180
Web Service/API
Web Roles x 2
Moderation
Service/Appliance
CRISP/3rd
Party
Infraestructura de Datos en la SU
Clúster Hadoop
Yahoo! Hadoop clúster, 2007.
Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
Clúster Hadoop
Buster Cluster, un proyecto de investigación Miles
Osborne, de la Universidad de Edimburgo, Facultad de
Informática.
Imagen utilizada con permiso.
http://homepages.inf.ed.ac.uk/miles/
Cluster Hadoop
Nube
Rent-A-Hadoop-cluster, o bien:
"Superordenador de centavos"
Windows Azure HD Insight
Windows HADOOP
 2 Versiones
 Cloud
 Azure Service
 On Permise
 Integración con el Hadoop File System with Active Directory
 Integración con BI
 Herramientas de integración
 Sqoop
 Integración con SQL Server
Introducción a HDInsight
 HDInsight es una implementación de Microsoft 100%
compatible con la distribución de Apache Hadoop
 Disponible tanto para Windows Server y como un servicio
Windows Azure
 Permite que las empresas analicen datos no estructurados
con herramientas bien conocidas tales como Excel
Windows Azure HDInsight Service
Query &
Metadata:
Data
Movement:
Workflow: Monitoring:
Windows Azure HDInsight Service
Procesamiento de la lógica en HDInsight
1.6, 2.1, 3.0
Procesamiento de la lógica en HDInsight 3.0
Hadoop 2.2: interactivo, en línea, stream, o por lotes
Ciencia de datos Hadoop
Actualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no
Filtrado colaborativo,
recomendadores, clustering,
singular value decomposition
parallel frequent pattern
mining, naïve Bayes, árbol de
decisión
Formas de carga de datos
Un mapa de mapas ....
Almacenamiento Columnar
Análisis de sensors
Consultas en tiempo real
Indexación Web
Sistemas de mensajería
Dashboards interactivos
Casos de uso enfoque columnar
• Escrituras/Lecturas aleatorias y
consitentes en tiempo real
• Sharding automático y escalabilidad
linea
• Miles de millones de filas - Millones
de columnas
• TB y PB de datos
• Esquema flexible
• Datos estructurados y semi-
estructurados
• Lecturas y escrituras rápidas
Patrones / En que funciona Anti-patrón / Peligro
Conjuntos de datos pequeños (miles /
millones de filas)
Agregaciones
Cualquier scenario que requiera:
• Union
• Transacciones
• Capacidades completas de un
RDBMS
¿Por qué en unfoque columnar?
¿Qué es HBase?
Base de datos distribuida no relacional
Modelo de datos en columnas
NoSQL construido sobre Hadoop
Gran escalabilidad
Escalabilidad lineal
Miles de millones de filas x millones de columnas
Muchas implementaciones con 1000 nodos, PB de datos
Baja latencia
Lecturas/Escrituras aleatorias en tiempo real
Código abierto
Siguiendo el modelo de Google BigTable
Iniciado en 2006
7
Arquitectura de HBase
21
Eficiente con lecturas /
escrituras aleatorias
Almacenamiento
distrubuido escalable
Utiliza Hadoop para la
persistencia
Ambos HBase y
Hadoop
son distribuidos
HRegionServer
HRegion
ConGrup
o
MenStore
Storefile
HFile
Tienda Hom
bres
Tiend
a
Tienda
HBase
Storefile
HFile
Storefile
HFile
HRegionServer
HRegion
ConGrup
o
MenStore
Storefile
HFile
Tienda Hom
bres
Tiend
a
Tienda
Storefile
HFile
Storefile
HFile
Cliente HmasterZooKeeper
DFS
Cliente
DFS
Cliente
Hadoop
DataNode DataNode DataNode DataNode DataNode
HBase Arquitectura Física : HDInsight
Region
Server N
L
RES
T
Blob
Storage
Account
Web Front
End 1
Web Front
End N
ZK1
Master1
M
ZK2
Master2
M
ZK3
Master3
M
Region
Server 1
L
RES
T
Virtual Network
Web App
Head Node
Yarn, M/R Services
L
HBase
GW 1
GW 2
45
CREATE TABLE IF NOT EXISTS "kinecttelemetry"(" K "clave
principal VARCHAR," edad "VARCHAR," género
"VARCHAR)default_column_family= 'demografía';
Apache Phoenix: SQL Skin sobre HBase
Phoenix en 15 minutos o menos
 Interfaz SQL sobre HBase
 Vista de solo lectura sobre los datos existentes HBase
 Typed data en conjunto con query optimizations
 Estadísticas
 Índices secundarios
 Escalamiento SQL con HBase como plataforma de
almacenamiento de datos
Apache Phoenix
http: //phoenix.apache.org/presentations/OC-HUG-2014-10-4x3.pdf
Cargar datos al blog storage de Windows
Azure
 Para prototipos y ejemplos: #put
 Para producción utilizer el blob storage APIs.
 AzCopy Command Line
 CopyBlob REST API
Cómo consumir Resultados de HDInsight
Destino Herramienta / Biblioteca Requiere Active HDInsight
Cluster
SQL Server,
Azure SQL DB
Sqoop (Hadoop ecosystem project) Yes
Excel Codename “Data Explorer” No
Otra Blob Storage
Account
Azure Blob Storage REST APIs (Copy Blob, etc) No
SQL Server Analysis
Services
Hive ODBC Driver Yes
BI Apps Existentes Hive ODBC Driver (assumes app supports
ODBC connections to data sources)
Yes
Hadoop y Kafka
Centro de datos en
directo
Centro de datos fuera
de línea
HadoopHadoopDev
Hadoop
InterfazInterfazLos
consumidoresre
s en tiempo real
KafkaKafkaKafka
KafkaKafkaKafka
HadoopHadoopPROD
Hadoop
¿Apache Storm?
4
Fácil de programar
Una plataforma de
procesamiento en tiempo
real distribuido
Tolerante a fallos
Se espera que que falle y
esta preparado para
recuperarse
Rápido
Velocidad de 1M +
mensajes por segundo
por nodo
Escalable
Miles de workers por
grupo
Seguro
Entrega de mensajes
garantizada
Exactamente una vez
Análisis de
Streaming de
datos
Procesamiento en tiempo real
Apache Storm es sistema de computación distribuida para
análisis en tiempo real.
Storm hace que sea fácil de procesar de manera fiable flujos ilimitadas
de datos, haciendo posible procesar en tiempo real lo Hadoop hizo para
el procesamiento por lotes
1
1
Storm Cluster
5
5
http://files.meetup.com/15878892/Storm%20Presentation.pptx
Casos de uso de Storm
7
Entrada Operadores (Ejemplos) Lookup Salida
Lenguaje De
Programación
Automoviles
Conectados
Event hubs
Window based aggregation,
Join stream/split stream
HBase, ML DocumentDB C# hybrid, Java
ETL Event Hubs
Partitioning/
organize
N/A WASB Java
IoT Event Hubs Window based aggregation Hbase, ML
DocumentDB,
HBase
Java
Detección
Fraude
ServiceBus
Queue
Filter ML Hbase C# hybrid
Análisis Sociales Twitter Groupby/trending topics N/A
Realtime dashboard
(BI)
Trident
Supervisión de
la red
Kafka Split (on success/ failure) ML SQL C# hybrid
Búsqueda de
Log
Storage
Queue/ Event
Hub
Parsing & index N/A Elastic Search Java
Dispositivos
Moviles
Eventhub Count HBase SignalR C# hybrid
Uso de Stormautomovilesconectados
Gateways
Obtener
los datos
Almacen
ar en
blob
Obtener
datos de
referencia
Haga
aprendizaj
e
automático
Almacenar
para
consultas
Servicio de
Queuing
Dashboard en
vivo
Servicio de
Queuing
Uso de Storm- automovilesconectados
6
Gateways
Obtener
los datos
Almacen
ar en
blob
Obtener
datos de
referencia
Haga
aprendizaj
e
automático
Almacenar
para
consultas
Servicio
de Queuing
Dashboard en
vivo
Servicio de
Queuing
Hubs de eventos
Blob HBase ML DocumentDB
PowerBI
Evento
Hubs
Apache Spark complementa Hadoop
• Spark aprovecha Hadoop ecosistema
• HDFS, HCatalog, Entrada de datos / OutputFormats
• Agrega opciones de mejor rendimiento
Intercambio de Datos en
MapReduce
iter. 1 iter. 2 . . .
Entrada
HDFS
leer
HDFS
escribir
HDFS
leer
HDFS
escribir
Entrada
consulta 1
consulta 2
consulta 3
resultado 1
resultado 2
número 3
. . .
HDFS
leer
Lento debido a la replicación, la serialización, y el disco
IO
iter. 1 iter. 2 . . .
Entrada
Intercambio de Datos en
Spark
Repartido
memoria
Entrada
consulta 1
pregunta 2
consulta 3
. . .
una vez
tratamiento
10-100× más rápido que la red y el disco
Combina streaming y análisis complejos
AZURE STREAM ANALYTICS
Ing. Eduardo Castro, PhD
Qué es Azure Stream Analytics
¿Por qué utilizar Stream Analytics en la
nube?
No todos los datos son locales
Los datos de eventos ya está
en la Nube Los datos de eventos esta
distribuida globalmente
TCO reducido scale-out Servicio,
No
infraestructura
Llevar el procesamiento a los datos,
no los datos en el procesamiento!
Componentes de una aplicación
Componentes de un Azure Stream Analytics Application
Azure SQL DB
Azure Event
Hubs
Azure Blob
Storage
Azure Blob
Storage
Azure Event Hubs
Reference Data
Query runs continuously against incoming stream of
events
Events
Havea definedschemaand
are temporal(sequencedin
time)
MINERÍA DE DATOS
Definiciones
Frase Objetivo
"La minería de datos" Toma de decisiones
"Machine Learning" Determinar el algoritmo de mejor
desempeño
¿Cuál es el propósito de la minería de
datos?
 El análisis de grandes conjuntos de datos para revelar
patrones y tendencias ocultas
 Algoritmos de minería de datos realizar diferentes tipos
de análisis estadísticos para diferentes escenarios
 La minería de datos tiene una amplia gama de
aplicaciones, por ejemplo:
 Previsión de ventas
 La publicidad dirigida
 La formulación de recomendaciones en línea
 La evaluación de riesgos
Componentes de una solución de minería
de datos de Servicios de Análisis
 Estructura de minería de datos
 Contiene vista de origen de datos
 Contiene la tabla de casos y la estructura de minería de
columnas
 Contiene modelos de minería de datos
 Especifica conjunto de entrenamiento y un conjunto de pruebas
 Tabla de casos
 Tiendas suente datos para los modelos de minería de datos
 Las columnas se han definido los tipos de datos y el tipo de
contenido
 Minería de Datos Modelo
 Utiliza un único algoritmo de minería de datos
 Incluye columnas de estructura de minería de datos
SQL Server Data Mining
 Servicio, no aplicación
 SQL Server Análisis
Services (SSAS)
 Múltiples interfaces:
 SQL Server Data Tools
(SSDT) ​​SQL Server
Management Studio
(SSMS)
 PowerShell
SQL Analysis Services Algoritmos de
minería
 Algoritmos de clasificación
 Árboles de decisión de Microsoft
 Microsoft Neural Network
 Microsoft Naive Bayes
 Algoritmos de regresión
 Serie temporal de Microsoft
 Regresión lineal de Microsoft
 Microsoft regresión logística
 Algoritmos de segmentación o agrupación
 Microsoft Clustering
 Algoritmos de asociación
 Microsoft Asociación
 Algoritmos de análisis de la secuencia
 Microsoft clústeres de secuencia
Minería de datos para Excel
 Construido para Office 2010:
32-bit o 64-bit Add-In
 Requiere Analysis Services
 SQL Server 2012 Data
Mining
 Enterprise o
 Inteligencia de Negocios o
 Revelador
Minería de datos para Excel
 Minería de datos cliente para Excel
 Construir, validar y gestionar los modelos de datos
 Examinar y modelos de minería de datos de consulta
• Herramientas de tabla de análisis para Excel
 Lleve a cabo una serie de análisis de mesa
 No se requieren conocimientos de la minería de datos
Creación de minería de datos Soluciones
 Herramientas de datos de
SQL Server
 Asistente para minería de
datos
 Diseñador de minería de datos
 Cliente de minería de datos
para Excel
ANÁLISIS PREDICTIVO
Análisis predictivo
Análisis predictivo
¿Por qué el resurgimiento en el análisis
predictivo?
Introducción al Análisis predictivo
Predictive
Analytics
Predictive
Modeling
Data Mining
¿Qué es el análisis predictivo?
 El análisis de datos con técnicas matemáticas de
estadística, minería de datos y aprendizaje
automático. Se utiliza para descubrir patrones
ocultos, que da una ventaja competitiva.
¿Qué es el análisis predictivo?
 La automatización de la automatización
 Utilizar computadoras para programar computadoras
 Escribir software es el cuello de botella
 Deje que los datos hagan el trabajo!
Qué es el aprendizaje autómático o Machine
Learning
Evaluación del modelo
 Mean Absolute Error (MAE). El promedio de los errores
absolutos (un error es la diferencia entre el valor predicho y el
valor real)
 Root Mean Squared Error (RMSE). La raíz cuadrada del
promedio de errors al cuadrado
 Relative Absolute Error. El promedio de los valores absolutos
relativos a la diferencia absoluta entre los valores reales y el
promedio de todos los valores reales
 Relative Squared Error. El promedio de los errores
cuadrados relativos al cuadrado de la diferencia entre los
valores reales y el promedio de los todos los valores
reales
 Coefficient of Determination. También conocido como R
cuadrado, es una métrica estadísitca que indica qué tan
bien el modelo predice los datos
 Un coeficiente cercano a 1.0 significa mejores
predicciones. Un 1.0 significa que el modelo explica el
100% de los datos
Flujo en Azure Machine Learning
Flujo en Azure Machine Learning
Flujo en Azure Machine Learning
Flujo en Azure Machine Learning
Herramientas para cumplir un objetivo
Calidad de
los Datos
Master Data
Integración
de Datos
Análisis Corporativo
Informes
Dashboards
Análisis
Retos del Científicos de Datos
Retos del Científicos de Datos
Retos del Científicos de Datos
Retos del Científicos de Datos
Evaluaciones
Evaluacion del evento
http://www.sqlsaturday.com/443/eventeval.aspx
Evaluacion de las charlas
http://www.sqlsaturday.com/443/sessions/sessionevaluation.aspx
97 |
Eduardo
Castro
ecastro@simsasys.com http://ecastrom.blogspot.com
edocastro
PREGUNTAS Y RESPUESTAS

Más contenido relacionado

La actualidad más candente

Introduccion a Azure Machine Learning
Introduccion a Azure Machine LearningIntroduccion a Azure Machine Learning
Introduccion a Azure Machine Learning
Eduardo Castro
 
Charla windows 10 para Empresas
Charla windows 10 para EmpresasCharla windows 10 para Empresas
Charla windows 10 para Empresas
Eduardo Castro
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
Stratebi
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
Joseph Lopez
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
Abel Alejandro Coronado Iruegas
 
Big Data & RRHH
Big Data & RRHHBig Data & RRHH
Big Data & RRHH
Catia Sofia Neves Cunha
 
Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big Results
Mundo Contact
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
Stratebi
 
Big Data en el entorno Bancario
Big Data en el entorno BancarioBig Data en el entorno Bancario
Big Data en el entorno Bancario
Martín Cabrera
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
Stratebi
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
EOI Escuela de Organización Industrial
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con Pentaho
Datalytics
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelEduardo Castro
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Urko Zurutuza
 
Big Data para analizar las redes sociales
Big Data para analizar las redes socialesBig Data para analizar las redes sociales
Big Data para analizar las redes sociales
DatKnoSys
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015
Peter Kroll
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
Stratebi
 
Cómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónCómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organización
BEEVA_es
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big Data
Stratebi
 

La actualidad más candente (20)

Introduccion a Azure Machine Learning
Introduccion a Azure Machine LearningIntroduccion a Azure Machine Learning
Introduccion a Azure Machine Learning
 
Charla windows 10 para Empresas
Charla windows 10 para EmpresasCharla windows 10 para Empresas
Charla windows 10 para Empresas
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
Big Data & RRHH
Big Data & RRHHBig Data & RRHH
Big Data & RRHH
 
Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big Results
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
 
Big Data en el entorno Bancario
Big Data en el entorno BancarioBig Data en el entorno Bancario
Big Data en el entorno Bancario
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con Pentaho
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot Excel
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
Big Data para analizar las redes sociales
Big Data para analizar las redes socialesBig Data para analizar las redes sociales
Big Data para analizar las redes sociales
 
Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015Presentación semana académica unam big data abril 2015
Presentación semana académica unam big data abril 2015
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
Cómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónCómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organización
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big Data
 

Destacado

Introducción a hadoop
Introducción a hadoopIntroducción a hadoop
Introducción a hadoop
Carlos Meseguer Gimenez
 
Micro service architecture
Micro service architecture  Micro service architecture
Micro service architecture
Ayyappan Paramesh
 
Introducción a NoSQL
Introducción a NoSQLIntroducción a NoSQL
Introducción a NoSQL
Daniel Mazzini
 
Evolución de los sgbd
Evolución de los sgbdEvolución de los sgbd
Evolución de los sgbd
Roberto Carlos Flores Gomez
 
Instalación de Java y primer programa "HolaMundo"
Instalación de Java y primer programa "HolaMundo"Instalación de Java y primer programa "HolaMundo"
Instalación de Java y primer programa "HolaMundo"
Roberto Carlos Flores Gomez
 
El Valor de construir First Party Data Orgánico a través del Ecosistema Digit...
El Valor de construir First Party Data Orgánico a través del Ecosistema Digit...El Valor de construir First Party Data Orgánico a través del Ecosistema Digit...
El Valor de construir First Party Data Orgánico a través del Ecosistema Digit...
Esther Checa
 
Big data Hadoop
Big data  Hadoop   Big data  Hadoop
Big data Hadoop
Ayyappan Paramesh
 
Introducción a Business objects
Introducción a Business objectsIntroducción a Business objects
Introducción a Business objects
Hermes Romero
 
Buscador vertical escalable con Hadoop
Buscador vertical escalable con HadoopBuscador vertical escalable con Hadoop
Buscador vertical escalable con Hadoopdatasalt
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentaciónedmaga
 
Microsoft R Server
Microsoft R ServerMicrosoft R Server
Microsoft R Server
Eduardo Castro
 
Servicios cognitivos y su integración
Servicios cognitivos y su integraciónServicios cognitivos y su integración
Servicios cognitivos y su integración
Eduardo Castro
 
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
lalopg
 
Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools Comparison
Roberto Espinosa
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
04071977
 
Plan Estratégico e Integral de Analítica Digital
Plan Estratégico e Integral de Analítica DigitalPlan Estratégico e Integral de Analítica Digital
Plan Estratégico e Integral de Analítica Digital
Jorge Casasempere
 
Servicios Business Analytics
Servicios Business AnalyticsServicios Business Analytics
Servicios Business Analytics
Viewnext
 

Destacado (20)

Introducción a hadoop
Introducción a hadoopIntroducción a hadoop
Introducción a hadoop
 
Micro service architecture
Micro service architecture  Micro service architecture
Micro service architecture
 
Introducción a NoSQL
Introducción a NoSQLIntroducción a NoSQL
Introducción a NoSQL
 
Evolución de los sgbd
Evolución de los sgbdEvolución de los sgbd
Evolución de los sgbd
 
Instalación de Java y primer programa "HolaMundo"
Instalación de Java y primer programa "HolaMundo"Instalación de Java y primer programa "HolaMundo"
Instalación de Java y primer programa "HolaMundo"
 
El Valor de construir First Party Data Orgánico a través del Ecosistema Digit...
El Valor de construir First Party Data Orgánico a través del Ecosistema Digit...El Valor de construir First Party Data Orgánico a través del Ecosistema Digit...
El Valor de construir First Party Data Orgánico a través del Ecosistema Digit...
 
Big data Hadoop
Big data  Hadoop   Big data  Hadoop
Big data Hadoop
 
Introducción a Business objects
Introducción a Business objectsIntroducción a Business objects
Introducción a Business objects
 
Buscador vertical escalable con Hadoop
Buscador vertical escalable con HadoopBuscador vertical escalable con Hadoop
Buscador vertical escalable con Hadoop
 
Minería de datos Presentación
Minería de datos PresentaciónMinería de datos Presentación
Minería de datos Presentación
 
Microsoft R Server
Microsoft R ServerMicrosoft R Server
Microsoft R Server
 
Bases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4j
Bases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4jBases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4j
Bases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4j
 
Servicios cognitivos y su integración
Servicios cognitivos y su integraciónServicios cognitivos y su integración
Servicios cognitivos y su integración
 
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOSMétodos predictivos y Descriptivos - MINERÍA DE DATOS
Métodos predictivos y Descriptivos - MINERÍA DE DATOS
 
Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools Comparison
 
Mineria De Datos
Mineria De DatosMineria De Datos
Mineria De Datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Bases de Datos No Relacionales (NoSQL)
Bases de Datos No Relacionales (NoSQL) Bases de Datos No Relacionales (NoSQL)
Bases de Datos No Relacionales (NoSQL)
 
Plan Estratégico e Integral de Analítica Digital
Plan Estratégico e Integral de Analítica DigitalPlan Estratégico e Integral de Analítica Digital
Plan Estratégico e Integral de Analítica Digital
 
Servicios Business Analytics
Servicios Business AnalyticsServicios Business Analytics
Servicios Business Analytics
 

Similar a Herramientas de Microsoft para el Científicos de Datos

capacitación Data science.pptx
capacitación Data science.pptxcapacitación Data science.pptx
capacitación Data science.pptx
MichaelBelmarCabrera
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
Eduardo Castro
 
A10 Analytics Desayuno Oct 2016
A10 Analytics Desayuno Oct 2016A10 Analytics Desayuno Oct 2016
A10 Analytics Desayuno Oct 2016
Analytics10
 
ppt inteligencia de trabajo.pdf
ppt inteligencia de trabajo.pdfppt inteligencia de trabajo.pdf
ppt inteligencia de trabajo.pdf
BenjamindavidCordoba
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BI
fabian fernandez
 
Introduccion a Data Science
Introduccion a Data ScienceIntroduccion a Data Science
Introduccion a Data Science
SpanishPASSVC
 
bi-180616123404 (1).pptx
bi-180616123404 (1).pptxbi-180616123404 (1).pptx
bi-180616123404 (1).pptx
BenjamindavidCordoba
 
Smart Grid Big Data e IoT
Smart Grid Big Data e IoTSmart Grid Big Data e IoT
Smart Grid Big Data e IoT
Eduardo Castro
 
Exploradata - A new BigData Company
Exploradata - A new BigData CompanyExploradata - A new BigData Company
Exploradata - A new BigData Company
Exploradata
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power View
Eduardo Castro
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
Andres Eyherabide
 
Copy of Charla Cibertec DAT.ppt
Copy of Charla Cibertec DAT.pptCopy of Charla Cibertec DAT.ppt
Copy of Charla Cibertec DAT.ppt
Sandro Ernesto Ruiz Samaniego
 
Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera
Analytics10
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
Salvador Ramos
 
Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero.
GustavoMartin46
 
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptINTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
ChemyTacza
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
CICE
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
Eduardo Castro
 

Similar a Herramientas de Microsoft para el Científicos de Datos (20)

capacitación Data science.pptx
capacitación Data science.pptxcapacitación Data science.pptx
capacitación Data science.pptx
 
Big Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nubeBig Data con Sql Server 2014 y la nube
Big Data con Sql Server 2014 y la nube
 
A10 Analytics Desayuno Oct 2016
A10 Analytics Desayuno Oct 2016A10 Analytics Desayuno Oct 2016
A10 Analytics Desayuno Oct 2016
 
ppt inteligencia de trabajo.pdf
ppt inteligencia de trabajo.pdfppt inteligencia de trabajo.pdf
ppt inteligencia de trabajo.pdf
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BI
 
Introduccion a Data Science
Introduccion a Data ScienceIntroduccion a Data Science
Introduccion a Data Science
 
bi-180616123404 (1).pptx
bi-180616123404 (1).pptxbi-180616123404 (1).pptx
bi-180616123404 (1).pptx
 
Smart Grid Big Data e IoT
Smart Grid Big Data e IoTSmart Grid Big Data e IoT
Smart Grid Big Data e IoT
 
Exploradata - A new BigData Company
Exploradata - A new BigData CompanyExploradata - A new BigData Company
Exploradata - A new BigData Company
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power View
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
Copy of Charla Cibertec DAT.ppt
Copy of Charla Cibertec DAT.pptCopy of Charla Cibertec DAT.ppt
Copy of Charla Cibertec DAT.ppt
 
Inteligencia de Negocios
Inteligencia de NegociosInteligencia de Negocios
Inteligencia de Negocios
 
Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero.
 
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.pptINTELIGENCIA DE NEGOCIOS_ internacionales.ppt
INTELIGENCIA DE NEGOCIOS_ internacionales.ppt
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
 
Introduccion datawarehouse
Introduccion datawarehouseIntroduccion datawarehouse
Introduccion datawarehouse
 

Más de Eduardo Castro

Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL Server
Eduardo Castro
 
Creando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerCreando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL Server
Eduardo Castro
 
Seguridad en SQL Azure
Seguridad en SQL AzureSeguridad en SQL Azure
Seguridad en SQL Azure
Eduardo Castro
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflow
Eduardo Castro
 
SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022
Eduardo Castro
 
Novedades en SQL Server 2022
Novedades en SQL Server 2022Novedades en SQL Server 2022
Novedades en SQL Server 2022
Eduardo Castro
 
Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Introduccion a SQL Server 2022
Introduccion a SQL Server 2022
Eduardo Castro
 
Machine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceMachine Learning con Azure Managed Instance
Machine Learning con Azure Managed Instance
Eduardo Castro
 
Novedades en sql server 2022
Novedades en sql server 2022Novedades en sql server 2022
Novedades en sql server 2022
Eduardo Castro
 
Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022
Eduardo Castro
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricks
Eduardo Castro
 
Pronosticos con sql server
Pronosticos con sql serverPronosticos con sql server
Pronosticos con sql server
Eduardo Castro
 
Data warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsData warehouse con azure synapse analytics
Data warehouse con azure synapse analytics
Eduardo Castro
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2
Eduardo Castro
 
Introduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsIntroduccion a Azure Synapse Analytics
Introduccion a Azure Synapse Analytics
Eduardo Castro
 
Seguridad de SQL Database en Azure
Seguridad de SQL Database en AzureSeguridad de SQL Database en Azure
Seguridad de SQL Database en Azure
Eduardo Castro
 
Python dentro de SQL Server
Python dentro de SQL ServerPython dentro de SQL Server
Python dentro de SQL Server
Eduardo Castro
 
Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft
Eduardo Castro
 
Script de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesScript de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure Enclaves
Eduardo Castro
 
Introducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesIntroducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure Enclaves
Eduardo Castro
 

Más de Eduardo Castro (20)

Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL Server
 
Creando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL ServerCreando tu primer ambiente de AI en Azure ML y SQL Server
Creando tu primer ambiente de AI en Azure ML y SQL Server
 
Seguridad en SQL Azure
Seguridad en SQL AzureSeguridad en SQL Azure
Seguridad en SQL Azure
 
Azure Synapse Analytics MLflow
Azure Synapse Analytics MLflowAzure Synapse Analytics MLflow
Azure Synapse Analytics MLflow
 
SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022SQL Server 2019 con Windows Server 2022
SQL Server 2019 con Windows Server 2022
 
Novedades en SQL Server 2022
Novedades en SQL Server 2022Novedades en SQL Server 2022
Novedades en SQL Server 2022
 
Introduccion a SQL Server 2022
Introduccion a SQL Server 2022Introduccion a SQL Server 2022
Introduccion a SQL Server 2022
 
Machine Learning con Azure Managed Instance
Machine Learning con Azure Managed InstanceMachine Learning con Azure Managed Instance
Machine Learning con Azure Managed Instance
 
Novedades en sql server 2022
Novedades en sql server 2022Novedades en sql server 2022
Novedades en sql server 2022
 
Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022Sql server 2019 con windows server 2022
Sql server 2019 con windows server 2022
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricks
 
Pronosticos con sql server
Pronosticos con sql serverPronosticos con sql server
Pronosticos con sql server
 
Data warehouse con azure synapse analytics
Data warehouse con azure synapse analyticsData warehouse con azure synapse analytics
Data warehouse con azure synapse analytics
 
Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2Que hay de nuevo en el Azure Data Lake Storage Gen2
Que hay de nuevo en el Azure Data Lake Storage Gen2
 
Introduccion a Azure Synapse Analytics
Introduccion a Azure Synapse AnalyticsIntroduccion a Azure Synapse Analytics
Introduccion a Azure Synapse Analytics
 
Seguridad de SQL Database en Azure
Seguridad de SQL Database en AzureSeguridad de SQL Database en Azure
Seguridad de SQL Database en Azure
 
Python dentro de SQL Server
Python dentro de SQL ServerPython dentro de SQL Server
Python dentro de SQL Server
 
Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft Servicios Cognitivos de de Microsoft
Servicios Cognitivos de de Microsoft
 
Script de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure EnclavesScript de paso a paso de configuración de Secure Enclaves
Script de paso a paso de configuración de Secure Enclaves
 
Introducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure EnclavesIntroducción a conceptos de SQL Server Secure Enclaves
Introducción a conceptos de SQL Server Secure Enclaves
 

Último

maestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdfmaestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdf
JimmyTejadaSalizar
 
Conceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación ProyectoConceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación Proyecto
cofferub
 
Estructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdfEstructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdf
cristianrb0324
 
EduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clasesEduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clases
PABLOCESARGARZONBENI
 
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdfDesarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
AlejandraCasallas7
 
biogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectosbiogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectos
Luis Enrique Zafra Haro
 
Diagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestreDiagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestre
rafaelsalazar0615
 
Estructuras básicas_ conceptos de programación (1).docx
Estructuras básicas_ conceptos de programación  (1).docxEstructuras básicas_ conceptos de programación  (1).docx
Estructuras básicas_ conceptos de programación (1).docx
SamuelRamirez83524
 
3Redu: Responsabilidad, Resiliencia y Respeto
3Redu: Responsabilidad, Resiliencia y Respeto3Redu: Responsabilidad, Resiliencia y Respeto
3Redu: Responsabilidad, Resiliencia y Respeto
cdraco
 
Estructuras Básicas_ Conceptos Basicos De Programacion.pdf
Estructuras Básicas_ Conceptos Basicos De Programacion.pdfEstructuras Básicas_ Conceptos Basicos De Programacion.pdf
Estructuras Básicas_ Conceptos Basicos De Programacion.pdf
IsabellaRubio6
 
Diagrama de flujo basada en la reparacion de automoviles.pdf
Diagrama de flujo basada en la reparacion de automoviles.pdfDiagrama de flujo basada en la reparacion de automoviles.pdf
Diagrama de flujo basada en la reparacion de automoviles.pdf
ManuelCampos464987
 
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Telefónica
 
Conceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdfConceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdf
ValeriaAyala48
 
Conceptos Básicos de Programación L.D 10-5
Conceptos Básicos de Programación L.D 10-5Conceptos Básicos de Programación L.D 10-5
Conceptos Básicos de Programación L.D 10-5
JulyMuoz18
 
Estructuras básicas_ conceptos básicos de programación.pdf
Estructuras básicas_  conceptos básicos de programación.pdfEstructuras básicas_  conceptos básicos de programación.pdf
Estructuras básicas_ conceptos básicos de programación.pdf
ItsSofi
 
trabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6ftrabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6f
zoecaicedosalazar
 
TRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
TRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdfTRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
TRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
thomasdcroz38
 
Inteligencia Artificial y Ciberseguridad.pdf
Inteligencia Artificial y Ciberseguridad.pdfInteligencia Artificial y Ciberseguridad.pdf
Inteligencia Artificial y Ciberseguridad.pdf
Emilio Casbas
 
DESARROLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLO DE HABILIDADES DE PENSAMIENTO.pdfDESARROLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLO DE HABILIDADES DE PENSAMIENTO.pdf
marianabz2403
 
Conceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. TecnologíaConceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. Tecnología
coloradxmaria
 

Último (20)

maestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdfmaestria-motores-combustion-interna-alternativos (1).pdf
maestria-motores-combustion-interna-alternativos (1).pdf
 
Conceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación ProyectoConceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación Proyecto
 
Estructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdfEstructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdf
 
EduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clasesEduFlex, una educación accesible para quienes no entienden en clases
EduFlex, una educación accesible para quienes no entienden en clases
 
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdfDesarrollo de Habilidades de Pensamiento.docx (3).pdf
Desarrollo de Habilidades de Pensamiento.docx (3).pdf
 
biogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectosbiogas industrial para guiarse en proyectos
biogas industrial para guiarse en proyectos
 
Diagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestreDiagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestre
 
Estructuras básicas_ conceptos de programación (1).docx
Estructuras básicas_ conceptos de programación  (1).docxEstructuras básicas_ conceptos de programación  (1).docx
Estructuras básicas_ conceptos de programación (1).docx
 
3Redu: Responsabilidad, Resiliencia y Respeto
3Redu: Responsabilidad, Resiliencia y Respeto3Redu: Responsabilidad, Resiliencia y Respeto
3Redu: Responsabilidad, Resiliencia y Respeto
 
Estructuras Básicas_ Conceptos Basicos De Programacion.pdf
Estructuras Básicas_ Conceptos Basicos De Programacion.pdfEstructuras Básicas_ Conceptos Basicos De Programacion.pdf
Estructuras Básicas_ Conceptos Basicos De Programacion.pdf
 
Diagrama de flujo basada en la reparacion de automoviles.pdf
Diagrama de flujo basada en la reparacion de automoviles.pdfDiagrama de flujo basada en la reparacion de automoviles.pdf
Diagrama de flujo basada en la reparacion de automoviles.pdf
 
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
 
Conceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdfConceptos básicos de programación 10-5.pdf
Conceptos básicos de programación 10-5.pdf
 
Conceptos Básicos de Programación L.D 10-5
Conceptos Básicos de Programación L.D 10-5Conceptos Básicos de Programación L.D 10-5
Conceptos Básicos de Programación L.D 10-5
 
Estructuras básicas_ conceptos básicos de programación.pdf
Estructuras básicas_  conceptos básicos de programación.pdfEstructuras básicas_  conceptos básicos de programación.pdf
Estructuras básicas_ conceptos básicos de programación.pdf
 
trabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6ftrabajo de tecnologia, segundo periodo 9-6f
trabajo de tecnologia, segundo periodo 9-6f
 
TRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
TRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdfTRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
TRABAJO DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
 
Inteligencia Artificial y Ciberseguridad.pdf
Inteligencia Artificial y Ciberseguridad.pdfInteligencia Artificial y Ciberseguridad.pdf
Inteligencia Artificial y Ciberseguridad.pdf
 
DESARROLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLO DE HABILIDADES DE PENSAMIENTO.pdfDESARROLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLO DE HABILIDADES DE PENSAMIENTO.pdf
 
Conceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. TecnologíaConceptos Básicos de Programación. Tecnología
Conceptos Básicos de Programación. Tecnología
 

Herramientas de Microsoft para el Científicos de Datos

  • 1. Ing. Eduardo Castro, PhD Microsoft SQL Server MVP PASS Regional Mentor PASS Global Board of Directors Advisor ecastro@simsasys.com http://www.youtube.com/eduardocastrom Herramientas SQL Server y Microsoft Azure para el Científico de Datos
  • 2. Patrocinadores del SQL Saturday Gold Sponsor Geek Sponsor Bronze Sponsor
  • 3. Científico de datos  Ciencia de datos: un término utilizado indistintamente con inteligencia de negocio o análitica empresarial
  • 4. Qué es ciencia de datos?  Descubrir lo que nó sabemos de los datos  Obtener conocimiento de los datos, que permita hacer predicciones y tomar acciones  Crear soluciones basadas en datos que tienen impacto en el negocio  Relacionar los datos con el negocio  Crear confianza en la toma de decisiones que brindan valor para el negocio
  • 5. Científico de datos  Un científico de datos incorpora técnicas y teorías de muchos campos, incluyendo las matemáticas, la estadística, la ingeniería de datos, reconocimiento de patrones, aprendizaje avanzado , visualización, modelado de la incertidumbre, almacenamiento de datos y la computación de alto rendimiento con el objetivo de extraer el significado de datos.
  • 6. Quién es un científico de datos? Alguien mejor en las estadísticas que cualquier ingeniero de software, y alguien mejor en la ingeniería de software que cualquier estadístico
  • 7. Qué NO es un científico de datos? Los ingenieros de software entienden conceptualmente los modelos como la regresión lineal, pero no entienden realmente los supuestos de modelización estadística Usualmente los ingenieros inexpertos piensan que están haciendo análisis de datos y búsqueda de puntos de patrones, pero lo que están encontrando son valores sin sentido, o al menos no lo que ellos piensan que están encontrando
  • 8. Qué es un analista de datos? Un analista de datos no sabe cómo codificar, sino que se espera que sea experto en herramientas de la industria, tales como Excel o Finanzas en un terminal de Bloomberg
  • 9. Qué es un Data Scientist? Un científico de datos definitivamente tiene un mucho mayor comprensión de la informática y se espera que él desarrolle herramientas o que utilice algunas herramientas no estándar para las necesidades de productos o las necesidades de la empresa.
  • 10. Qué es un Data Scientist? Data Science London. 2013.
  • 11. Qué hace un científico de datos?
  • 12. 10 Cosas que hacen los científicos de datos 1. Realizar preguntas adecuadas  Qué es lo que no conocemos  Qué es lo que nos gustaría conocer 2. Definir hipótesis y probarlas, ejecutar experimentos 3. Scoop, Scrap, Sink datos del negocio 4. Data munging 5. Explorar Datos, Descubrir Datos, Descubrir hechos desconocidos
  • 13. 10 Cosas que hacen los científicos de datos  Modelar datos, modelar algoritmos  Entender las relaciones de los datos  Decirle a la máquina cómo aprender de los datos  Crear soluciones de datos que entregar conocimiento para tomar decisiones  Expresar los datos con conocimiento que es relevante para el negocio
  • 14. Data Scientist Toolkit  Java, R, Python… (bonus: Clojure, Haskell, Scala)  Hadoop, HDFS MapReduce… (bonus: Spark, Storm)  HBase, Pig Hive… (bonus: Shark, Impala, Cascalog)  ETL, Webscrapers,Flume, Sqoop… (bonus: Hume)  SQL, RDBMS, DW, OLAP…  Knime, Weka, RapidMiner…(bonus: SciPy, NumPy, scikit- learn, pandas)  D3.js, Gephi, ggplot2, Tableu, Flare, Shiny…  SPSS, Matlab, SAS  NoSQL, Mongo DB, Couchbase, Cassandra  MS-Excel: la herramienta más utilizada
  • 15. Encadenar Herramientas para la Ciencia de Datos Data Preparation Exploratory Analysis Inference / Prediction Solution Implementation Results Communication Sobresal irHadoop RDBMS / SQL Pitón Sobresa lir R Pitón Persona lizado Código R • Utilice el conjunto de herramientas de la derecha en diferente etapas
  • 16. Modern R es más difícil que SQL http: //cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html
  • 17. Lo que importa más es la capacidad de elegir y aprender las herramientas y los métodos correctos ...
  • 18. Mezclado en una solo vista Datos, datos por todas partes ... Estructurado interna Datos financieros I Estructuradonternal Datos de las ventas Semiestructuradas eXternal Datos Sociales Varios tipos, múltiple fuentes
  • 20. Principales fuentes de datos  Redes sociales y medios de comunicación  700 millones de usuarios de Facebook, 250 millones de usuarios de Twitter y 156 millones de blogs públicos  Dispositivos móviles  Más de 5 mil millones de teléfonos móviles en uso en todo el mundo  Transacciones en Internet  miles de millones de compras en línea, operaciones de bolsa y otras transacciones ocurren todos los días  Dispositivos de red y sensores
  • 21. Dominio Escenarios de grandes volúmenes datos comunes Servicios financieros Modelado riesgo verdadero Análisis de las amenazas y detección de fraude Vigilancia Comercio El puntaje de crédito y análisis Medios y Entretenimiento Los motores de recomendación Focalización Ad Buscar calidad Los abusos y detección de fraude de clics Venta al por menor Punto de análisis de las transacciones de ventas Análisis de la pérdida de clientes El análisis de sentimientos (sentiment analysis) Telecomunicaciones Cliente prevención del churn La optimización del rendimiento de la red Detalles de llamadas (CDR) y su análisis Predicción de fallos de red Gobierno Seguridad Cibernética (botnets, fraudes) La congestión del tráfico y re-enrutamiento Monitoreo Ambiental Monitoreo Antisocial través de medios sociales Salud La investigación del genoma La investigación del cáncer Pandemias detección temprana Monitoreo de la calidad del aire
  • 22. Nuevos Enfoques para el procesamiento y análisis de datos  Hay varios métodos para procesar y analizar grandes volúmenes de datos, pero la mayoría tienen algunas características comunes  Hadoop  NoSQL  Bases de datos analíticos masivamente paralelo
  • 24. Escenarios de datos masivos Transform ar + Analizar Visualizar + Decidir Capturar + Organizar Datos 
  • 25. Almacenamiento adaptadores Corriente tratamient o Gateways Nube (APIs web) Field gateways Aplicaciones Búsqueda y consulta Análisis de datos (Excel) / Cliente pesado Web cuadros de mando Dispositivos Kafka / RabbitMQ / ActiveMQ Web y Social Dispositivos Sensore s
  • 26. Aplicaciones de datos intensivos Activity Queue Azure Storage Google Analytics Logs Azure Storage Email DBs SQL Azure x 16 Username DBs SQL Azure x 16 User Profiles SQL Azure x 400 Activity Table X 50 Partitions Azure Storage IIS Logs Azure Storage Data Analysis: Staging Virtual Machine Data Warehouse Reporting Services Activity Processors Worker Roles x 2 Cache Users and Friends Feed Games and Leader Boards Resources and References Distributed Cache x 32 Cache Tasks Worker Roles x 4 Back Office Web Roles x 2 Background Tasks DB Utility DB, Content DB, Taxonomy DB SQL Azure Web Application Web Roles x 180 Web Service/API Web Roles x 2 Moderation Service/Appliance CRISP/3rd Party
  • 27.
  • 29. Clúster Hadoop Yahoo! Hadoop clúster, 2007. Fuente:http://developer.yahoo.com. Imagen utilizada con permiso.
  • 30. Clúster Hadoop Buster Cluster, un proyecto de investigación Miles Osborne, de la Universidad de Edimburgo, Facultad de Informática. Imagen utilizada con permiso. http://homepages.inf.ed.ac.uk/miles/
  • 31. Cluster Hadoop Nube Rent-A-Hadoop-cluster, o bien: "Superordenador de centavos" Windows Azure HD Insight
  • 32. Windows HADOOP  2 Versiones  Cloud  Azure Service  On Permise  Integración con el Hadoop File System with Active Directory  Integración con BI  Herramientas de integración  Sqoop  Integración con SQL Server
  • 33. Introducción a HDInsight  HDInsight es una implementación de Microsoft 100% compatible con la distribución de Apache Hadoop  Disponible tanto para Windows Server y como un servicio Windows Azure  Permite que las empresas analicen datos no estructurados con herramientas bien conocidas tales como Excel
  • 34. Windows Azure HDInsight Service Query & Metadata: Data Movement: Workflow: Monitoring:
  • 36. Procesamiento de la lógica en HDInsight 1.6, 2.1, 3.0
  • 37. Procesamiento de la lógica en HDInsight 3.0 Hadoop 2.2: interactivo, en línea, stream, o por lotes
  • 38. Ciencia de datos Hadoop Actualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no Filtrado colaborativo, recomendadores, clustering, singular value decomposition parallel frequent pattern mining, naïve Bayes, árbol de decisión
  • 39. Formas de carga de datos
  • 40. Un mapa de mapas .... Almacenamiento Columnar
  • 41. Análisis de sensors Consultas en tiempo real Indexación Web Sistemas de mensajería Dashboards interactivos Casos de uso enfoque columnar
  • 42. • Escrituras/Lecturas aleatorias y consitentes en tiempo real • Sharding automático y escalabilidad linea • Miles de millones de filas - Millones de columnas • TB y PB de datos • Esquema flexible • Datos estructurados y semi- estructurados • Lecturas y escrituras rápidas Patrones / En que funciona Anti-patrón / Peligro Conjuntos de datos pequeños (miles / millones de filas) Agregaciones Cualquier scenario que requiera: • Union • Transacciones • Capacidades completas de un RDBMS ¿Por qué en unfoque columnar?
  • 43. ¿Qué es HBase? Base de datos distribuida no relacional Modelo de datos en columnas NoSQL construido sobre Hadoop Gran escalabilidad Escalabilidad lineal Miles de millones de filas x millones de columnas Muchas implementaciones con 1000 nodos, PB de datos Baja latencia Lecturas/Escrituras aleatorias en tiempo real Código abierto Siguiendo el modelo de Google BigTable Iniciado en 2006 7
  • 44. Arquitectura de HBase 21 Eficiente con lecturas / escrituras aleatorias Almacenamiento distrubuido escalable Utiliza Hadoop para la persistencia Ambos HBase y Hadoop son distribuidos HRegionServer HRegion ConGrup o MenStore Storefile HFile Tienda Hom bres Tiend a Tienda HBase Storefile HFile Storefile HFile HRegionServer HRegion ConGrup o MenStore Storefile HFile Tienda Hom bres Tiend a Tienda Storefile HFile Storefile HFile Cliente HmasterZooKeeper DFS Cliente DFS Cliente Hadoop DataNode DataNode DataNode DataNode DataNode
  • 45. HBase Arquitectura Física : HDInsight Region Server N L RES T Blob Storage Account Web Front End 1 Web Front End N ZK1 Master1 M ZK2 Master2 M ZK3 Master3 M Region Server 1 L RES T Virtual Network Web App Head Node Yarn, M/R Services L HBase GW 1 GW 2 45
  • 46. CREATE TABLE IF NOT EXISTS "kinecttelemetry"(" K "clave principal VARCHAR," edad "VARCHAR," género "VARCHAR)default_column_family= 'demografía'; Apache Phoenix: SQL Skin sobre HBase Phoenix en 15 minutos o menos
  • 47.  Interfaz SQL sobre HBase  Vista de solo lectura sobre los datos existentes HBase  Typed data en conjunto con query optimizations  Estadísticas  Índices secundarios  Escalamiento SQL con HBase como plataforma de almacenamiento de datos Apache Phoenix http: //phoenix.apache.org/presentations/OC-HUG-2014-10-4x3.pdf
  • 48.
  • 49. Cargar datos al blog storage de Windows Azure  Para prototipos y ejemplos: #put  Para producción utilizer el blob storage APIs.  AzCopy Command Line  CopyBlob REST API
  • 50. Cómo consumir Resultados de HDInsight Destino Herramienta / Biblioteca Requiere Active HDInsight Cluster SQL Server, Azure SQL DB Sqoop (Hadoop ecosystem project) Yes Excel Codename “Data Explorer” No Otra Blob Storage Account Azure Blob Storage REST APIs (Copy Blob, etc) No SQL Server Analysis Services Hive ODBC Driver Yes BI Apps Existentes Hive ODBC Driver (assumes app supports ODBC connections to data sources) Yes
  • 51. Hadoop y Kafka Centro de datos en directo Centro de datos fuera de línea HadoopHadoopDev Hadoop InterfazInterfazLos consumidoresre s en tiempo real KafkaKafkaKafka KafkaKafkaKafka HadoopHadoopPROD Hadoop
  • 52. ¿Apache Storm? 4 Fácil de programar Una plataforma de procesamiento en tiempo real distribuido Tolerante a fallos Se espera que que falle y esta preparado para recuperarse Rápido Velocidad de 1M + mensajes por segundo por nodo Escalable Miles de workers por grupo Seguro Entrega de mensajes garantizada Exactamente una vez Análisis de Streaming de datos
  • 53. Procesamiento en tiempo real Apache Storm es sistema de computación distribuida para análisis en tiempo real. Storm hace que sea fácil de procesar de manera fiable flujos ilimitadas de datos, haciendo posible procesar en tiempo real lo Hadoop hizo para el procesamiento por lotes 1 1
  • 55. Casos de uso de Storm 7 Entrada Operadores (Ejemplos) Lookup Salida Lenguaje De Programación Automoviles Conectados Event hubs Window based aggregation, Join stream/split stream HBase, ML DocumentDB C# hybrid, Java ETL Event Hubs Partitioning/ organize N/A WASB Java IoT Event Hubs Window based aggregation Hbase, ML DocumentDB, HBase Java Detección Fraude ServiceBus Queue Filter ML Hbase C# hybrid Análisis Sociales Twitter Groupby/trending topics N/A Realtime dashboard (BI) Trident Supervisión de la red Kafka Split (on success/ failure) ML SQL C# hybrid Búsqueda de Log Storage Queue/ Event Hub Parsing & index N/A Elastic Search Java Dispositivos Moviles Eventhub Count HBase SignalR C# hybrid
  • 56. Uso de Stormautomovilesconectados Gateways Obtener los datos Almacen ar en blob Obtener datos de referencia Haga aprendizaj e automático Almacenar para consultas Servicio de Queuing Dashboard en vivo Servicio de Queuing
  • 57. Uso de Storm- automovilesconectados 6 Gateways Obtener los datos Almacen ar en blob Obtener datos de referencia Haga aprendizaj e automático Almacenar para consultas Servicio de Queuing Dashboard en vivo Servicio de Queuing Hubs de eventos Blob HBase ML DocumentDB PowerBI Evento Hubs
  • 58. Apache Spark complementa Hadoop • Spark aprovecha Hadoop ecosistema • HDFS, HCatalog, Entrada de datos / OutputFormats • Agrega opciones de mejor rendimiento
  • 59. Intercambio de Datos en MapReduce iter. 1 iter. 2 . . . Entrada HDFS leer HDFS escribir HDFS leer HDFS escribir Entrada consulta 1 consulta 2 consulta 3 resultado 1 resultado 2 número 3 . . . HDFS leer Lento debido a la replicación, la serialización, y el disco IO
  • 60. iter. 1 iter. 2 . . . Entrada Intercambio de Datos en Spark Repartido memoria Entrada consulta 1 pregunta 2 consulta 3 . . . una vez tratamiento 10-100× más rápido que la red y el disco
  • 61. Combina streaming y análisis complejos
  • 62. AZURE STREAM ANALYTICS Ing. Eduardo Castro, PhD
  • 63. Qué es Azure Stream Analytics
  • 64. ¿Por qué utilizar Stream Analytics en la nube? No todos los datos son locales Los datos de eventos ya está en la Nube Los datos de eventos esta distribuida globalmente TCO reducido scale-out Servicio, No infraestructura Llevar el procesamiento a los datos, no los datos en el procesamiento!
  • 65. Componentes de una aplicación Componentes de un Azure Stream Analytics Application Azure SQL DB Azure Event Hubs Azure Blob Storage Azure Blob Storage Azure Event Hubs Reference Data Query runs continuously against incoming stream of events Events Havea definedschemaand are temporal(sequencedin time)
  • 67. Definiciones Frase Objetivo "La minería de datos" Toma de decisiones "Machine Learning" Determinar el algoritmo de mejor desempeño
  • 68. ¿Cuál es el propósito de la minería de datos?  El análisis de grandes conjuntos de datos para revelar patrones y tendencias ocultas  Algoritmos de minería de datos realizar diferentes tipos de análisis estadísticos para diferentes escenarios  La minería de datos tiene una amplia gama de aplicaciones, por ejemplo:  Previsión de ventas  La publicidad dirigida  La formulación de recomendaciones en línea  La evaluación de riesgos
  • 69. Componentes de una solución de minería de datos de Servicios de Análisis  Estructura de minería de datos  Contiene vista de origen de datos  Contiene la tabla de casos y la estructura de minería de columnas  Contiene modelos de minería de datos  Especifica conjunto de entrenamiento y un conjunto de pruebas  Tabla de casos  Tiendas suente datos para los modelos de minería de datos  Las columnas se han definido los tipos de datos y el tipo de contenido  Minería de Datos Modelo  Utiliza un único algoritmo de minería de datos  Incluye columnas de estructura de minería de datos
  • 70. SQL Server Data Mining  Servicio, no aplicación  SQL Server Análisis Services (SSAS)  Múltiples interfaces:  SQL Server Data Tools (SSDT) ​​SQL Server Management Studio (SSMS)  PowerShell
  • 71. SQL Analysis Services Algoritmos de minería  Algoritmos de clasificación  Árboles de decisión de Microsoft  Microsoft Neural Network  Microsoft Naive Bayes  Algoritmos de regresión  Serie temporal de Microsoft  Regresión lineal de Microsoft  Microsoft regresión logística  Algoritmos de segmentación o agrupación  Microsoft Clustering  Algoritmos de asociación  Microsoft Asociación  Algoritmos de análisis de la secuencia  Microsoft clústeres de secuencia
  • 72. Minería de datos para Excel  Construido para Office 2010: 32-bit o 64-bit Add-In  Requiere Analysis Services  SQL Server 2012 Data Mining  Enterprise o  Inteligencia de Negocios o  Revelador
  • 73. Minería de datos para Excel  Minería de datos cliente para Excel  Construir, validar y gestionar los modelos de datos  Examinar y modelos de minería de datos de consulta • Herramientas de tabla de análisis para Excel  Lleve a cabo una serie de análisis de mesa  No se requieren conocimientos de la minería de datos
  • 74. Creación de minería de datos Soluciones  Herramientas de datos de SQL Server  Asistente para minería de datos  Diseñador de minería de datos  Cliente de minería de datos para Excel
  • 78. ¿Por qué el resurgimiento en el análisis predictivo?
  • 79. Introducción al Análisis predictivo Predictive Analytics Predictive Modeling Data Mining
  • 80. ¿Qué es el análisis predictivo?  El análisis de datos con técnicas matemáticas de estadística, minería de datos y aprendizaje automático. Se utiliza para descubrir patrones ocultos, que da una ventaja competitiva.
  • 81. ¿Qué es el análisis predictivo?
  • 82.  La automatización de la automatización  Utilizar computadoras para programar computadoras  Escribir software es el cuello de botella  Deje que los datos hagan el trabajo! Qué es el aprendizaje autómático o Machine Learning
  • 83. Evaluación del modelo  Mean Absolute Error (MAE). El promedio de los errores absolutos (un error es la diferencia entre el valor predicho y el valor real)  Root Mean Squared Error (RMSE). La raíz cuadrada del promedio de errors al cuadrado  Relative Absolute Error. El promedio de los valores absolutos relativos a la diferencia absoluta entre los valores reales y el promedio de todos los valores reales
  • 84.  Relative Squared Error. El promedio de los errores cuadrados relativos al cuadrado de la diferencia entre los valores reales y el promedio de los todos los valores reales  Coefficient of Determination. También conocido como R cuadrado, es una métrica estadísitca que indica qué tan bien el modelo predice los datos  Un coeficiente cercano a 1.0 significa mejores predicciones. Un 1.0 significa que el modelo explica el 100% de los datos
  • 85. Flujo en Azure Machine Learning
  • 86. Flujo en Azure Machine Learning
  • 87. Flujo en Azure Machine Learning
  • 88. Flujo en Azure Machine Learning
  • 89.
  • 91. Calidad de los Datos Master Data Integración de Datos Análisis Corporativo Informes Dashboards Análisis
  • 96. Evaluaciones Evaluacion del evento http://www.sqlsaturday.com/443/eventeval.aspx Evaluacion de las charlas http://www.sqlsaturday.com/443/sessions/sessionevaluation.aspx