En es presentación vemos las herramientas con las cuales cuenta un científico de datos con tecnología Microsoft y también con tecnología OpenSource es se puede integrar con Plataformas Microsoft en la nube con Azure o con Servidores OnPremises.
Saludos,
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
Costa Rica
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
En esta presentación vemos los conceptos de Big Data y cómo podemos integrar las herramientas de BI de SQL Server 2012 con Hadoop y con HDInsigth Server y con PowerPivot.
Saludos
Ing. Eduardo Castro
Microsoft SQL Server MVP
En esta presentación vemos aspectos de introducción a Big Data.
Saludos,
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
http://tinyurl.com/comunidadwindows
Presentación introductoria al Big Data, y su aplicación en los negocios, impartida en la jornada organizada por Ascentic y PCTCAN en Santander, 12/05/2016
En es presentación vemos las herramientas con las cuales cuenta un científico de datos con tecnología Microsoft y también con tecnología OpenSource es se puede integrar con Plataformas Microsoft en la nube con Azure o con Servidores OnPremises.
Saludos,
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
Costa Rica
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
En esta presentación vemos los conceptos de Big Data y cómo podemos integrar las herramientas de BI de SQL Server 2012 con Hadoop y con HDInsigth Server y con PowerPivot.
Saludos
Ing. Eduardo Castro
Microsoft SQL Server MVP
En esta presentación vemos aspectos de introducción a Big Data.
Saludos,
Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
http://tinyurl.com/comunidadwindows
Presentación introductoria al Big Data, y su aplicación en los negocios, impartida en la jornada organizada por Ascentic y PCTCAN en Santander, 12/05/2016
Big Data - Desarrollando soluciones efectivasJoseph Lopez
Como continuación a la presentación titulada "Introducción al mundo de las Bodegas de datos", esta presentación le explicará qué es Big Data y sus beneficios, incluyendo casos de uso. Así mismo, discutiremos cómo Hadoop, la nube y procesamiento masivamente paralelo (MPP) está cambiando la forma en los almacenes de datos se están construyendo. Hablaremos de arquitecturas híbridas que combinan datos in situ con datos en la nube, así como datos relacionales y no relacionales de datos (no estructurados). Veremos también los beneficios del MPP en SMP y cómo integrar datos desde dispositivos en la Internet (IoT). Aprenderemos también lo que debería verse como un almacén de datos moderno y cómo cuadra su papel de un mar de datos y Hadoop. Al finalizar esta exposición, tendremos una orientación sobre la mejor solución para el almacén de datos en el futuro.
Esta es una actualización de el proyecto de Big Data que ha llegado a un primer resultado, El mapa de emotividad basada en Twitter, por cada entidad de México. El siguiente paso será hacer esto en tiempo real.
En el último año, Big Data se ha transformado en uno de los pilares más importantes de la estrategia de negocio de los Bancos de Chile y el mundo. En un entorno cada vez más competitivo y con altos niveles de regulación, las organizaciones deben comenzar a tomar decisiones en función de los datos y no de la intuición. Para tomar dichas decisiones, se vuelve necesario procesar grandes volúmenes de información de manera eficiente, incorporando nuevas fuentes de datos y automatizando las decisiones a través de algoritmos analíticos avanzados. Durante esta presentación, analizaremos qué deben hacer los Bancos para transformar su arquitectura de datos tradicional, en una arquitectura de datos moderna con soporte para big data y así estar preparados para abordar los nuevos desafíos que plantea la transformación digital del negocio financiero.
Presentación de Big Data Architecture & Integration con Pentaho, realizada por Datalytics con motivo del desayuno de trabajo realizado el 18 de Diciembre 2012.
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
Esta presentación es la que utilicé como ponente de Mondragon Unibertsitatea para introducir al público asistente a la jornada de "Mitos y Realidades del Big Data" de Enpresa Digitala en su nodo de Goiru (http://www.euskadinnova.net/es/enpresa-digitala/agenda/mitos-realidades-data/8956.aspx?utm_source=rss_feed&utm_medium=rss&utm_campaign=accesos_rss). Se trata de una presentación donde se explican qué es y qué no es Big Data, enfocando sobre todo en la parte de almacenamiento, infraestructura, y análisis de los datos.
Big Data para analizar las redes socialesDatKnoSys
El principal objetivo es mostrar el análisis de cantidades elevadas de información que nos proporcionan las redes sociales gracias a sistemas Big Data. Haciendo frente a la complejidad de la variedad de orígenes, el gran volumen de las mismas y la velocidad de procesamiento que se necesita.
Se incidirá principalmente en los siguientes puntos clave: la recogida de datos, su procesamiento (con ejemplo de text mining para conseguir descifrar el sentimiento) y en la visualización final.
¿Sabías que cada minuto se mandan 13 millones de mensajes se suben 48 horas de vídeo a YouTube y se crean 571 nuevas páginas web? Internet es un generador de grandes cantidades de información y este contenido lo generan los usuarios, nuestros clientes, por eso hay que saber adaptarse a este nuevo socio económico y aprovechar el valor de la información que nos ofrece. Es importante implantar sistemas de Big Data que nos ayuden a almacenar, buscar, compartir, analizar y visualizar estas grandes cantidades de datos y con ello conseguir valor. No hay que olvidar que tan importante como es instalar un sistema big data, es definirlo conforme a nuestras necesidades.
Big Data - Desarrollando soluciones efectivasJoseph Lopez
Como continuación a la presentación titulada "Introducción al mundo de las Bodegas de datos", esta presentación le explicará qué es Big Data y sus beneficios, incluyendo casos de uso. Así mismo, discutiremos cómo Hadoop, la nube y procesamiento masivamente paralelo (MPP) está cambiando la forma en los almacenes de datos se están construyendo. Hablaremos de arquitecturas híbridas que combinan datos in situ con datos en la nube, así como datos relacionales y no relacionales de datos (no estructurados). Veremos también los beneficios del MPP en SMP y cómo integrar datos desde dispositivos en la Internet (IoT). Aprenderemos también lo que debería verse como un almacén de datos moderno y cómo cuadra su papel de un mar de datos y Hadoop. Al finalizar esta exposición, tendremos una orientación sobre la mejor solución para el almacén de datos en el futuro.
Esta es una actualización de el proyecto de Big Data que ha llegado a un primer resultado, El mapa de emotividad basada en Twitter, por cada entidad de México. El siguiente paso será hacer esto en tiempo real.
En el último año, Big Data se ha transformado en uno de los pilares más importantes de la estrategia de negocio de los Bancos de Chile y el mundo. En un entorno cada vez más competitivo y con altos niveles de regulación, las organizaciones deben comenzar a tomar decisiones en función de los datos y no de la intuición. Para tomar dichas decisiones, se vuelve necesario procesar grandes volúmenes de información de manera eficiente, incorporando nuevas fuentes de datos y automatizando las decisiones a través de algoritmos analíticos avanzados. Durante esta presentación, analizaremos qué deben hacer los Bancos para transformar su arquitectura de datos tradicional, en una arquitectura de datos moderna con soporte para big data y así estar preparados para abordar los nuevos desafíos que plantea la transformación digital del negocio financiero.
Presentación de Big Data Architecture & Integration con Pentaho, realizada por Datalytics con motivo del desayuno de trabajo realizado el 18 de Diciembre 2012.
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
Esta presentación es la que utilicé como ponente de Mondragon Unibertsitatea para introducir al público asistente a la jornada de "Mitos y Realidades del Big Data" de Enpresa Digitala en su nodo de Goiru (http://www.euskadinnova.net/es/enpresa-digitala/agenda/mitos-realidades-data/8956.aspx?utm_source=rss_feed&utm_medium=rss&utm_campaign=accesos_rss). Se trata de una presentación donde se explican qué es y qué no es Big Data, enfocando sobre todo en la parte de almacenamiento, infraestructura, y análisis de los datos.
Big Data para analizar las redes socialesDatKnoSys
El principal objetivo es mostrar el análisis de cantidades elevadas de información que nos proporcionan las redes sociales gracias a sistemas Big Data. Haciendo frente a la complejidad de la variedad de orígenes, el gran volumen de las mismas y la velocidad de procesamiento que se necesita.
Se incidirá principalmente en los siguientes puntos clave: la recogida de datos, su procesamiento (con ejemplo de text mining para conseguir descifrar el sentimiento) y en la visualización final.
¿Sabías que cada minuto se mandan 13 millones de mensajes se suben 48 horas de vídeo a YouTube y se crean 571 nuevas páginas web? Internet es un generador de grandes cantidades de información y este contenido lo generan los usuarios, nuestros clientes, por eso hay que saber adaptarse a este nuevo socio económico y aprovechar el valor de la información que nos ofrece. Es importante implantar sistemas de Big Data que nos ayuden a almacenar, buscar, compartir, analizar y visualizar estas grandes cantidades de datos y con ello conseguir valor. No hay que olvidar que tan importante como es instalar un sistema big data, es definirlo conforme a nuestras necesidades.
El Valor de construir First Party Data Orgánico a través del Ecosistema Digit...Esther Checa
Principales retos de una estrategia de posicionamiento natural (SEO): estar en las diferente etapas del viaje del consumidor y aprovechar las audiencias que se generan dentro de los activos digitales #Innobi2017
Cómo el Data y la Analítica ayudan al Desarrollo del Negocio Digital.
¿Qué buscas conseguir con tu estrategia digital? ¿Tienes claros los objetivos que persigues? Si no están bien definidos y no se realiza un correcto seguimiento, ¿cómo saber si vamos por el buen camino?
Tenemos una vasta cantidad de datos e información sobre nuestros activos digitales y nuestro propio entorno. Pero estos datos han de servir para monitorizar la estrategia digital de nuestra empresa, de nuestras campañas, de nuestro contenido, en definitiva, de todas nuestras acciones.
En esta presentación se introducen los conceptos de Big Data, así como las soliciones de Horton Works sobre Windows y el Microsoft Analytics Platform System (PDW Paralled Data Warehouse)
Saludos,
Eduardo Castro, PhD
SQL Server MVP
Comunidad Windows Costa Rica
Cristobal Urenda, CEO de A10, entrega una visión general sobre la industria junto a los representantes de las compañías líderes en Big Data y Analytics que participan en este seminario: HPE y Qlik.
El término “Data Science” se ha vuelto muy popular recientemente con el aumento de popularidad de las redes sociales, análisis predictivos y el análisis de datos no estructurados como parte del crecimiento del “Big Data”. En esta sesión estaremos viendo que es “Data Science”, que necesitamos saber o aprender para poder convertirnos en un científico de datos y estaremos viendo algunos ejemplos de usos muy comunes usando lenguajes como Python, R y el cómo podemos integrar estos en SQL Server y Azure . Al final de esta charla tendrás un entendimiento más amplio de las técnicas de manejos de datos, modelamiento, visualización y los lenguajes y productos para poner tus proyectos en marcha.
Exploradata es una nueva compañía española la cual busca proveer, mediante los componentes de la suite Rocket, servicios de tratamiento y procesamiento de datos BigData, Smalldata con especial cuidado en la visualización
http://www.sqlserversi.com - Visión general de los proyectos de Business Intelligence, basados en Microsoft SQL Server 2000, DTS y Analysis Services 2000.
Cómo construir tu propia data platform. From zero to hero. GustavoMartin46
Esta presentación es el resultado de la ponencia presentada el día 28 de abril de 2023 en la Salmorejo Tech https://salmorejo.tech/2023/.
Con esta ponencia se buscaba explicar a una audiencia con conocimientos básicos de tecnología, las distintas herramientas que se pueden emplear para construir una plataforma de datos.
La ponencia comienza con una configuración sencilla, que prácticamente cualquier persona del mundo de la informática puede entender. Termina con una configuración compleja, donde sin entrar en muchos detalles, sí permite a la audiencia hacerse una idea de qué herramientas se requieren para implementar la solución.
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleoCICE
BIG DATA. Nuevos perfiles y oportunidades de empleo.
Conviértete en un experto en la gestión de grandes volúmenes de datos y en la inteligencia de negocio.
www.cice.es
Machine Learning con Azure Managed InstanceEduardo Castro
En esta presentación mostramos las opciones para implementar Machine Learning dentro de Azure, así como las formas de configurar y utilizar Python dentro de Azure Managed Instance
Es un diagrama para La asistencia técnica o apoyo técnico es brindada por las compañías para que sus clientes puedan hacer uso de sus productos o servicios de la manera en que fueron puestos a la venta.
3Redu: Responsabilidad, Resiliencia y Respetocdraco
¡Hola! Somos 3Redu, conformados por Juan Camilo y Cristian. Entendemos las dificultades que enfrentan muchos estudiantes al tratar de comprender conceptos matemáticos. Nuestro objetivo es brindar una solución inclusiva y accesible para todos.
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Telefónica
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0xWord escrito por Ibón Reinoso ( https://mypublicinbox.com/IBhone ) con Prólogo de Chema Alonso ( https://mypublicinbox.com/ChemaAlonso ). Puedes comprarlo aquí: https://0xword.com/es/libros/233-big-data-tecnologias-para-arquitecturas-data-centric.html
Inteligencia Artificial y Ciberseguridad.pdfEmilio Casbas
Recopilación de los puntos más interesantes de diversas presentaciones, desde los visionarios conceptos de Alan Turing, pasando por la paradoja de Hans Moravec y la descripcion de Singularidad de Max Tegmark, hasta los innovadores avances de ChatGPT, y de cómo la IA está transformando la seguridad digital y protegiendo nuestras vidas.
Herramientas de Microsoft para el Científicos de Datos
1. Ing. Eduardo Castro, PhD
Microsoft SQL Server MVP
PASS Regional Mentor
PASS Global Board of Directors Advisor
ecastro@simsasys.com
http://www.youtube.com/eduardocastrom
Herramientas SQL Server y Microsoft
Azure para el Científico de Datos
3. Científico de datos
Ciencia de datos: un término utilizado
indistintamente con inteligencia de negocio o
análitica empresarial
4. Qué es ciencia de datos?
Descubrir lo que nó sabemos de los datos
Obtener conocimiento de los datos, que
permita hacer predicciones y tomar acciones
Crear soluciones basadas en datos que
tienen impacto en el negocio
Relacionar los datos con el negocio
Crear confianza en la toma de decisiones
que brindan valor para el negocio
5. Científico de datos
Un científico de datos incorpora técnicas y
teorías de muchos campos, incluyendo las
matemáticas, la estadística, la ingeniería de
datos, reconocimiento de patrones, aprendizaje
avanzado , visualización, modelado de la
incertidumbre, almacenamiento de datos y la
computación de alto rendimiento con el objetivo
de extraer el significado de datos.
6. Quién es un científico de datos?
Alguien mejor en las estadísticas que cualquier ingeniero
de software, y alguien mejor
en la ingeniería de software que cualquier estadístico
7. Qué NO es un científico de datos?
Los ingenieros de software entienden
conceptualmente los modelos
como la regresión lineal, pero no
entienden realmente los supuestos de
modelización estadística
Usualmente los ingenieros inexpertos piensan
que están haciendo análisis de datos y
búsqueda de puntos de patrones, pero lo que
están encontrando son valores sin sentido, o al
menos no lo que ellos piensan que están
encontrando
8. Qué es un analista de datos?
Un analista de datos no sabe cómo codificar, sino que
se espera que sea experto en herramientas de la
industria, tales como Excel o Finanzas en un terminal
de Bloomberg
9. Qué es un Data Scientist?
Un científico de datos definitivamente tiene un mucho mayor
comprensión de la informática y se espera que él desarrolle
herramientas o que utilice algunas herramientas no estándar
para las necesidades de productos o las necesidades de la
empresa.
10. Qué es un Data Scientist?
Data Science London. 2013.
12. 10 Cosas que hacen los científicos de datos
1. Realizar preguntas adecuadas
Qué es lo que no conocemos
Qué es lo que nos gustaría conocer
2. Definir hipótesis y probarlas, ejecutar
experimentos
3. Scoop, Scrap, Sink datos del negocio
4. Data munging
5. Explorar Datos, Descubrir Datos, Descubrir
hechos desconocidos
13. 10 Cosas que hacen los científicos de datos
Modelar datos, modelar algoritmos
Entender las relaciones de los datos
Decirle a la máquina cómo aprender de los
datos
Crear soluciones de datos que entregar
conocimiento para tomar decisiones
Expresar los datos con conocimiento que es
relevante para el negocio
15. Encadenar Herramientas para la Ciencia de
Datos
Data
Preparation
Exploratory
Analysis
Inference /
Prediction
Solution
Implementation
Results
Communication
Sobresal
irHadoop
RDBMS
/ SQL
Pitón
Sobresa
lir
R
Pitón
Persona
lizado
Código
R
• Utilice el conjunto de herramientas de la derecha en diferente
etapas
16. Modern R es más difícil que SQL
http:
//cran.rstudio.com/web/packages/dplyr/vignettes/introduction.html
17. Lo que importa más es la capacidad de elegir y aprender
las herramientas y los métodos correctos ...
18. Mezclado
en una
solo vista
Datos, datos por todas partes ...
Estructurado interna
Datos
financieros
I Estructuradonternal
Datos de las
ventas
Semiestructuradas
eXternal
Datos Sociales
Varios tipos,
múltiple
fuentes
20. Principales fuentes de datos
Redes sociales y medios de comunicación
700 millones de usuarios de Facebook, 250 millones de
usuarios de Twitter y 156 millones de blogs públicos
Dispositivos móviles
Más de 5 mil millones de teléfonos móviles en uso en
todo el mundo
Transacciones en Internet
miles de millones de compras en línea, operaciones de
bolsa y otras transacciones ocurren todos los días
Dispositivos de red y sensores
21. Dominio Escenarios de grandes volúmenes datos comunes
Servicios financieros Modelado riesgo verdadero
Análisis de las amenazas y detección de fraude
Vigilancia Comercio
El puntaje de crédito y análisis
Medios y Entretenimiento Los motores de recomendación
Focalización Ad
Buscar calidad
Los abusos y detección de fraude de clics
Venta al por menor Punto de análisis de las transacciones de
ventas
Análisis de la pérdida de clientes
El análisis de sentimientos (sentiment
analysis)
Telecomunicaciones Cliente prevención del churn
La optimización del rendimiento de la red
Detalles de llamadas (CDR) y su análisis
Predicción de fallos de red
Gobierno Seguridad Cibernética (botnets, fraudes)
La congestión del tráfico y re-enrutamiento
Monitoreo Ambiental
Monitoreo Antisocial través de medios sociales
Salud La investigación del genoma
La investigación del cáncer
Pandemias detección temprana
Monitoreo de la calidad del aire
22. Nuevos Enfoques para el procesamiento y análisis de
datos
Hay varios métodos para procesar y analizar grandes
volúmenes de datos, pero la mayoría tienen algunas
características comunes
Hadoop
NoSQL
Bases de datos analíticos masivamente paralelo
26. Aplicaciones de datos
intensivos
Activity Queue
Azure Storage
Google Analytics
Logs
Azure Storage
Email DBs
SQL Azure x 16
Username DBs
SQL Azure x 16
User Profiles
SQL Azure x 400
Activity Table
X 50 Partitions
Azure Storage
IIS Logs
Azure Storage
Data Analysis: Staging
Virtual Machine
Data
Warehouse
Reporting
Services
Activity Processors
Worker Roles x 2
Cache
Users and Friends Feed
Games and Leader Boards
Resources and References
Distributed Cache x 32
Cache Tasks
Worker Roles x 4
Back Office
Web Roles x 2
Background Tasks DB
Utility DB, Content
DB, Taxonomy DB
SQL Azure
Web Application
Web Roles x 180
Web Service/API
Web Roles x 2
Moderation
Service/Appliance
CRISP/3rd
Party
30. Clúster Hadoop
Buster Cluster, un proyecto de investigación Miles
Osborne, de la Universidad de Edimburgo, Facultad de
Informática.
Imagen utilizada con permiso.
http://homepages.inf.ed.ac.uk/miles/
32. Windows HADOOP
2 Versiones
Cloud
Azure Service
On Permise
Integración con el Hadoop File System with Active Directory
Integración con BI
Herramientas de integración
Sqoop
Integración con SQL Server
33. Introducción a HDInsight
HDInsight es una implementación de Microsoft 100%
compatible con la distribución de Apache Hadoop
Disponible tanto para Windows Server y como un servicio
Windows Azure
Permite que las empresas analicen datos no estructurados
con herramientas bien conocidas tales como Excel
37. Procesamiento de la lógica en HDInsight 3.0
Hadoop 2.2: interactivo, en línea, stream, o por lotes
38. Ciencia de datos Hadoop
Actualmente, sólo HDInsight 1.6 o 2.1, 3.0 todavía no
Filtrado colaborativo,
recomendadores, clustering,
singular value decomposition
parallel frequent pattern
mining, naïve Bayes, árbol de
decisión
41. Análisis de sensors
Consultas en tiempo real
Indexación Web
Sistemas de mensajería
Dashboards interactivos
Casos de uso enfoque columnar
42. • Escrituras/Lecturas aleatorias y
consitentes en tiempo real
• Sharding automático y escalabilidad
linea
• Miles de millones de filas - Millones
de columnas
• TB y PB de datos
• Esquema flexible
• Datos estructurados y semi-
estructurados
• Lecturas y escrituras rápidas
Patrones / En que funciona Anti-patrón / Peligro
Conjuntos de datos pequeños (miles /
millones de filas)
Agregaciones
Cualquier scenario que requiera:
• Union
• Transacciones
• Capacidades completas de un
RDBMS
¿Por qué en unfoque columnar?
43. ¿Qué es HBase?
Base de datos distribuida no relacional
Modelo de datos en columnas
NoSQL construido sobre Hadoop
Gran escalabilidad
Escalabilidad lineal
Miles de millones de filas x millones de columnas
Muchas implementaciones con 1000 nodos, PB de datos
Baja latencia
Lecturas/Escrituras aleatorias en tiempo real
Código abierto
Siguiendo el modelo de Google BigTable
Iniciado en 2006
7
44. Arquitectura de HBase
21
Eficiente con lecturas /
escrituras aleatorias
Almacenamiento
distrubuido escalable
Utiliza Hadoop para la
persistencia
Ambos HBase y
Hadoop
son distribuidos
HRegionServer
HRegion
ConGrup
o
MenStore
Storefile
HFile
Tienda Hom
bres
Tiend
a
Tienda
HBase
Storefile
HFile
Storefile
HFile
HRegionServer
HRegion
ConGrup
o
MenStore
Storefile
HFile
Tienda Hom
bres
Tiend
a
Tienda
Storefile
HFile
Storefile
HFile
Cliente HmasterZooKeeper
DFS
Cliente
DFS
Cliente
Hadoop
DataNode DataNode DataNode DataNode DataNode
45. HBase Arquitectura Física : HDInsight
Region
Server N
L
RES
T
Blob
Storage
Account
Web Front
End 1
Web Front
End N
ZK1
Master1
M
ZK2
Master2
M
ZK3
Master3
M
Region
Server 1
L
RES
T
Virtual Network
Web App
Head Node
Yarn, M/R Services
L
HBase
GW 1
GW 2
45
46. CREATE TABLE IF NOT EXISTS "kinecttelemetry"(" K "clave
principal VARCHAR," edad "VARCHAR," género
"VARCHAR)default_column_family= 'demografía';
Apache Phoenix: SQL Skin sobre HBase
Phoenix en 15 minutos o menos
47. Interfaz SQL sobre HBase
Vista de solo lectura sobre los datos existentes HBase
Typed data en conjunto con query optimizations
Estadísticas
Índices secundarios
Escalamiento SQL con HBase como plataforma de
almacenamiento de datos
Apache Phoenix
http: //phoenix.apache.org/presentations/OC-HUG-2014-10-4x3.pdf
48.
49. Cargar datos al blog storage de Windows
Azure
Para prototipos y ejemplos: #put
Para producción utilizer el blob storage APIs.
AzCopy Command Line
CopyBlob REST API
50. Cómo consumir Resultados de HDInsight
Destino Herramienta / Biblioteca Requiere Active HDInsight
Cluster
SQL Server,
Azure SQL DB
Sqoop (Hadoop ecosystem project) Yes
Excel Codename “Data Explorer” No
Otra Blob Storage
Account
Azure Blob Storage REST APIs (Copy Blob, etc) No
SQL Server Analysis
Services
Hive ODBC Driver Yes
BI Apps Existentes Hive ODBC Driver (assumes app supports
ODBC connections to data sources)
Yes
51. Hadoop y Kafka
Centro de datos en
directo
Centro de datos fuera
de línea
HadoopHadoopDev
Hadoop
InterfazInterfazLos
consumidoresre
s en tiempo real
KafkaKafkaKafka
KafkaKafkaKafka
HadoopHadoopPROD
Hadoop
52. ¿Apache Storm?
4
Fácil de programar
Una plataforma de
procesamiento en tiempo
real distribuido
Tolerante a fallos
Se espera que que falle y
esta preparado para
recuperarse
Rápido
Velocidad de 1M +
mensajes por segundo
por nodo
Escalable
Miles de workers por
grupo
Seguro
Entrega de mensajes
garantizada
Exactamente una vez
Análisis de
Streaming de
datos
53. Procesamiento en tiempo real
Apache Storm es sistema de computación distribuida para
análisis en tiempo real.
Storm hace que sea fácil de procesar de manera fiable flujos ilimitadas
de datos, haciendo posible procesar en tiempo real lo Hadoop hizo para
el procesamiento por lotes
1
1
55. Casos de uso de Storm
7
Entrada Operadores (Ejemplos) Lookup Salida
Lenguaje De
Programación
Automoviles
Conectados
Event hubs
Window based aggregation,
Join stream/split stream
HBase, ML DocumentDB C# hybrid, Java
ETL Event Hubs
Partitioning/
organize
N/A WASB Java
IoT Event Hubs Window based aggregation Hbase, ML
DocumentDB,
HBase
Java
Detección
Fraude
ServiceBus
Queue
Filter ML Hbase C# hybrid
Análisis Sociales Twitter Groupby/trending topics N/A
Realtime dashboard
(BI)
Trident
Supervisión de
la red
Kafka Split (on success/ failure) ML SQL C# hybrid
Búsqueda de
Log
Storage
Queue/ Event
Hub
Parsing & index N/A Elastic Search Java
Dispositivos
Moviles
Eventhub Count HBase SignalR C# hybrid
56. Uso de Stormautomovilesconectados
Gateways
Obtener
los datos
Almacen
ar en
blob
Obtener
datos de
referencia
Haga
aprendizaj
e
automático
Almacenar
para
consultas
Servicio de
Queuing
Dashboard en
vivo
Servicio de
Queuing
57. Uso de Storm- automovilesconectados
6
Gateways
Obtener
los datos
Almacen
ar en
blob
Obtener
datos de
referencia
Haga
aprendizaj
e
automático
Almacenar
para
consultas
Servicio
de Queuing
Dashboard en
vivo
Servicio de
Queuing
Hubs de eventos
Blob HBase ML DocumentDB
PowerBI
Evento
Hubs
58. Apache Spark complementa Hadoop
• Spark aprovecha Hadoop ecosistema
• HDFS, HCatalog, Entrada de datos / OutputFormats
• Agrega opciones de mejor rendimiento
59. Intercambio de Datos en
MapReduce
iter. 1 iter. 2 . . .
Entrada
HDFS
leer
HDFS
escribir
HDFS
leer
HDFS
escribir
Entrada
consulta 1
consulta 2
consulta 3
resultado 1
resultado 2
número 3
. . .
HDFS
leer
Lento debido a la replicación, la serialización, y el disco
IO
60. iter. 1 iter. 2 . . .
Entrada
Intercambio de Datos en
Spark
Repartido
memoria
Entrada
consulta 1
pregunta 2
consulta 3
. . .
una vez
tratamiento
10-100× más rápido que la red y el disco
64. ¿Por qué utilizar Stream Analytics en la
nube?
No todos los datos son locales
Los datos de eventos ya está
en la Nube Los datos de eventos esta
distribuida globalmente
TCO reducido scale-out Servicio,
No
infraestructura
Llevar el procesamiento a los datos,
no los datos en el procesamiento!
65. Componentes de una aplicación
Componentes de un Azure Stream Analytics Application
Azure SQL DB
Azure Event
Hubs
Azure Blob
Storage
Azure Blob
Storage
Azure Event Hubs
Reference Data
Query runs continuously against incoming stream of
events
Events
Havea definedschemaand
are temporal(sequencedin
time)
68. ¿Cuál es el propósito de la minería de
datos?
El análisis de grandes conjuntos de datos para revelar
patrones y tendencias ocultas
Algoritmos de minería de datos realizar diferentes tipos
de análisis estadísticos para diferentes escenarios
La minería de datos tiene una amplia gama de
aplicaciones, por ejemplo:
Previsión de ventas
La publicidad dirigida
La formulación de recomendaciones en línea
La evaluación de riesgos
69. Componentes de una solución de minería
de datos de Servicios de Análisis
Estructura de minería de datos
Contiene vista de origen de datos
Contiene la tabla de casos y la estructura de minería de
columnas
Contiene modelos de minería de datos
Especifica conjunto de entrenamiento y un conjunto de pruebas
Tabla de casos
Tiendas suente datos para los modelos de minería de datos
Las columnas se han definido los tipos de datos y el tipo de
contenido
Minería de Datos Modelo
Utiliza un único algoritmo de minería de datos
Incluye columnas de estructura de minería de datos
70. SQL Server Data Mining
Servicio, no aplicación
SQL Server Análisis
Services (SSAS)
Múltiples interfaces:
SQL Server Data Tools
(SSDT) SQL Server
Management Studio
(SSMS)
PowerShell
71. SQL Analysis Services Algoritmos de
minería
Algoritmos de clasificación
Árboles de decisión de Microsoft
Microsoft Neural Network
Microsoft Naive Bayes
Algoritmos de regresión
Serie temporal de Microsoft
Regresión lineal de Microsoft
Microsoft regresión logística
Algoritmos de segmentación o agrupación
Microsoft Clustering
Algoritmos de asociación
Microsoft Asociación
Algoritmos de análisis de la secuencia
Microsoft clústeres de secuencia
72. Minería de datos para Excel
Construido para Office 2010:
32-bit o 64-bit Add-In
Requiere Analysis Services
SQL Server 2012 Data
Mining
Enterprise o
Inteligencia de Negocios o
Revelador
73. Minería de datos para Excel
Minería de datos cliente para Excel
Construir, validar y gestionar los modelos de datos
Examinar y modelos de minería de datos de consulta
• Herramientas de tabla de análisis para Excel
Lleve a cabo una serie de análisis de mesa
No se requieren conocimientos de la minería de datos
74. Creación de minería de datos Soluciones
Herramientas de datos de
SQL Server
Asistente para minería de
datos
Diseñador de minería de datos
Cliente de minería de datos
para Excel
80. ¿Qué es el análisis predictivo?
El análisis de datos con técnicas matemáticas de
estadística, minería de datos y aprendizaje
automático. Se utiliza para descubrir patrones
ocultos, que da una ventaja competitiva.
82. La automatización de la automatización
Utilizar computadoras para programar computadoras
Escribir software es el cuello de botella
Deje que los datos hagan el trabajo!
Qué es el aprendizaje autómático o Machine
Learning
83. Evaluación del modelo
Mean Absolute Error (MAE). El promedio de los errores
absolutos (un error es la diferencia entre el valor predicho y el
valor real)
Root Mean Squared Error (RMSE). La raíz cuadrada del
promedio de errors al cuadrado
Relative Absolute Error. El promedio de los valores absolutos
relativos a la diferencia absoluta entre los valores reales y el
promedio de todos los valores reales
84. Relative Squared Error. El promedio de los errores
cuadrados relativos al cuadrado de la diferencia entre los
valores reales y el promedio de los todos los valores
reales
Coefficient of Determination. También conocido como R
cuadrado, es una métrica estadísitca que indica qué tan
bien el modelo predice los datos
Un coeficiente cercano a 1.0 significa mejores
predicciones. Un 1.0 significa que el modelo explica el
100% de los datos