10. Este concepto hace referencia a la acumulación masiva de datos.
Otras denominaciones son datos masivos o datos a gran escala. En la
literatura escrita en lengua hispana con frecuencia se utiliza el término
en inglés Big data , como aparece en el ensayo de Viktor
Schönberger Big data: La revolución de los datos masivos
Wikipedia.org
21. Un poco de historia…
Las primeras implementaciones de Google
necesitaban realizar operaciones de
multplicación de grandes matrices para
calcular el PageRank
La preocupación por tratar grandes colecciones de datos,
llevó a crear algoritmos y frameworks capaces de poder
procesar terabytes de información
Una de las primeras aplicaciones
capaces de programar MapReduce
fue implementado inicialmente en,
diseñado inicialmente por Doug
Cutting
27. Un proceso no trivial de identificación válida, novedosa, potencialmente útil y
entendible de patrones comprensibles que se encuentran ocultos en los datos
(Fayyad y otros, 1996)
From Data Mining to Knowledge Discovery in Databases
1996
28. DATA MINING
La minería de datos o exploración de datos (es la etapa de análisis de
"Knowledge Discovery in Databases" o KDD) es un campo de las ciencias de
la computación referido al proceso que intenta descubrir patrones en
grandes volúmenes de conjuntos de datos.
Las técnicas de la minería de datos provienen de la inteligencia artificial y de la
estadística, dichas técnicas, no son más que algoritmos, más o menos
sofisticados que se aplican sobre un conjunto de datos para obtener unos
resultados.
Wikipedia.org
29. Fue desarrollado inicialmente por Robert
Gentleman y Ross Ihaka del Departamento de
Estadística de la Universidad de Auckland en
1993.
En 1993, la Universidad de Waikato de Nueva
Zelanda inició el desarrollo de la versión original
de Weka (en TCL/TK y C)
1993
40. In 1989, Howard Dresner expanded on the popular umbrella term
"Business Intelligence (BI)", originally coined by Hans Peter Luhn in
1958. Dresner defined it to mean "concepts and methods to improve
business decision making by using fact-based support systems". Not
long after, in response to the need for better BI, companies such as
Business Objects, Actuate, Crystal Reports, and MicroStrategy began to
emerge, offering to report and analyze company data. Source: A Brief
History of Decision Support Systems by D.J. Power.
1989
Conceptos y métodos para mejorar la toma de decisiones basadas en hechos
43. Solución BI completa permite:
Observar: ¿qué está ocurriendo?
Comprender: ¿por qué ocurre?
Predecir: ¿qué ocurriría?
Colaborar. ¿qué debería hacer el equipo?
Decidir: ¿qué camino se debe conseguir?
Gestión del conocimiento
¿Qué es lo que la empresa está buscando?
Business Intelligence es la
habilidad para transformar
los datos en información, y la
información en
conocimiento, de forma que
se pueda optimizar el
proceso de toma de
decisiones en los negocios
44. Un conjunto de prácticas tecnológicas, herramientas
informáticas y conocimientos funcionales aplicados al
negocio, que permiten estructurar el acceso a la
información, y la información misma, para que sea
utilizada en la toma de decisiones en cualquier nivel de
una organización
53. Herramientas BI buscan actualizarse
Creación de nuevos conectores:
Manipulación de datos
Visualización de datos
El primero que lo tenga es el que tiene éxito
59. Leer datos es costoso
¿Realmente necesitamos transacciones para todo?
¿Cómo escalamos?
¿Todo dominio se representa bien en un modelo relacional?
60. Como respuesta a estos problemas surgió el paradigma
NoSQL
NoSQL no es un sustituto a las bases de datos relacionales
busca otras opciones para escenarios específicos
Es solo una forma de decir que no todos los problemas son
clavos que pueden ser atacados con un RDBMS
El desarrollador cuenta con un abanico de soluciones y
puede elegir la mejor para su problema en específico
Existen varias formas de NoSQL, que atacan los problema del
escalamiento, performance y modelado de los datos de
formas distintas.
Not Only SQL (NoSQL)
61. Tipos de BD Big Data. Not Only SQL (NoSQL)
Almacenes Key-ValueBases de datos
orientadas
a documentos
Bases de datos
orientadas a grafos
Bases de datos
orientadas a objetos
No sustituyen al modelo relacional. Escenarios específicos.
62. Más simples en cuanto su uso
VALOR guardado se
almacena como un arreglo de
bytes (BLOB)
El tipo de contenido no es
importante para la base de
datos, solo la clave y el valor
que tiene asociado
No necesita definir un
esquema (columnas, tipos de
datos) para almacenar la
información.
Escalabilidad: de key X a X+100 en Server 1, de X+101 a X+200 a
Server2
DBs Clave-Valor
63. Un almacen key-value con la excepción de que el valor no se
guarda sólo como un campo binario, sino con un formato
definido de forma tal que el servidor pueda entender
la diferencia es que el campo binario puede ser entendido
por la base de datos
DBs orientadas a documentos
64. Se basan en el paradigma orientado a
objetos y no en el modelo relacional
No se basan en claves primarias sino en
OID
Pueden representar relaciones
jerárquicas
Las relaciones entre tablas son a través
de punteros a objetos
Las bases orientadas a objetos nunca tuvieron el impacto
esperado, pero tienen varios nichos específicos como algunas
aplicaciones de carácter científico
DBs orientadas a objetos
65. DBs orientadas a grafos
Almacenan los datos en forma de
grafo.
Da importancia no solo a los datos,
sino a las relaciones entre ellos
Más eficiente navegar entre
relaciones que en un modelo
relacional
Sólo son aprovechables si tu
información se puede representar
fácilmente como una red
30
71. Las primeras implementaciones de Google necesitaban
realizar operaciones de multplicación de grandes matrices
para calcular el PageRank
La preocupación por tratar grandes colecciones de datos,
llevó a crear algoritmos y frameworks capaces de poder
procesar terabytes de información con commodity HW
Una de las primeras aplicaciones
capaces de programar MapReduce
fue implementado inicialmente en
Hadoop, diseñado inicialmente por
Doug Cutting
107. El procesamiento masivo de datos no es nuevo
Diferentes planteamientos en resolución de problemas
Nuevas propuestas tecnológicas. Evolución creciente
Actualización de herramientas
Fomento del Open Source
Fomento del analytics
Nuevas oportunidades de negocio
Nuevas demandas en el sector (Data Scientist = todoterreno)
Data Mining y Business Intelligence 2.0
108. Business Analytics y Data Mining son los
procedimientos.
Big Data es la tecnología.