SlideShare una empresa de Scribd logo
1 de 57
Descargar para leer sin conexión
Implementación de Almacenes de Datos
usando Gestores de Bases de Datos NOSQL
Ing. Roanny lamas López
@RoannyLL
Facebook.com/RoannyLL
27 de febrero de 2015
Introducción
Las RDBMS han sido la primera opción, pero,
... los problemas nos alcanzaron
Amazon necesitaba disponibilidad total y tolerancia a fallas
Google necesitaba almacenar petabytes
en un sistema distribuido entre miles de servidores
Facebook necesitaba disponibilidad,
y desempeño sin límite de nodos
Y ellas querían libertad para irse
a ganar su dinero
El viejo sistema limitaba a estas empresas
“El problema fundamental es endémico a la mentalidad de una base de
datos relacional, que pone la carga de cómputo en la lectura más que
en la escritura. Esto es del todo equivocado para una aplicación web de
gran escala, en que el tiempo de respuesta es crítico.”
Ian Eure, Digg
Introducción a NOSQL
NO
SQLNo significa lo que estás pensando
X
Introducción a NOSQL
Not-Only
SQLX
Introducción a NOSQL
NO
RELX
Introducción a NOSQL
• NoSQL – es un término utilizado para describir un subconjunto de
bases de datos que difieren en varios aspectos de las bases de datos
tradicionales (RDBMS).
• No tienen schemas, no permiten JOINs, no intentan garantizar ACID y escalan
horizontalmente.
• El término fue acuñado en 1998 por Carlo Strozzi y resucitado en
2009 por Eric Evans.
• El propio Evans sugiere mejor referirse a esta familia de BBDD de nueva
generación como “Big Data”.
• Al igual que las bases de datos relacionales son tipos de
Almacenamiento Estructurado.
Introducción a NOSQL
• La principal diferencia radica en cómo guardan los datos (por
ejemplo, almacenamiento de un recibo):
• En un RDBMS tendríamos que distribuir la información en una o varias tablas.
• En NoSQL, simplemente guardas el recibo:
• NoSQL es libre de schemas, tú no diseñas tus tablas y su estructura por
adelantado.
• ¡¡¡NoSQL no es la solución!!!
• Si tus datos son relacionales, quedarte con tu RDBMS sería la opción correcta.
Amazon desarrolló Dynamo
Google inventó BigTable
Facebook creó Cassandra
Digg adoptó Cassandra
Son empresas que trabajan con aplicaciones web a gran escala
http://kwolek.org/andrew.htm
El teorema CAP
• Teorema de Brewer: “es imposible para un sistema computacional
distribuido ofrecer simultáneamente las siguientes tres garantías”:
• Consistencia (Consistency) – Todos los nodos ven los mismos datos al mismo
tiempo.
• Disponibilidad (Availability) – Garantiza que cada petición reciba una
respuesta acerca de si tuvo éxito o no. El fallo de uno o más nodos no impide
a los demás seguir funcionando.
• Tolerancia a la partición (Partition Tolerance) – El sistema continua
funcionando a pesar de pérdidas en los mensajes. (Las particiones son por lo
general de forma geográfica)
Un sistema puede tener no más de dos de estas tres características
simultáneamente.
Características comunes de las DB NOSQL
• Consistencia eventual
• Estructura distribuida
• Escalabilidad horizontal
• Tolerancia a fallos y redundancia
RDBMS vs DB NOSQL
RDBMS
ACID
DB NOSQL
BASE
RDBMS vs NOSQL
ACID
Atomicity
Consistency
Isolation
Durability
BASE
Basically
Available
Soft-state
Eventual
Consistency
RDBMS vs NOSQL
ACID
Atomicidad
Consistencia
Aislamiento
Durabilidad
BASE
Básicamente
Disponible
Flexible
Consistencia
Eventual
Clasificación de las DB NOSQL
• Document Databases
• Graph Databases
• Key Value Data Stores
• Columnar Databases
Key Value Data Stores
• Su precursor fue Amazon Dynamo
• Basadas en DHT (Distributed Hash Tables)
• Modelo de datos: colección de pares clave/valor
Distributed Hash Table (DHT)
• Un distributed hash table (DHT) es una clase de sistema distribuido
que permite un servicio de lookup similar a un Hash Table
• Almacenan pares clave valor
• Cada nodo puede obtener eficientemente el valor asociado a una clave
• La responsabilidad de mantener los mapeos entre claves y valores está
distribuida entre los nodos
• Escalan a grandes números de nodos y gestionan la llegada continua de
nodos, salidas y fallos
Key Value Data Stores
• Riak (http://basho.com/riak/)
• Redis (http://redis.io/)
• Dynamo (http://aws.amazon.com/dynamodb/)
• Oracle NoSQL Database
(http://www.oracle.com/us/products/database/nosql/overview/index.html)
• Voldemort (http://www.project-voldemort.com/voldemort/)
• Aerospike (http://www.aerospike.com/)
• Berkeley DB (http://www.oracle.com/technology/products/berkeley-db)
• MemcacheDB (http://memcachedb.org/)
• memcached (http://memcached.org/)
• FoundationDB (https://foundationdb.com/)
Key Value Data Stores
• Su precursor es Google BigTable
• Modelo de datos: familia de columnas, esto es un modelo tabular
donde cada fila puede tener una configuración diferente de
columnas
• Buenas en:
• Gestión de tamaño
• Cargas de escrituras masivas orientadas al stream
• Alta disponibilidad
• MapReduce
Columnar Databases
Columnar Databases
• Cassandra (http://cassandra.apache.org/)
• Hbase (http://hbase.apache.org/)
• Amazon SimpleDB (http://aws.amazon.com/simpledb/)
• Apache Accumulo (http://accumulo.apache.org/)
• Hypertable (http://hypertable.org/)
• Azure Tables (http://www.windowsazure.com/en-
us/develop/net/how-to-guides/table-services/)
Columnar Databases
• La precursora fue Lotus Notes
• Modelo de datos: colecciones de documentos que
contienen colecciones de claves-valor
• Buenas en:
• Modelado de datos natural
• Amigables al programador
• Desarrollo rápido
• Orientas a la web: CRUD
Document Databases
• Una base de datos orientada a documentos es un programa
diseñado para almacenar, recuperar y gestionar información semi-
estructurada orientada a documentos:
• Un documento encapsula información en un formato estándar (XML, YAML,
JSON o BSON):
• Los documentos en una BBDD orientada a documentos son similares a
registros pero no requieren un esquema estándar con la mismas
secciones, huecos, partes, claves y similar
• Los documentos suelen ser direccionables por una clave que los
representa unívocamente
• Además de la búsqueda por clave de documento, estas BBDD suelen
ofrecer una API o lenguaje de consultas que permite recuperar
documentos en base a sus contenidos
Document Databases
Document Databases
• MongoDB (http://www.mongodb.org/)
• CouchDB (http://couchdb.apache.org/)
• Couchbase (http://www.couchbase.com/couchbase-open-source-
project)
• RavenDB (http://ravendb.net/)
• MarkLogic (http://www.marklogic.com/what-is-
marklogic/enterprise-nosql/)
Document Databases
• Inspiradas por Euler y la teoría de grafos
• Modelo de datos: nodos, relaciones con pares clave valor en ambos
Graph Databases
Graph Databases
• Neo4j (http://www.neo4j.org/)
• InfiniteGraph (http://www.objectivity.com/infinitegraph)
• AllegroGraph (http://www.franz.com/agraph/allegrograph/)
• HyperGraphDB (http://www.hypergraphdb.org/)
• OrientDB (http://www.orientdb.org/)
Graph Databases
DB-Engines
DB-Engines is an initiative to collect and present information on database management systems
(DBMS).
SQL vs NOSQL
Inteligencia de Negocios
OLTP vs OLAP
OLAP
Multidimensional Relacional Híbrido
• Toma de decisiones
• Reportes analíticos
• Alertas
• Análisis de Productos
• Análisis de Clientes
• Análisis de Facturación
• Análisis de la Producción
• Análisis de Servicios al cliente
• Evolución del Costo del producto
Definición de Almacén de Datos
“Un Data Warehouse es una colección de datos
orientados a temas, integrados, no volátiles y
variante en el tiempo, organizados para soportar
necesidades empresariales”.
W. H. Inmon, 2005
Concebir un Almacén de Datos
Niveles de la Arquitectura
de un Almacén de Datos:
• Operacional
• Datos del almacén
• Departamental
• Individual
Diseño de un Almacén
de Datos:
• Granularidad
• Particionamiento
• Desnormalización
Diseño Conceptual de
un Almacén de Datos:
• Hecho
• Dimensiones
• Medidas
• Cubo
Diseño lógico de un Almacén de
Datos:
• ETL
• Modelos Básicos Dimensionales
Diseño físico de un
Almacén de Datos:
• MOLAP
• ROLAP
• HOLAP
Desarrollo
NO
SQLX
Ecosistema HADOOP
Apache Hive Apache Pig Apache HBase
Sqoop
Oozie
Hue
Flume Apache Whirr
Apache Zookeeper
Repositorio de
metadatos y lenguaje
SQL-like
Idioma de alto nivel
para expresar
programas de análisis
de datos
La base de datos de
Hadoop.Acceso
aleatorio,
lectura/escritura en
tiempo real
Servicio de
coordinación
distribuida altamente
confiable
Biblioteca para correr
Hadoop en la nube
Servicio distribuido
para la recogida y
agregación de datos
de registro y eventos
Interfaz de escritorio
basada en navegador
para interactuar con
Hadoop
Motor de workflow
basado en servidor
para actividades de
Hadoop
Integración de
Hadoop con RDBMS
Ecosistema HADOOP
Ecosistema HADOOP
Ecosistema HADOOP
Ecosistema HADOOP
Componentes básicos de HADOOP
• Hadoop Distributed File System (HDFS)
• Almacenamiento masivo redundante
alrededor de un cúmulo de materia.
• MapReduce
• Map: distribuir un problema
computacional a través de un clúster.
• Reduce: Nodo maestro recoge las
respuestas a todos los problemas
secundarios y los combina.
Diseño de un esquema HBASE
VS
Implementación de Almacenes de Datos
usando Gestores de Bases de Datos NOSQL
Ing. Roanny lamas López
@RoannyLL
Facebook.com/RoannyLL
27 de febrero de 2015

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Base de datos
Base de datosBase de datos
Base de datos
 
Principales bases de datos
Principales bases de datosPrincipales bases de datos
Principales bases de datos
 
04 presentacion acosta_claudio
04 presentacion acosta_claudio04 presentacion acosta_claudio
04 presentacion acosta_claudio
 
Act1.7 nosql terminado corregido
Act1.7 nosql terminado corregidoAct1.7 nosql terminado corregido
Act1.7 nosql terminado corregido
 
Base de datos
Base de datos Base de datos
Base de datos
 
Sistemas gestores de bases de datos.
Sistemas gestores de bases de datos.Sistemas gestores de bases de datos.
Sistemas gestores de bases de datos.
 
Principales bases de datos
Principales bases de datosPrincipales bases de datos
Principales bases de datos
 
Act4 bd teo
Act4 bd teoAct4 bd teo
Act4 bd teo
 
NoSQL bases de datos no relacionales
NoSQL bases de datos no relacionalesNoSQL bases de datos no relacionales
NoSQL bases de datos no relacionales
 
Ventajas vs Desventajas se SGBD
Ventajas vs Desventajas se SGBDVentajas vs Desventajas se SGBD
Ventajas vs Desventajas se SGBD
 
Gestión de datos e información 2 santamaria sosa luis
Gestión de datos e información 2   santamaria sosa luisGestión de datos e información 2   santamaria sosa luis
Gestión de datos e información 2 santamaria sosa luis
 
Ventajas y desventajas de bases de datos
Ventajas y desventajas de bases de datosVentajas y desventajas de bases de datos
Ventajas y desventajas de bases de datos
 
Apache cassandra
Apache cassandraApache cassandra
Apache cassandra
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Mongodb vs couchdb
Mongodb vs couchdb Mongodb vs couchdb
Mongodb vs couchdb
 
Presentacion
PresentacionPresentacion
Presentacion
 
Presentación sgbd
Presentación sgbdPresentación sgbd
Presentación sgbd
 
Sistemas gestores de bases de datos
Sistemas gestores de bases de datosSistemas gestores de bases de datos
Sistemas gestores de bases de datos
 
NoSQL: Un Cambio de Paradigma - Apache Cassandra
NoSQL: Un Cambio de Paradigma - Apache CassandraNoSQL: Un Cambio de Paradigma - Apache Cassandra
NoSQL: Un Cambio de Paradigma - Apache Cassandra
 
Act4 basesdedatos oscar_varona
Act4 basesdedatos oscar_varonaAct4 basesdedatos oscar_varona
Act4 basesdedatos oscar_varona
 

Similar a Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL

Las principales bases de datos existentes
Las principales bases de datos existentesLas principales bases de datos existentes
Las principales bases de datos existentesrulascch
 
Introducción mongodb y desarrollo
Introducción mongodb y desarrolloIntroducción mongodb y desarrollo
Introducción mongodb y desarrolloJuan Ladetto
 
Apache Cassandra
Apache CassandraApache Cassandra
Apache CassandraLuis Ojeda
 
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdfUnidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdfDanielMarquez902683
 
Actividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltcActividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltcjhoselt
 

Similar a Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL (20)

Bases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4j
Bases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4jBases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4j
Bases de Datos No Relacionales (NoSQL): Cassandra, CouchDB, MongoDB y Neo4j
 
Las principales bases de datos existentes
Las principales bases de datos existentesLas principales bases de datos existentes
Las principales bases de datos existentes
 
Base de datos
Base de datosBase de datos
Base de datos
 
Introducción mongodb y desarrollo
Introducción mongodb y desarrolloIntroducción mongodb y desarrollo
Introducción mongodb y desarrollo
 
Desayuno de arquitectos: Big data en azure
Desayuno de arquitectos: Big data en azureDesayuno de arquitectos: Big data en azure
Desayuno de arquitectos: Big data en azure
 
MongoDB: la BBDD NoSQL más popular del mercado
MongoDB: la BBDD NoSQL más popular del mercadoMongoDB: la BBDD NoSQL más popular del mercado
MongoDB: la BBDD NoSQL más popular del mercado
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Principales bases de datos
Principales bases de datosPrincipales bases de datos
Principales bases de datos
 
Principales bases de datos
Principales bases de datosPrincipales bases de datos
Principales bases de datos
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Servicios de Bases de Datos de AWS
Servicios de Bases de Datos de AWSServicios de Bases de Datos de AWS
Servicios de Bases de Datos de AWS
 
proyecto base de datos 5ºA
proyecto base de datos  5ºAproyecto base de datos  5ºA
proyecto base de datos 5ºA
 
Apache Cassandra
Apache CassandraApache Cassandra
Apache Cassandra
 
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdfUnidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
 
bases de datos
bases de datosbases de datos
bases de datos
 
Gestores de base de datos
Gestores de base de datosGestores de base de datos
Gestores de base de datos
 
Principales base de datos existentes
Principales base de datos existentesPrincipales base de datos existentes
Principales base de datos existentes
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Actividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltcActividad de aprendizaje 4 screencast y bases de datos.jltc
Actividad de aprendizaje 4 screencast y bases de datos.jltc
 
Apache cassandra
Apache cassandraApache cassandra
Apache cassandra
 

Más de Roanny Lamas

Introducción al modelado de problemas de Programación Lineal
Introducción al modelado de problemas de Programación LinealIntroducción al modelado de problemas de Programación Lineal
Introducción al modelado de problemas de Programación LinealRoanny Lamas
 
Introducción al modelado de problemas de Programación Lineal.
Introducción al modelado de problemas de Programación Lineal.Introducción al modelado de problemas de Programación Lineal.
Introducción al modelado de problemas de Programación Lineal.Roanny Lamas
 
Mercado de Datos para la toma de decisiones en el proceso de enseñanza aprend...
Mercado de Datos para la toma de decisiones en el proceso de enseñanza aprend...Mercado de Datos para la toma de decisiones en el proceso de enseñanza aprend...
Mercado de Datos para la toma de decisiones en el proceso de enseñanza aprend...Roanny Lamas
 
Fundamentos teóricos de los almacenes de datos. Metodologías y herramientas p...
Fundamentos teóricos de los almacenes de datos. Metodologías y herramientas p...Fundamentos teóricos de los almacenes de datos. Metodologías y herramientas p...
Fundamentos teóricos de los almacenes de datos. Metodologías y herramientas p...Roanny Lamas
 
Sistema para la planificación y control del entrenamiento en deportes de com...
Sistema para la planificación y control del  entrenamiento en deportes de com...Sistema para la planificación y control del  entrenamiento en deportes de com...
Sistema para la planificación y control del entrenamiento en deportes de com...Roanny Lamas
 

Más de Roanny Lamas (6)

Introducción al modelado de problemas de Programación Lineal
Introducción al modelado de problemas de Programación LinealIntroducción al modelado de problemas de Programación Lineal
Introducción al modelado de problemas de Programación Lineal
 
Introducción al modelado de problemas de Programación Lineal.
Introducción al modelado de problemas de Programación Lineal.Introducción al modelado de problemas de Programación Lineal.
Introducción al modelado de problemas de Programación Lineal.
 
Mercado de Datos para la toma de decisiones en el proceso de enseñanza aprend...
Mercado de Datos para la toma de decisiones en el proceso de enseñanza aprend...Mercado de Datos para la toma de decisiones en el proceso de enseñanza aprend...
Mercado de Datos para la toma de decisiones en el proceso de enseñanza aprend...
 
Mi conferencia
Mi conferenciaMi conferencia
Mi conferencia
 
Fundamentos teóricos de los almacenes de datos. Metodologías y herramientas p...
Fundamentos teóricos de los almacenes de datos. Metodologías y herramientas p...Fundamentos teóricos de los almacenes de datos. Metodologías y herramientas p...
Fundamentos teóricos de los almacenes de datos. Metodologías y herramientas p...
 
Sistema para la planificación y control del entrenamiento en deportes de com...
Sistema para la planificación y control del  entrenamiento en deportes de com...Sistema para la planificación y control del  entrenamiento en deportes de com...
Sistema para la planificación y control del entrenamiento en deportes de com...
 

Último

PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀LALVAREZD
 
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdfantonio206446
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxlm8322074
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024OBSERVATORIOREGIONAL
 
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTOMETODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTOJoselynGoeTmara
 
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...andreadiaz555157
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024IrapuatoCmovamos
 
El Manierismo. El Manierismo
El Manierismo.              El ManierismoEl Manierismo.              El Manierismo
El Manierismo. El Manierismofariannys5
 
Las familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfLas familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfJC Díaz Herrera
 
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
Unidad 6 estadística 2011  TABLA DE FRECUENCIAUnidad 6 estadística 2011  TABLA DE FRECUENCIA
Unidad 6 estadística 2011 TABLA DE FRECUENCIAEduardo Ferreira
 
Asignatura-Optativa-Sociologia-CS-3BGU.pdf
Asignatura-Optativa-Sociologia-CS-3BGU.pdfAsignatura-Optativa-Sociologia-CS-3BGU.pdf
Asignatura-Optativa-Sociologia-CS-3BGU.pdfEdhyLeons
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfJC Díaz Herrera
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxMarioKing10
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...JC Díaz Herrera
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1alfredo130306
 
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docx
4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docxquispeloco65
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoRaúl Figueroa
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeklebersky23
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...claudioluna1121
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxfatimacamilainjantem
 

Último (20)

PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
 
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
5558423-peru-evolucion-de-la-pobreza-monetaria-2014-2023(2).pdf
 
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docxAMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
AMNIOS Y CORDON UMBILICAL en el 3 embarazo (1).docx
 
Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024Reporte de incidencia delictiva Silao marzo 2024
Reporte de incidencia delictiva Silao marzo 2024
 
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTOMETODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
METODOLOGÍA 5S - PRESENTACION DE INICIO DEL PROYECTO
 
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
514238811-INSTRUMENTO-DE-EVALUACION-con-Indicadores-de-logros-SOCIOEMOCIONALE...
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
El Manierismo. El Manierismo
El Manierismo.              El ManierismoEl Manierismo.              El Manierismo
El Manierismo. El Manierismo
 
Las familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfLas familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdf
 
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
Unidad 6 estadística 2011  TABLA DE FRECUENCIAUnidad 6 estadística 2011  TABLA DE FRECUENCIA
Unidad 6 estadística 2011 TABLA DE FRECUENCIA
 
Asignatura-Optativa-Sociologia-CS-3BGU.pdf
Asignatura-Optativa-Sociologia-CS-3BGU.pdfAsignatura-Optativa-Sociologia-CS-3BGU.pdf
Asignatura-Optativa-Sociologia-CS-3BGU.pdf
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptx
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docx
4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx4°  UNIDAD DE APRENDIZAJE 2 MAYO  2024.docx
4° UNIDAD DE APRENDIZAJE 2 MAYO 2024.docx
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
Anclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclajeAnclaje Grupo 5..pptx de todo tipo de anclaje
Anclaje Grupo 5..pptx de todo tipo de anclaje
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 

Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL

  • 1. Implementación de Almacenes de Datos usando Gestores de Bases de Datos NOSQL Ing. Roanny lamas López @RoannyLL Facebook.com/RoannyLL 27 de febrero de 2015
  • 3. Las RDBMS han sido la primera opción, pero, ... los problemas nos alcanzaron
  • 4. Amazon necesitaba disponibilidad total y tolerancia a fallas
  • 5. Google necesitaba almacenar petabytes en un sistema distribuido entre miles de servidores
  • 6. Facebook necesitaba disponibilidad, y desempeño sin límite de nodos
  • 7. Y ellas querían libertad para irse a ganar su dinero El viejo sistema limitaba a estas empresas
  • 8. “El problema fundamental es endémico a la mentalidad de una base de datos relacional, que pone la carga de cómputo en la lectura más que en la escritura. Esto es del todo equivocado para una aplicación web de gran escala, en que el tiempo de respuesta es crítico.” Ian Eure, Digg
  • 9. Introducción a NOSQL NO SQLNo significa lo que estás pensando X
  • 12. Introducción a NOSQL • NoSQL – es un término utilizado para describir un subconjunto de bases de datos que difieren en varios aspectos de las bases de datos tradicionales (RDBMS). • No tienen schemas, no permiten JOINs, no intentan garantizar ACID y escalan horizontalmente. • El término fue acuñado en 1998 por Carlo Strozzi y resucitado en 2009 por Eric Evans. • El propio Evans sugiere mejor referirse a esta familia de BBDD de nueva generación como “Big Data”. • Al igual que las bases de datos relacionales son tipos de Almacenamiento Estructurado.
  • 13. Introducción a NOSQL • La principal diferencia radica en cómo guardan los datos (por ejemplo, almacenamiento de un recibo): • En un RDBMS tendríamos que distribuir la información en una o varias tablas. • En NoSQL, simplemente guardas el recibo: • NoSQL es libre de schemas, tú no diseñas tus tablas y su estructura por adelantado. • ¡¡¡NoSQL no es la solución!!! • Si tus datos son relacionales, quedarte con tu RDBMS sería la opción correcta.
  • 18. Son empresas que trabajan con aplicaciones web a gran escala http://kwolek.org/andrew.htm
  • 19. El teorema CAP • Teorema de Brewer: “es imposible para un sistema computacional distribuido ofrecer simultáneamente las siguientes tres garantías”: • Consistencia (Consistency) – Todos los nodos ven los mismos datos al mismo tiempo. • Disponibilidad (Availability) – Garantiza que cada petición reciba una respuesta acerca de si tuvo éxito o no. El fallo de uno o más nodos no impide a los demás seguir funcionando. • Tolerancia a la partición (Partition Tolerance) – El sistema continua funcionando a pesar de pérdidas en los mensajes. (Las particiones son por lo general de forma geográfica) Un sistema puede tener no más de dos de estas tres características simultáneamente.
  • 20.
  • 21. Características comunes de las DB NOSQL • Consistencia eventual • Estructura distribuida • Escalabilidad horizontal • Tolerancia a fallos y redundancia
  • 22. RDBMS vs DB NOSQL RDBMS ACID DB NOSQL BASE
  • 25. Clasificación de las DB NOSQL • Document Databases • Graph Databases • Key Value Data Stores • Columnar Databases
  • 26. Key Value Data Stores • Su precursor fue Amazon Dynamo • Basadas en DHT (Distributed Hash Tables) • Modelo de datos: colección de pares clave/valor
  • 27. Distributed Hash Table (DHT) • Un distributed hash table (DHT) es una clase de sistema distribuido que permite un servicio de lookup similar a un Hash Table • Almacenan pares clave valor • Cada nodo puede obtener eficientemente el valor asociado a una clave • La responsabilidad de mantener los mapeos entre claves y valores está distribuida entre los nodos • Escalan a grandes números de nodos y gestionan la llegada continua de nodos, salidas y fallos
  • 28. Key Value Data Stores • Riak (http://basho.com/riak/) • Redis (http://redis.io/) • Dynamo (http://aws.amazon.com/dynamodb/) • Oracle NoSQL Database (http://www.oracle.com/us/products/database/nosql/overview/index.html) • Voldemort (http://www.project-voldemort.com/voldemort/) • Aerospike (http://www.aerospike.com/) • Berkeley DB (http://www.oracle.com/technology/products/berkeley-db) • MemcacheDB (http://memcachedb.org/) • memcached (http://memcached.org/) • FoundationDB (https://foundationdb.com/)
  • 29. Key Value Data Stores
  • 30. • Su precursor es Google BigTable • Modelo de datos: familia de columnas, esto es un modelo tabular donde cada fila puede tener una configuración diferente de columnas • Buenas en: • Gestión de tamaño • Cargas de escrituras masivas orientadas al stream • Alta disponibilidad • MapReduce Columnar Databases
  • 31. Columnar Databases • Cassandra (http://cassandra.apache.org/) • Hbase (http://hbase.apache.org/) • Amazon SimpleDB (http://aws.amazon.com/simpledb/) • Apache Accumulo (http://accumulo.apache.org/) • Hypertable (http://hypertable.org/) • Azure Tables (http://www.windowsazure.com/en- us/develop/net/how-to-guides/table-services/)
  • 33. • La precursora fue Lotus Notes • Modelo de datos: colecciones de documentos que contienen colecciones de claves-valor • Buenas en: • Modelado de datos natural • Amigables al programador • Desarrollo rápido • Orientas a la web: CRUD Document Databases
  • 34. • Una base de datos orientada a documentos es un programa diseñado para almacenar, recuperar y gestionar información semi- estructurada orientada a documentos: • Un documento encapsula información en un formato estándar (XML, YAML, JSON o BSON): • Los documentos en una BBDD orientada a documentos son similares a registros pero no requieren un esquema estándar con la mismas secciones, huecos, partes, claves y similar • Los documentos suelen ser direccionables por una clave que los representa unívocamente • Además de la búsqueda por clave de documento, estas BBDD suelen ofrecer una API o lenguaje de consultas que permite recuperar documentos en base a sus contenidos Document Databases
  • 35. Document Databases • MongoDB (http://www.mongodb.org/) • CouchDB (http://couchdb.apache.org/) • Couchbase (http://www.couchbase.com/couchbase-open-source- project) • RavenDB (http://ravendb.net/) • MarkLogic (http://www.marklogic.com/what-is- marklogic/enterprise-nosql/)
  • 37. • Inspiradas por Euler y la teoría de grafos • Modelo de datos: nodos, relaciones con pares clave valor en ambos Graph Databases
  • 38. Graph Databases • Neo4j (http://www.neo4j.org/) • InfiniteGraph (http://www.objectivity.com/infinitegraph) • AllegroGraph (http://www.franz.com/agraph/allegrograph/) • HyperGraphDB (http://www.hypergraphdb.org/) • OrientDB (http://www.orientdb.org/)
  • 40. DB-Engines DB-Engines is an initiative to collect and present information on database management systems (DBMS).
  • 41.
  • 45. OLAP Multidimensional Relacional Híbrido • Toma de decisiones • Reportes analíticos • Alertas • Análisis de Productos • Análisis de Clientes • Análisis de Facturación • Análisis de la Producción • Análisis de Servicios al cliente • Evolución del Costo del producto
  • 46. Definición de Almacén de Datos “Un Data Warehouse es una colección de datos orientados a temas, integrados, no volátiles y variante en el tiempo, organizados para soportar necesidades empresariales”. W. H. Inmon, 2005
  • 47. Concebir un Almacén de Datos Niveles de la Arquitectura de un Almacén de Datos: • Operacional • Datos del almacén • Departamental • Individual Diseño de un Almacén de Datos: • Granularidad • Particionamiento • Desnormalización Diseño Conceptual de un Almacén de Datos: • Hecho • Dimensiones • Medidas • Cubo Diseño lógico de un Almacén de Datos: • ETL • Modelos Básicos Dimensionales Diseño físico de un Almacén de Datos: • MOLAP • ROLAP • HOLAP
  • 49.
  • 51. Apache Hive Apache Pig Apache HBase Sqoop Oozie Hue Flume Apache Whirr Apache Zookeeper Repositorio de metadatos y lenguaje SQL-like Idioma de alto nivel para expresar programas de análisis de datos La base de datos de Hadoop.Acceso aleatorio, lectura/escritura en tiempo real Servicio de coordinación distribuida altamente confiable Biblioteca para correr Hadoop en la nube Servicio distribuido para la recogida y agregación de datos de registro y eventos Interfaz de escritorio basada en navegador para interactuar con Hadoop Motor de workflow basado en servidor para actividades de Hadoop Integración de Hadoop con RDBMS Ecosistema HADOOP
  • 55. Componentes básicos de HADOOP • Hadoop Distributed File System (HDFS) • Almacenamiento masivo redundante alrededor de un cúmulo de materia. • MapReduce • Map: distribuir un problema computacional a través de un clúster. • Reduce: Nodo maestro recoge las respuestas a todos los problemas secundarios y los combina.
  • 56. Diseño de un esquema HBASE VS
  • 57. Implementación de Almacenes de Datos usando Gestores de Bases de Datos NOSQL Ing. Roanny lamas López @RoannyLL Facebook.com/RoannyLL 27 de febrero de 2015