SlideShare una empresa de Scribd logo
Petabytes de información:
         Repensando el 
         modelamiento 
        de base de datos

                   Ernesto Quiñones Azcárate
                         ernestoq@apesol.org
                 Presidencia Apesol 2006­2008



            
Modelos de  bases de datos para todos los gustos (según la organización de los 
    datos) :




       Jerárquicas                                  Relacionales




                                             Orientadas al objeto
         Multidimensional

                                               
A donde camina la información:

    ● Existen al menos 50 dbms “famosos” entre libres y privativos y 
      un número al menos 4 ó 5 veces superior entre los de uso 
      académico/experimental etc.
    ● En 2006 existían 161 Exabytes de información  (1 Exabyte = 1000 


      Petas), Actualmente (2008) debe existir 330­340 Exabytes.
    ● En 2011 debemos tener cerca de 1,800 Exabytes de información.

    ● En 2007 la cantidad de información generada supero a la 


      capacidad instalada mundial de contenerla, actualmente se 
      calcula un déficit de 60 a 70 Exabytes de infraestructura.
    ● Existen 1,000 millones de dispositivos de capturas de imágenes

    ● El 95% de la data del mundo no tiene                                   


      estructura.
    ● 65k filmaciones nuevas en Youtube por día.

    ● 60 millones de emails diarios.

    ● Google puede indexar 20 Petabytes en un solo día.



                                         
●   La data esta cambiando

●   La información sigue creciendo nadie va a parar eso, es 
                      mas va a ser peor

●   Actualmente el % de usuarios que provee información a 
          la red es mucho menor de los que lo usan.

          ●Cada vez es mas difícil catalogar la información

    ●   Cada vez será mas difícil encontrar la información que 
                            uno quiere

               ..... y como administramos tanta data?

                                      
El 22 de Mayo Yahoo dio esta noticia : 

●   Yahoo anuncia tener la base de datos mas grande del mundo (2 
    Peta bytes) en funcionamiento.

●   La base de datos de 1 año de antigüedad esta procesando 24,000 
    millones de eventos diarios.

●   El administrador de la data es un PostgreSQL (
    http://www.postgresql.org) modificado especialmente para ellos.

●   La tecnología usada es la “base de datos basada en columnas” 
    donde no existen “registros”, esto hace que la grabación de datos 
    sea lenta pero la lectura es muy rápida.

Noticia original:
http://tinyurl.com/68avgt
                                      
Que es una base de datos basa en columnas
     Convencionalmente guardamos la data así :



                                    Ahora la data la guardamos así :




      Otra representación :
                                          Dudas:
                                          ● ¿Porque hacer esto?
                                          ● ¿Donde queda la normalización?

                                          ● ¿Existen “engines” para este tipo de base 


                                            de datos?




                                            
La ventaja de una base de datos basada en columnas.
    El principal motivo es el tiempo de acceso al disco, la velocidad del disco suele 
    ser el cuello de botella en los sistemas de almacenamiento ya que es 
    notablemente mas lento que el poder de procesamiento.




                                                 
La ventaja de una base de datos basada en columnas.
    Tradicionalmente las bases de datos hacen esto para guardar la data

                                                   No       No       Esto es rápido para 
      Páginas      8k        8k        8k                            operaciones de 
                                                  usada    usada
                                                                     escritura pero no de 
                            No                              No       lectura.
        8k         8k                  8k          8k
                           usada                           usada




                                        Cada página tiene una 
                                        estructura de este tipo 
                                        (generalmente)




                                               
La ventaja de una base de datos basada en columnas.
     Este es un ejemplo aproximado 
     de data masiva




Esta data se organizará bajo este esquema lógico




                                             
La ventaja de una base de datos basada en columnas.
    Esta es la representación de la organización física de la data


                                             El engine de la db tomará la data y la guardará 
                                             en archivos llamados CellStores subdivididos en 
                                             bloques de data comprimida de 64k (podría 
                                             variar) en su propio sistema de archivos por 
                                             sobre el que tiene el sistema operativo.

                                             Por ejemplo:
                                             Juan, Pedro, Lucho, Lima, Lima, Callao, 25,25,25
                                             Sería convertida a :
                                             Juan, Pedro, Lucho, Lima x 2, Callao, 25 x 3

                                             Mientras en los dbms convencionales la data se 
                                             guarda en varias secciones/espacios del disco, 
                                             en las c­dbms se guarda junta y continua en el 
                                             mismo CellStore.



                                                 
La ventaja de una base de datos basada en columnas.

    Los Querys:




     Este es un ejemplo de como funciona 
     Bigtable de Google
                                             
¿El fin de los RDBMS?
    ●   El problema del modelo relacional es que suele ser un consumidor alto 
        de recursos al momento de ejecutar transacciones, especialmente 
        cuando uno tiene data masiva.
                                                 Imagines que deseamos borrar 
                                                 registros en “Cuotas” y el engine 
                                                 debe verificar que no se hagan 
                                                 modificaciones que rompan la 
                                                 relación con “Pagos”.

                                                 1,000 registros
                                                 100,000 
                                                 10,000,000 
                                                 1,000,000,000
                                                 100,000,000,000
                                                 1,000,000,000,000




                                           
¿El fin de los RDBMS?
    ●   El problema del modelo relacional es que suele ser un consumidor alto 
        de recursos al momento de ejecutar transacciones, especialmente 
        cuando uno tiene data masiva.
                                               Cada delete debe ejecutar un select 
                                               en la tabla “Pagos”, ¿cuanto demora?
                                               1,000 ­­­> 1s
                                               100,000  ­­> 1m40s
                                               10,000,000  ­­> 2.77h
                                               1,000,000,000 ­­> 11.57d
                                               100,000,000,000 ­­> 3.17a
                                               1,000,000,000,000 ­­> 317a (y algunos 
                                               días mas :D

                                               Recordemos Yahoo hace 
                                               24,000,000,000 de transacciones por 
                                               día, en 41.6 días genera 1 billón de 
                                               registros (como mínimo).


                                           
¿El fin de los RDBMS?
    ● Los sistemas Relacionales tienes mas de 25 años de existencia.
    ● Básicamente fueron pensada con una orientación de guardar data de 


      negocios.
    ● Cuando empezó a explotarse la data masiva (hace poco mas de una 


      década) el sistema relacional demostró tener problemas, se tuvo que 
      mejorar/modificar para atender esta nueva necesidad.
    ● La data a pasado a ser no­precisa, imposible de “normalizar”.

    ● Los joins son lentos cuanto tienes cantidades de data monstruosa.

    ● Los procesos de ABC se vuelven muy costosos cuando hay muchas 


      relaciones entre las tablas.




    Sin embargo el fin de los RDBMS fue predicho antes; OODBMS, XML, 
    etc., esta todavía lejos de ser considerada “tecnología legacy”.


                                        
ENGINES

    BigTable (privativo – Google)

    ● Desarrollo y uso exclusivo de Google.
    ● Tiene 2 componentes esenciales: (1) Google File System (GFS) el cual 


      asegura disponibilidad de los datos por medio de copias redundantes, 
      mientras mas sea consultado un dato mas veces de duplicado 
      asignándosele mas recursos. (2) Chubby Lock Service, el cual es un 
      componente que permite la sincronización de accesos a recursos 
      compartidos.
    ● Las tablas se subdividen en tablets con filas que llegan a medir hasta 


      200mb.
    ● A estas filas se les aplica ademas un algoritmo de compresión secreto 


      para optimizar aún mas el espacio.
    ● A enero 2008 existían 600 clusters, el mas grande con 2000 servers, el 


      store mas grande es de 700Tbytes y atiende 100k operaciones por 
      segundo.
    ● Se utiliza un lenguaje llamado  Sawzall.


                                         
ENGINES

    BigTable (privativo – Google)




                                     
ENGINES

    Hypertable http://hypertable.org/ 

    ● Proyecto libre que aplica “buenas practicas” en la administración de db 
      de gran cantidad de datos y alto volumen de trabajo.
    ● La data es guardada como cadenas de bytes, las tablas que lo 


      almacenan son cortadas en secciones continuas y divididas en 
      diversos servidores, estos son conocidos como Range Servers, 
      adicionalmente existen Master Servers que se encargan de tareas 
      administrativas y supervisar los Range Servers (ambos servicios 
      pueden correr en una misma pc).
    ● Se utiliza un lenguaje llamado Hypertable Query Language (HQL)

    ● Puede usar diferentes sistemas de archivos, pero se recomienda 


      Hadoop Distributed File System (HDFS) http://hadoop.apache.org/




                                          
ENGINES

      Hypertable http://hypertable.org/ 

Coordinador de 
concurrencia
(lock manager)




Administra 
data en 
memoria




Cache de 
transacciones


                         Aquí se encuentran 
   
                         las celdas de datos    
ENGINES

      Hypertable http://hypertable.org/ 

Servicio que da 
la cara al cliente, 
coordina las ABC 
en los Datanodes




                                               Guarda la 
                                               data


La misma data
se guarda en diferentes 
Datanodes



                                            
ENGINES

    LucidDB http://luciddb.sourceforge.net/ 

    ● Esta basada en EigenBase http://www.eigenbase.org/ un software base 
      que permite crear sistemas administradores de datos.
    ● LucidDB esta pensada con el propósito de hacer data warehousing y 


      business intelligence.
    ● Esta pensada para ser básicamente solo read­only, las actualizaciones 


      crean nuevas páginas que reemplazan a las existentes y se guardan 
      versiones de estas.
    ● Las páginas miden 32K, se maneja un buffer de 5,000 páginas con la 


      información mas leida.
    ● Se usa una técnica de indexación conocida como “bitmap”, indices y 


      data son comprimidos y se utiliza la técnica del “semijoin” para 
      determinar la data que es únicamente necesaria acceder por los 
      querys.
    ● LucidDB puede acceder directamente a repositorios externos via 


      SQLMED
                                         
Se uso Java pensando
    ENGINES                                    en la expansión del 
                                               producto.
    LucidDB http://luciddb.sourceforge.net/ 


                                                                 Acceso a 
                                                                 repositorio
                                                                 s de datos 
                                                                 externos




Engine principal de
LucidDB

                            Data
                                         
Para leer mas:

Toda la información con la cual se a documentado esta presentación es recopilada en este 
enlace :


http://tinyurl.com/6xfwvg 

Y mas información :


http://www.eqsoft.net/wiki/doku.php?id=start 



                                              
Muchas Gracias!!!

               Visite APESOL
           http://www.apesol.org

    Inscríbete en las listas de interés en
        http://apesol.org/listas.php

         Conversemos en vivo en
         server: irc.freenode.net
              sala:#apesol
                       

Más contenido relacionado

La actualidad más candente

taller de bd
taller de bdtaller de bd
taller de bd
guest912a886
 
BASE DE DATOS MICROSOFT SQL SERVER
BASE DE DATOS MICROSOFT SQL SERVERBASE DE DATOS MICROSOFT SQL SERVER
BASE DE DATOS MICROSOFT SQL SERVER
LISBETH ALEXANDRA VASQUEZ CIEZA
 
Sql o NoSql en Informática Médica
Sql o NoSql en Informática MédicaSql o NoSql en Informática Médica
Sql o NoSql en Informática Médica
Liz Armenteros
 
Base datos-romero
Base datos-romeroBase datos-romero
Glosario de base de datoss
Glosario de base de datossGlosario de base de datoss
Glosario de base de datoss
La China Bella
 
Base de datos
Base de datosBase de datos
Base de datos
Gilberto Perez
 
El disco duro y la gerencia
El disco duro y la gerenciaEl disco duro y la gerencia
El disco duro y la gerencia
leidys FERNANDEZ
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
BASES DE DATOS
BASES DE DATOSBASES DE DATOS
Introducción a NoSQL y MongoDB Webinar
Introducción a NoSQL y MongoDB WebinarIntroducción a NoSQL y MongoDB Webinar
Introducción a NoSQL y MongoDB Webinar
MongoDB
 
MongoDB: la BBDD NoSQL más popular del mercado
MongoDB: la BBDD NoSQL más popular del mercadoMongoDB: la BBDD NoSQL más popular del mercado
MongoDB: la BBDD NoSQL más popular del mercado
Diego López-de-Ipiña González-de-Artaza
 
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQLDesarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Roanny Lamas
 
Mongodb
MongodbMongodb
Mongodb
Jn F. Mendoza
 
Introducción mongodb y desarrollo
Introducción mongodb y desarrolloIntroducción mongodb y desarrollo
Introducción mongodb y desarrollo
Juan Ladetto
 
Bases de Datos Analiticas-Columnares
Bases de Datos Analiticas-ColumnaresBases de Datos Analiticas-Columnares
Bases de Datos Analiticas-Columnares
Stratebi
 
Presentacion BD NoSQL
Presentacion  BD NoSQLPresentacion  BD NoSQL
Presentacion BD NoSQL
Andrea Antunes
 
02 base de datos hernandez_luis
02 base de datos hernandez_luis02 base de datos hernandez_luis
02 base de datos hernandez_luis
luishernandez1576
 
Mongodb vs couchdb
Mongodb vs couchdb Mongodb vs couchdb
Mongodb vs couchdb
Anthony Sotolongo
 

La actualidad más candente (18)

taller de bd
taller de bdtaller de bd
taller de bd
 
BASE DE DATOS MICROSOFT SQL SERVER
BASE DE DATOS MICROSOFT SQL SERVERBASE DE DATOS MICROSOFT SQL SERVER
BASE DE DATOS MICROSOFT SQL SERVER
 
Sql o NoSql en Informática Médica
Sql o NoSql en Informática MédicaSql o NoSql en Informática Médica
Sql o NoSql en Informática Médica
 
Base datos-romero
Base datos-romeroBase datos-romero
Base datos-romero
 
Glosario de base de datoss
Glosario de base de datossGlosario de base de datoss
Glosario de base de datoss
 
Base de datos
Base de datosBase de datos
Base de datos
 
El disco duro y la gerencia
El disco duro y la gerenciaEl disco duro y la gerencia
El disco duro y la gerencia
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
BASES DE DATOS
BASES DE DATOSBASES DE DATOS
BASES DE DATOS
 
Introducción a NoSQL y MongoDB Webinar
Introducción a NoSQL y MongoDB WebinarIntroducción a NoSQL y MongoDB Webinar
Introducción a NoSQL y MongoDB Webinar
 
MongoDB: la BBDD NoSQL más popular del mercado
MongoDB: la BBDD NoSQL más popular del mercadoMongoDB: la BBDD NoSQL más popular del mercado
MongoDB: la BBDD NoSQL más popular del mercado
 
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQLDesarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
Desarrollo de Almacenes de Datos con Sistemas Gestores de Bases de Datos NOSQL
 
Mongodb
MongodbMongodb
Mongodb
 
Introducción mongodb y desarrollo
Introducción mongodb y desarrolloIntroducción mongodb y desarrollo
Introducción mongodb y desarrollo
 
Bases de Datos Analiticas-Columnares
Bases de Datos Analiticas-ColumnaresBases de Datos Analiticas-Columnares
Bases de Datos Analiticas-Columnares
 
Presentacion BD NoSQL
Presentacion  BD NoSQLPresentacion  BD NoSQL
Presentacion BD NoSQL
 
02 base de datos hernandez_luis
02 base de datos hernandez_luis02 base de datos hernandez_luis
02 base de datos hernandez_luis
 
Mongodb vs couchdb
Mongodb vs couchdb Mongodb vs couchdb
Mongodb vs couchdb
 

Destacado

Ciudades Inteligentes
Ciudades InteligentesCiudades Inteligentes
Ciudades Inteligentes
Universidad Cenfotec
 
10 4
10 410 4
Bigtable and Boxwood
Bigtable and BoxwoodBigtable and Boxwood
Bigtable and Boxwood
Evan Weaver
 
Presentación city camp santiago
Presentación city camp santiagoPresentación city camp santiago
Presentación city camp santiago
Marc Garriga
 
24a sessió web: Open Data. José Manuel Alonso
24a sessió web: Open Data. José Manuel Alonso24a sessió web: Open Data. José Manuel Alonso
24a sessió web: Open Data. José Manuel Alonso
Departament de Justícia. Generalitat de Catalunya.
 
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.
Fernando Tomás Casado
 
Ciudades inteligentes
Ciudades inteligentesCiudades inteligentes
Ciudades inteligentes
JOHN BLANCO
 
Big Data en Latinoamerica
Big Data en LatinoamericaBig Data en Latinoamerica
Big Data en Latinoamerica
Luis Barragan Scavino
 
Smart city y las zonas verdes
Smart city y las zonas verdesSmart city y las zonas verdes
Smart city y las zonas verdes
Riego Verde S.A. - RIVERSA
 
ciudades inteligentes
ciudades inteligentesciudades inteligentes
ciudades inteligentes
Alumnos Instituto Grilli
 
Presentación corporativa de Ingenia
Presentación corporativa de IngeniaPresentación corporativa de Ingenia
Presentación corporativa de Ingenia
Ingeniería e Integración Avanzadas (Ingenia)
 
Google - Bigtable
Google - BigtableGoogle - Bigtable
Google - Bigtable
영원 서
 
Empresas con BDOO
Empresas con BDOOEmpresas con BDOO
Empresas con BDOO
tec lerdo
 
¿Qué necesitan las ciudades para convertirse en inteligentes?
¿Qué necesitan las ciudades para convertirse en inteligentes?¿Qué necesitan las ciudades para convertirse en inteligentes?
¿Qué necesitan las ciudades para convertirse en inteligentes?
Fernando Tomás Casado
 
Open Data: ¿por qué? y ¿cómo?
Open Data: ¿por qué? y ¿cómo?Open Data: ¿por qué? y ¿cómo?
Open Data: ¿por qué? y ¿cómo?
Open Data @ CTIC
 
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...
Política y Redes Sociales
 
Soluciones para la convocatoria de ciudades inteligentes red.es 2015
Soluciones para la convocatoria de ciudades inteligentes red.es 2015Soluciones para la convocatoria de ciudades inteligentes red.es 2015
Soluciones para la convocatoria de ciudades inteligentes red.es 2015
Ingeniería e Integración Avanzadas (Ingenia)
 
Google Bigtable Paper Presentation
Google Bigtable Paper PresentationGoogle Bigtable Paper Presentation
Google Bigtable Paper Presentation
vanjakom
 
Ciudades inteligentes
Ciudades inteligentesCiudades inteligentes
Ciudades inteligentes
Charlyzhito
 
Big table
Big tableBig table
Big table
PSIT
 

Destacado (20)

Ciudades Inteligentes
Ciudades InteligentesCiudades Inteligentes
Ciudades Inteligentes
 
10 4
10 410 4
10 4
 
Bigtable and Boxwood
Bigtable and BoxwoodBigtable and Boxwood
Bigtable and Boxwood
 
Presentación city camp santiago
Presentación city camp santiagoPresentación city camp santiago
Presentación city camp santiago
 
24a sessió web: Open Data. José Manuel Alonso
24a sessió web: Open Data. José Manuel Alonso24a sessió web: Open Data. José Manuel Alonso
24a sessió web: Open Data. José Manuel Alonso
 
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.
Smart Cities: Sostenibilidad de una comunidad Impulsada por la tecnología.
 
Ciudades inteligentes
Ciudades inteligentesCiudades inteligentes
Ciudades inteligentes
 
Big Data en Latinoamerica
Big Data en LatinoamericaBig Data en Latinoamerica
Big Data en Latinoamerica
 
Smart city y las zonas verdes
Smart city y las zonas verdesSmart city y las zonas verdes
Smart city y las zonas verdes
 
ciudades inteligentes
ciudades inteligentesciudades inteligentes
ciudades inteligentes
 
Presentación corporativa de Ingenia
Presentación corporativa de IngeniaPresentación corporativa de Ingenia
Presentación corporativa de Ingenia
 
Google - Bigtable
Google - BigtableGoogle - Bigtable
Google - Bigtable
 
Empresas con BDOO
Empresas con BDOOEmpresas con BDOO
Empresas con BDOO
 
¿Qué necesitan las ciudades para convertirse en inteligentes?
¿Qué necesitan las ciudades para convertirse en inteligentes?¿Qué necesitan las ciudades para convertirse en inteligentes?
¿Qué necesitan las ciudades para convertirse en inteligentes?
 
Open Data: ¿por qué? y ¿cómo?
Open Data: ¿por qué? y ¿cómo?Open Data: ¿por qué? y ¿cómo?
Open Data: ¿por qué? y ¿cómo?
 
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...
Mesa Open Data: Transparentar las organizaciones políticas mediante una estra...
 
Soluciones para la convocatoria de ciudades inteligentes red.es 2015
Soluciones para la convocatoria de ciudades inteligentes red.es 2015Soluciones para la convocatoria de ciudades inteligentes red.es 2015
Soluciones para la convocatoria de ciudades inteligentes red.es 2015
 
Google Bigtable Paper Presentation
Google Bigtable Paper PresentationGoogle Bigtable Paper Presentation
Google Bigtable Paper Presentation
 
Ciudades inteligentes
Ciudades inteligentesCiudades inteligentes
Ciudades inteligentes
 
Big table
Big tableBig table
Big table
 

Similar a Petabytes De Informacion Repensando El Modelamiento De Datos

Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Antoni Riveros
 
Caracteristicas dbms (1)
Caracteristicas dbms (1)Caracteristicas dbms (1)
Caracteristicas dbms (1)
Javier Plazas
 
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdfUnidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
DanielMarquez902683
 
Base de datos
Base de datos Base de datos
Base de datos
Virginia Luna
 
Continuacion
ContinuacionContinuacion
Continuacion
Carlos Julio
 
Taller 1, 2 y 3
Taller 1, 2 y 3Taller 1, 2 y 3
Taller 1, 2 y 3
Carlos Julio
 
Talleres 1,2 y 3
Talleres 1,2 y 3Talleres 1,2 y 3
Talleres 1,2 y 3
Carlos Julio
 
Talleres 1-2-3
Talleres 1-2-3Talleres 1-2-3
Talleres 1-2-3
Carlos Julio
 
Talleres 1, 2 y 3
Talleres 1, 2 y 3Talleres 1, 2 y 3
Talleres 1, 2 y 3
guest928f6e
 
Bases de Datos I_primer cuatrimestre.pptx
Bases de Datos I_primer cuatrimestre.pptxBases de Datos I_primer cuatrimestre.pptx
Bases de Datos I_primer cuatrimestre.pptx
alecastillomsksks
 
04 presentacion acosta_claudio
04 presentacion acosta_claudio04 presentacion acosta_claudio
04 presentacion acosta_claudio
claudio acosta lara
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
Berenice Quintero
 
Big table por Matias tesoriero
Big table por Matias tesorieroBig table por Matias tesoriero
Big table por Matias tesoriero
mtesoriero
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
Joseph Lopez
 
Base de datos
Base de datos Base de datos
Base de datos
karina maita
 
Tipos de BDD y SGBD
Tipos de BDD y SGBDTipos de BDD y SGBD
Tipos de BDD y SGBD
karina maita
 
Bases de datos
Bases de datosBases de datos
Bases de datos
Cris Gm
 
Base de datos
Base de datosBase de datos
Base de datos
PaulZurita7
 
Clase 1 - Introducción a Bases de Datos
Clase 1 - Introducción a Bases de DatosClase 1 - Introducción a Bases de Datos
Clase 1 - Introducción a Bases de Datos
Eddie Malca
 
Futuro bd
Futuro bdFuturo bd
Futuro bd
chavitoqui
 

Similar a Petabytes De Informacion Repensando El Modelamiento De Datos (20)

Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
Qué SGBD (Sistema de Gestor de BD) y tecnologías utilizan: Facebook, Twitter,...
 
Caracteristicas dbms (1)
Caracteristicas dbms (1)Caracteristicas dbms (1)
Caracteristicas dbms (1)
 
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdfUnidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
Unidad 1 - Introducción a los Sistemas de Gestión de Bases de Datos.pdf
 
Base de datos
Base de datos Base de datos
Base de datos
 
Continuacion
ContinuacionContinuacion
Continuacion
 
Taller 1, 2 y 3
Taller 1, 2 y 3Taller 1, 2 y 3
Taller 1, 2 y 3
 
Talleres 1,2 y 3
Talleres 1,2 y 3Talleres 1,2 y 3
Talleres 1,2 y 3
 
Talleres 1-2-3
Talleres 1-2-3Talleres 1-2-3
Talleres 1-2-3
 
Talleres 1, 2 y 3
Talleres 1, 2 y 3Talleres 1, 2 y 3
Talleres 1, 2 y 3
 
Bases de Datos I_primer cuatrimestre.pptx
Bases de Datos I_primer cuatrimestre.pptxBases de Datos I_primer cuatrimestre.pptx
Bases de Datos I_primer cuatrimestre.pptx
 
04 presentacion acosta_claudio
04 presentacion acosta_claudio04 presentacion acosta_claudio
04 presentacion acosta_claudio
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Big table por Matias tesoriero
Big table por Matias tesorieroBig table por Matias tesoriero
Big table por Matias tesoriero
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
 
Base de datos
Base de datos Base de datos
Base de datos
 
Tipos de BDD y SGBD
Tipos de BDD y SGBDTipos de BDD y SGBD
Tipos de BDD y SGBD
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Clase 1 - Introducción a Bases de Datos
Clase 1 - Introducción a Bases de DatosClase 1 - Introducción a Bases de Datos
Clase 1 - Introducción a Bases de Datos
 
Futuro bd
Futuro bdFuturo bd
Futuro bd
 

Más de EQ SOFT EIRL

Libro sobre exportación de servicios post Covid-19
Libro sobre exportación de servicios post Covid-19Libro sobre exportación de servicios post Covid-19
Libro sobre exportación de servicios post Covid-19
EQ SOFT EIRL
 
Peruanos en Twitter
Peruanos en TwitterPeruanos en Twitter
Peruanos en Twitter
EQ SOFT EIRL
 
Recomendaciones Para el Tratamiento de Datos en Inteligencia Artificial
Recomendaciones Para el Tratamiento de Datos en Inteligencia ArtificialRecomendaciones Para el Tratamiento de Datos en Inteligencia Artificial
Recomendaciones Para el Tratamiento de Datos en Inteligencia Artificial
EQ SOFT EIRL
 
Centros Regionales de Innovación Aplicada
Centros Regionales de Innovación AplicadaCentros Regionales de Innovación Aplicada
Centros Regionales de Innovación Aplicada
EQ SOFT EIRL
 
EQ Soft: Soluciones de innovación agraria
EQ Soft: Soluciones de innovación agrariaEQ Soft: Soluciones de innovación agraria
EQ Soft: Soluciones de innovación agraria
EQ SOFT EIRL
 
Transformación Digital en Logística
Transformación Digital en LogísticaTransformación Digital en Logística
Transformación Digital en Logística
EQ SOFT EIRL
 
Propuestas de innovacón financiera
Propuestas de innovacón financieraPropuestas de innovacón financiera
Propuestas de innovacón financiera
EQ SOFT EIRL
 
Clusters Empresariales en Latinoamérica
Clusters Empresariales en LatinoaméricaClusters Empresariales en Latinoamérica
Clusters Empresariales en Latinoamérica
EQ SOFT EIRL
 
Inteligencia Artificial en la Administración Pública
Inteligencia Artificial en la Administración PúblicaInteligencia Artificial en la Administración Pública
Inteligencia Artificial en la Administración Pública
EQ SOFT EIRL
 
Inteligencia artificial para las empresas 2019
Inteligencia artificial para las empresas 2019Inteligencia artificial para las empresas 2019
Inteligencia artificial para las empresas 2019
EQ SOFT EIRL
 
Platique.me solución integral de Smart ChatBot
Platique.me solución integral de Smart ChatBotPlatique.me solución integral de Smart ChatBot
Platique.me solución integral de Smart ChatBot
EQ SOFT EIRL
 
Logos Dictados - solución de Speech to Text
Logos Dictados - solución de Speech to TextLogos Dictados - solución de Speech to Text
Logos Dictados - solución de Speech to Text
EQ SOFT EIRL
 
Logos Biblios - Gestión de Conocimientos
Logos Biblios - Gestión de ConocimientosLogos Biblios - Gestión de Conocimientos
Logos Biblios - Gestión de Conocimientos
EQ SOFT EIRL
 
Logos, Framework de Inteligencia Artificial
Logos, Framework de Inteligencia ArtificialLogos, Framework de Inteligencia Artificial
Logos, Framework de Inteligencia Artificial
EQ SOFT EIRL
 
Internet of Food
Internet of FoodInternet of Food
Internet of Food
EQ SOFT EIRL
 
Logos: Framework de Inteligencia Artificial
Logos: Framework de Inteligencia ArtificialLogos: Framework de Inteligencia Artificial
Logos: Framework de Inteligencia Artificial
EQ SOFT EIRL
 
Presentación de Logos en el Cade Digital
Presentación de Logos en el Cade DigitalPresentación de Logos en el Cade Digital
Presentación de Logos en el Cade Digital
EQ SOFT EIRL
 
Logos Codex: Plataforma de Big Data
Logos Codex: Plataforma de Big DataLogos Codex: Plataforma de Big Data
Logos Codex: Plataforma de Big Data
EQ SOFT EIRL
 
Portafolio de Productos y Servicios de EqSoft
Portafolio de Productos y Servicios de EqSoftPortafolio de Productos y Servicios de EqSoft
Portafolio de Productos y Servicios de EqSoft
EQ SOFT EIRL
 
Soluciones de RPA para automatizar procesos
Soluciones de RPA para automatizar procesosSoluciones de RPA para automatizar procesos
Soluciones de RPA para automatizar procesos
EQ SOFT EIRL
 

Más de EQ SOFT EIRL (20)

Libro sobre exportación de servicios post Covid-19
Libro sobre exportación de servicios post Covid-19Libro sobre exportación de servicios post Covid-19
Libro sobre exportación de servicios post Covid-19
 
Peruanos en Twitter
Peruanos en TwitterPeruanos en Twitter
Peruanos en Twitter
 
Recomendaciones Para el Tratamiento de Datos en Inteligencia Artificial
Recomendaciones Para el Tratamiento de Datos en Inteligencia ArtificialRecomendaciones Para el Tratamiento de Datos en Inteligencia Artificial
Recomendaciones Para el Tratamiento de Datos en Inteligencia Artificial
 
Centros Regionales de Innovación Aplicada
Centros Regionales de Innovación AplicadaCentros Regionales de Innovación Aplicada
Centros Regionales de Innovación Aplicada
 
EQ Soft: Soluciones de innovación agraria
EQ Soft: Soluciones de innovación agrariaEQ Soft: Soluciones de innovación agraria
EQ Soft: Soluciones de innovación agraria
 
Transformación Digital en Logística
Transformación Digital en LogísticaTransformación Digital en Logística
Transformación Digital en Logística
 
Propuestas de innovacón financiera
Propuestas de innovacón financieraPropuestas de innovacón financiera
Propuestas de innovacón financiera
 
Clusters Empresariales en Latinoamérica
Clusters Empresariales en LatinoaméricaClusters Empresariales en Latinoamérica
Clusters Empresariales en Latinoamérica
 
Inteligencia Artificial en la Administración Pública
Inteligencia Artificial en la Administración PúblicaInteligencia Artificial en la Administración Pública
Inteligencia Artificial en la Administración Pública
 
Inteligencia artificial para las empresas 2019
Inteligencia artificial para las empresas 2019Inteligencia artificial para las empresas 2019
Inteligencia artificial para las empresas 2019
 
Platique.me solución integral de Smart ChatBot
Platique.me solución integral de Smart ChatBotPlatique.me solución integral de Smart ChatBot
Platique.me solución integral de Smart ChatBot
 
Logos Dictados - solución de Speech to Text
Logos Dictados - solución de Speech to TextLogos Dictados - solución de Speech to Text
Logos Dictados - solución de Speech to Text
 
Logos Biblios - Gestión de Conocimientos
Logos Biblios - Gestión de ConocimientosLogos Biblios - Gestión de Conocimientos
Logos Biblios - Gestión de Conocimientos
 
Logos, Framework de Inteligencia Artificial
Logos, Framework de Inteligencia ArtificialLogos, Framework de Inteligencia Artificial
Logos, Framework de Inteligencia Artificial
 
Internet of Food
Internet of FoodInternet of Food
Internet of Food
 
Logos: Framework de Inteligencia Artificial
Logos: Framework de Inteligencia ArtificialLogos: Framework de Inteligencia Artificial
Logos: Framework de Inteligencia Artificial
 
Presentación de Logos en el Cade Digital
Presentación de Logos en el Cade DigitalPresentación de Logos en el Cade Digital
Presentación de Logos en el Cade Digital
 
Logos Codex: Plataforma de Big Data
Logos Codex: Plataforma de Big DataLogos Codex: Plataforma de Big Data
Logos Codex: Plataforma de Big Data
 
Portafolio de Productos y Servicios de EqSoft
Portafolio de Productos y Servicios de EqSoftPortafolio de Productos y Servicios de EqSoft
Portafolio de Productos y Servicios de EqSoft
 
Soluciones de RPA para automatizar procesos
Soluciones de RPA para automatizar procesosSoluciones de RPA para automatizar procesos
Soluciones de RPA para automatizar procesos
 

Último

MATERIAL BASE D A T O S .docx
MATERIAL BASE    D A T O S              .docxMATERIAL BASE    D A T O S              .docx
MATERIAL BASE D A T O S .docx
CarlosAndresLoaizaRe
 
CAPCUT PASO A PASO - herramientas tecnológicas de edición de videos
CAPCUT PASO A PASO - herramientas tecnológicas de edición de videosCAPCUT PASO A PASO - herramientas tecnológicas de edición de videos
CAPCUT PASO A PASO - herramientas tecnológicas de edición de videos
Iris505525
 
Evolución, características, aplicación, ventajas y desventajas de las TIC
Evolución, características, aplicación, ventajas y desventajas de las TICEvolución, características, aplicación, ventajas y desventajas de las TIC
Evolución, características, aplicación, ventajas y desventajas de las TIC
Henry W. Zavala
 
Informe de electroforesis del ADN MEDIANTE EL MinION Mk1C.pdf
Informe de electroforesis del ADN MEDIANTE EL MinION Mk1C.pdfInforme de electroforesis del ADN MEDIANTE EL MinION Mk1C.pdf
Informe de electroforesis del ADN MEDIANTE EL MinION Mk1C.pdf
KEVINYOICIAQUINOSORI
 
Reconocimiento del Secuenciador de nanoporos (Nanopore sequencing) MinIon Mk1...
Reconocimiento del Secuenciador de nanoporos (Nanopore sequencing) MinIon Mk1...Reconocimiento del Secuenciador de nanoporos (Nanopore sequencing) MinIon Mk1...
Reconocimiento del Secuenciador de nanoporos (Nanopore sequencing) MinIon Mk1...
sunwndniel
 
2 FIBRA OPTICA COMO MEDIO DE RED DE ACCESO.pptx
2 FIBRA OPTICA COMO MEDIO DE RED DE ACCESO.pptx2 FIBRA OPTICA COMO MEDIO DE RED DE ACCESO.pptx
2 FIBRA OPTICA COMO MEDIO DE RED DE ACCESO.pptx
bellomiguelangel68
 
Generaciones de Computadoras .
Generaciones de Computadoras                 .Generaciones de Computadoras                 .
Generaciones de Computadoras .
gregory760891
 
TESisssssssss de yhnnjuuhjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjj...
TESisssssssss de yhnnjuuhjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjj...TESisssssssss de yhnnjuuhjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjj...
TESisssssssss de yhnnjuuhjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjj...
MenaOlortinYherlyEli
 
Catalogo-Voxtech- accesorios radios RF.pdf
Catalogo-Voxtech- accesorios radios RF.pdfCatalogo-Voxtech- accesorios radios RF.pdf
Catalogo-Voxtech- accesorios radios RF.pdf
walter729637
 
El uso de las TIC en la vida cotidiana.pptx
El uso de las TIC en la vida cotidiana.pptxEl uso de las TIC en la vida cotidiana.pptx
El uso de las TIC en la vida cotidiana.pptx
Katia Reyes
 
BIOSENSORES BASADOS EN NANOTECNOLOGÍA.pdf
BIOSENSORES BASADOS EN NANOTECNOLOGÍA.pdfBIOSENSORES BASADOS EN NANOTECNOLOGÍA.pdf
BIOSENSORES BASADOS EN NANOTECNOLOGÍA.pdf
sunwndniel
 
aplicaciones de sistema de informacion geografico
aplicaciones de sistema de informacion geograficoaplicaciones de sistema de informacion geografico
aplicaciones de sistema de informacion geografico
cyberquiximies
 
DN Consultores | Una mirada al mercado de fibra en Perú
DN Consultores | Una mirada al mercado de fibra en PerúDN Consultores | Una mirada al mercado de fibra en Perú
DN Consultores | Una mirada al mercado de fibra en Perú
estudios22
 
Presentación Redes Sociales Moderno Morado.pdf
Presentación Redes Sociales Moderno Morado.pdfPresentación Redes Sociales Moderno Morado.pdf
Presentación Redes Sociales Moderno Morado.pdf
anniehuanhuayo80
 
_Manejo de Riesgos en el Laboratorio.pdf
_Manejo de Riesgos en el Laboratorio.pdf_Manejo de Riesgos en el Laboratorio.pdf
_Manejo de Riesgos en el Laboratorio.pdf
correodetareas
 
DESARROLLO_DE_APLICACIONES_MULTIMEDIA.pptx
DESARROLLO_DE_APLICACIONES_MULTIMEDIA.pptxDESARROLLO_DE_APLICACIONES_MULTIMEDIA.pptx
DESARROLLO_DE_APLICACIONES_MULTIMEDIA.pptx
fortinodominguez78
 

Último (16)

MATERIAL BASE D A T O S .docx
MATERIAL BASE    D A T O S              .docxMATERIAL BASE    D A T O S              .docx
MATERIAL BASE D A T O S .docx
 
CAPCUT PASO A PASO - herramientas tecnológicas de edición de videos
CAPCUT PASO A PASO - herramientas tecnológicas de edición de videosCAPCUT PASO A PASO - herramientas tecnológicas de edición de videos
CAPCUT PASO A PASO - herramientas tecnológicas de edición de videos
 
Evolución, características, aplicación, ventajas y desventajas de las TIC
Evolución, características, aplicación, ventajas y desventajas de las TICEvolución, características, aplicación, ventajas y desventajas de las TIC
Evolución, características, aplicación, ventajas y desventajas de las TIC
 
Informe de electroforesis del ADN MEDIANTE EL MinION Mk1C.pdf
Informe de electroforesis del ADN MEDIANTE EL MinION Mk1C.pdfInforme de electroforesis del ADN MEDIANTE EL MinION Mk1C.pdf
Informe de electroforesis del ADN MEDIANTE EL MinION Mk1C.pdf
 
Reconocimiento del Secuenciador de nanoporos (Nanopore sequencing) MinIon Mk1...
Reconocimiento del Secuenciador de nanoporos (Nanopore sequencing) MinIon Mk1...Reconocimiento del Secuenciador de nanoporos (Nanopore sequencing) MinIon Mk1...
Reconocimiento del Secuenciador de nanoporos (Nanopore sequencing) MinIon Mk1...
 
2 FIBRA OPTICA COMO MEDIO DE RED DE ACCESO.pptx
2 FIBRA OPTICA COMO MEDIO DE RED DE ACCESO.pptx2 FIBRA OPTICA COMO MEDIO DE RED DE ACCESO.pptx
2 FIBRA OPTICA COMO MEDIO DE RED DE ACCESO.pptx
 
Generaciones de Computadoras .
Generaciones de Computadoras                 .Generaciones de Computadoras                 .
Generaciones de Computadoras .
 
TESisssssssss de yhnnjuuhjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjj...
TESisssssssss de yhnnjuuhjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjj...TESisssssssss de yhnnjuuhjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjj...
TESisssssssss de yhnnjuuhjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjjj...
 
Catalogo-Voxtech- accesorios radios RF.pdf
Catalogo-Voxtech- accesorios radios RF.pdfCatalogo-Voxtech- accesorios radios RF.pdf
Catalogo-Voxtech- accesorios radios RF.pdf
 
El uso de las TIC en la vida cotidiana.pptx
El uso de las TIC en la vida cotidiana.pptxEl uso de las TIC en la vida cotidiana.pptx
El uso de las TIC en la vida cotidiana.pptx
 
BIOSENSORES BASADOS EN NANOTECNOLOGÍA.pdf
BIOSENSORES BASADOS EN NANOTECNOLOGÍA.pdfBIOSENSORES BASADOS EN NANOTECNOLOGÍA.pdf
BIOSENSORES BASADOS EN NANOTECNOLOGÍA.pdf
 
aplicaciones de sistema de informacion geografico
aplicaciones de sistema de informacion geograficoaplicaciones de sistema de informacion geografico
aplicaciones de sistema de informacion geografico
 
DN Consultores | Una mirada al mercado de fibra en Perú
DN Consultores | Una mirada al mercado de fibra en PerúDN Consultores | Una mirada al mercado de fibra en Perú
DN Consultores | Una mirada al mercado de fibra en Perú
 
Presentación Redes Sociales Moderno Morado.pdf
Presentación Redes Sociales Moderno Morado.pdfPresentación Redes Sociales Moderno Morado.pdf
Presentación Redes Sociales Moderno Morado.pdf
 
_Manejo de Riesgos en el Laboratorio.pdf
_Manejo de Riesgos en el Laboratorio.pdf_Manejo de Riesgos en el Laboratorio.pdf
_Manejo de Riesgos en el Laboratorio.pdf
 
DESARROLLO_DE_APLICACIONES_MULTIMEDIA.pptx
DESARROLLO_DE_APLICACIONES_MULTIMEDIA.pptxDESARROLLO_DE_APLICACIONES_MULTIMEDIA.pptx
DESARROLLO_DE_APLICACIONES_MULTIMEDIA.pptx
 

Petabytes De Informacion Repensando El Modelamiento De Datos

  • 1. Petabytes de información: Repensando el  modelamiento  de base de datos Ernesto Quiñones Azcárate ernestoq@apesol.org Presidencia Apesol 2006­2008    
  • 2. Modelos de  bases de datos para todos los gustos (según la organización de los  datos) : Jerárquicas Relacionales Orientadas al objeto Multidimensional    
  • 3. A donde camina la información: ● Existen al menos 50 dbms “famosos” entre libres y privativos y  un número al menos 4 ó 5 veces superior entre los de uso  académico/experimental etc. ● En 2006 existían 161 Exabytes de información  (1 Exabyte = 1000  Petas), Actualmente (2008) debe existir 330­340 Exabytes. ● En 2011 debemos tener cerca de 1,800 Exabytes de información. ● En 2007 la cantidad de información generada supero a la  capacidad instalada mundial de contenerla, actualmente se  calcula un déficit de 60 a 70 Exabytes de infraestructura. ● Existen 1,000 millones de dispositivos de capturas de imágenes ● El 95% de la data del mundo no tiene                                    estructura. ● 65k filmaciones nuevas en Youtube por día. ● 60 millones de emails diarios. ● Google puede indexar 20 Petabytes en un solo día.    
  • 4. La data esta cambiando ● La información sigue creciendo nadie va a parar eso, es  mas va a ser peor ● Actualmente el % de usuarios que provee información a  la red es mucho menor de los que lo usan. ●Cada vez es mas difícil catalogar la información ● Cada vez será mas difícil encontrar la información que  uno quiere ..... y como administramos tanta data?    
  • 5. El 22 de Mayo Yahoo dio esta noticia :  ● Yahoo anuncia tener la base de datos mas grande del mundo (2  Peta bytes) en funcionamiento. ● La base de datos de 1 año de antigüedad esta procesando 24,000  millones de eventos diarios. ● El administrador de la data es un PostgreSQL ( http://www.postgresql.org) modificado especialmente para ellos. ● La tecnología usada es la “base de datos basada en columnas”  donde no existen “registros”, esto hace que la grabación de datos  sea lenta pero la lectura es muy rápida. Noticia original: http://tinyurl.com/68avgt    
  • 6. Que es una base de datos basa en columnas Convencionalmente guardamos la data así : Ahora la data la guardamos así : Otra representación : Dudas: ● ¿Porque hacer esto? ● ¿Donde queda la normalización? ● ¿Existen “engines” para este tipo de base  de datos?    
  • 7. La ventaja de una base de datos basada en columnas. El principal motivo es el tiempo de acceso al disco, la velocidad del disco suele  ser el cuello de botella en los sistemas de almacenamiento ya que es  notablemente mas lento que el poder de procesamiento.    
  • 8. La ventaja de una base de datos basada en columnas. Tradicionalmente las bases de datos hacen esto para guardar la data No No Esto es rápido para  Páginas 8k 8k 8k operaciones de  usada usada escritura pero no de  No No lectura. 8k 8k 8k 8k usada usada Cada página tiene una  estructura de este tipo  (generalmente)    
  • 9. La ventaja de una base de datos basada en columnas. Este es un ejemplo aproximado  de data masiva Esta data se organizará bajo este esquema lógico    
  • 10. La ventaja de una base de datos basada en columnas. Esta es la representación de la organización física de la data El engine de la db tomará la data y la guardará  en archivos llamados CellStores subdivididos en  bloques de data comprimida de 64k (podría  variar) en su propio sistema de archivos por  sobre el que tiene el sistema operativo. Por ejemplo: Juan, Pedro, Lucho, Lima, Lima, Callao, 25,25,25 Sería convertida a : Juan, Pedro, Lucho, Lima x 2, Callao, 25 x 3 Mientras en los dbms convencionales la data se  guarda en varias secciones/espacios del disco,  en las c­dbms se guarda junta y continua en el  mismo CellStore.    
  • 11. La ventaja de una base de datos basada en columnas. Los Querys: Este es un ejemplo de como funciona  Bigtable de Google    
  • 12. ¿El fin de los RDBMS? ● El problema del modelo relacional es que suele ser un consumidor alto  de recursos al momento de ejecutar transacciones, especialmente  cuando uno tiene data masiva. Imagines que deseamos borrar  registros en “Cuotas” y el engine  debe verificar que no se hagan  modificaciones que rompan la  relación con “Pagos”. 1,000 registros 100,000  10,000,000  1,000,000,000 100,000,000,000 1,000,000,000,000    
  • 13. ¿El fin de los RDBMS? ● El problema del modelo relacional es que suele ser un consumidor alto  de recursos al momento de ejecutar transacciones, especialmente  cuando uno tiene data masiva. Cada delete debe ejecutar un select  en la tabla “Pagos”, ¿cuanto demora? 1,000 ­­­> 1s 100,000  ­­> 1m40s 10,000,000  ­­> 2.77h 1,000,000,000 ­­> 11.57d 100,000,000,000 ­­> 3.17a 1,000,000,000,000 ­­> 317a (y algunos  días mas :D Recordemos Yahoo hace  24,000,000,000 de transacciones por  día, en 41.6 días genera 1 billón de  registros (como mínimo).    
  • 14. ¿El fin de los RDBMS? ● Los sistemas Relacionales tienes mas de 25 años de existencia. ● Básicamente fueron pensada con una orientación de guardar data de  negocios. ● Cuando empezó a explotarse la data masiva (hace poco mas de una  década) el sistema relacional demostró tener problemas, se tuvo que  mejorar/modificar para atender esta nueva necesidad. ● La data a pasado a ser no­precisa, imposible de “normalizar”. ● Los joins son lentos cuanto tienes cantidades de data monstruosa. ● Los procesos de ABC se vuelven muy costosos cuando hay muchas  relaciones entre las tablas. Sin embargo el fin de los RDBMS fue predicho antes; OODBMS, XML,  etc., esta todavía lejos de ser considerada “tecnología legacy”.    
  • 15. ENGINES BigTable (privativo – Google) ● Desarrollo y uso exclusivo de Google. ● Tiene 2 componentes esenciales: (1) Google File System (GFS) el cual  asegura disponibilidad de los datos por medio de copias redundantes,  mientras mas sea consultado un dato mas veces de duplicado  asignándosele mas recursos. (2) Chubby Lock Service, el cual es un  componente que permite la sincronización de accesos a recursos  compartidos. ● Las tablas se subdividen en tablets con filas que llegan a medir hasta  200mb. ● A estas filas se les aplica ademas un algoritmo de compresión secreto  para optimizar aún mas el espacio. ● A enero 2008 existían 600 clusters, el mas grande con 2000 servers, el  store mas grande es de 700Tbytes y atiende 100k operaciones por  segundo. ● Se utiliza un lenguaje llamado  Sawzall.    
  • 16. ENGINES BigTable (privativo – Google)    
  • 17. ENGINES Hypertable http://hypertable.org/  ● Proyecto libre que aplica “buenas practicas” en la administración de db  de gran cantidad de datos y alto volumen de trabajo. ● La data es guardada como cadenas de bytes, las tablas que lo  almacenan son cortadas en secciones continuas y divididas en  diversos servidores, estos son conocidos como Range Servers,  adicionalmente existen Master Servers que se encargan de tareas  administrativas y supervisar los Range Servers (ambos servicios  pueden correr en una misma pc). ● Se utiliza un lenguaje llamado Hypertable Query Language (HQL) ● Puede usar diferentes sistemas de archivos, pero se recomienda  Hadoop Distributed File System (HDFS) http://hadoop.apache.org/    
  • 18. ENGINES Hypertable http://hypertable.org/  Coordinador de  concurrencia (lock manager) Administra  data en  memoria Cache de  transacciones Aquí se encuentran    las celdas de datos  
  • 19. ENGINES Hypertable http://hypertable.org/  Servicio que da  la cara al cliente,  coordina las ABC  en los Datanodes Guarda la  data La misma data se guarda en diferentes  Datanodes    
  • 20. ENGINES LucidDB http://luciddb.sourceforge.net/  ● Esta basada en EigenBase http://www.eigenbase.org/ un software base  que permite crear sistemas administradores de datos. ● LucidDB esta pensada con el propósito de hacer data warehousing y  business intelligence. ● Esta pensada para ser básicamente solo read­only, las actualizaciones  crean nuevas páginas que reemplazan a las existentes y se guardan  versiones de estas. ● Las páginas miden 32K, se maneja un buffer de 5,000 páginas con la  información mas leida. ● Se usa una técnica de indexación conocida como “bitmap”, indices y  data son comprimidos y se utiliza la técnica del “semijoin” para  determinar la data que es únicamente necesaria acceder por los  querys. ● LucidDB puede acceder directamente a repositorios externos via  SQLMED    
  • 21. Se uso Java pensando ENGINES en la expansión del  producto. LucidDB http://luciddb.sourceforge.net/  Acceso a  repositorio s de datos  externos Engine principal de LucidDB Data    
  • 23. Muchas Gracias!!! Visite APESOL http://www.apesol.org Inscríbete en las listas de interés en http://apesol.org/listas.php Conversemos en vivo en server: irc.freenode.net sala:#apesol