SlideShare una empresa de Scribd logo
1 de 15
Paper Review (Spanish)
David V.P.
linkedin.com/in/david-v-p-74046759
Eduardo Prieto Valdivieso
linkedin.com/in/eduardoprietovaldivieso
ÍNDICE
 ¿CUÁNDO APARECE EL PAPER SOBRE DREMEL?
 ¿QUÉ ES DREMEL?
 ¿EN QUÉ CASOS SE UTILIZABA DREMEL?
 REGISTROS VS COLUMNAS
 MODELO LÓGICO DE DREMEL
 EMSAMBLADO DE REGISTROS
 EJECUCIÓN MULTINIVEL: SISTEMA DISTRIBUIDO CON ARQUITECTURA DE ÁRBOL
 EXPERIMENTOS
 CONCLUSIONES
2
¿CUÁNDO APARECE EL PAPER SOBRE DREMEL?
 SERGEY MELNIK, ANDREY GUBAREV, JING JING LONG, GEOFFREY ROMER, SHIVA
SHIVAKUMAR, MATT TOLTON, THEO VASSILAKIS (2010): DREMEL: INTERACTIVE
ANALYSIS OF WEBSCALE DATASETS; GOOGLE, INC.
 THE 36TH INTERNATIONAL CONFERENCE ON VERY LARGE DATA BASES,
SEPTEMBER13-17, 2010, SINGAPORE
3
¿QUÉ ES DREMEL?
 ES UN SISTEMA DE CONSULTAS AD-HOC INTERACTIVO Y ESCALABLE PARA EL
ANÁLISIS DE DATOS ANIDADAS DE SÓLO LECTURA EN SISTEMAS DISTRIBUIDOS.
 ESTE SISTEMA SE CONSIGUE COMBINANDO: ÁRBOLES DE EJECUCIÓN MULTINIVEL
Y UN FORMATO DE DATOS COLUMNAR FUERTEMENTE TIPADO.
 ES CAPAZ DE EJECUTAR CONSULTAS DE AGREGACIÓN SOBRE TABLAS CON MÁS
DE UN BILLÓN DE FILAS EN CUESTIÓN DE SEGUNDOS
4
¿EN QUÉ CASOS SE UTILIZABA DREMEL?
 ANÁLISIS DE DOCUMENTOS DE RASTREO/INDEXACIÓN WEB.
 SEGUIMIENTO DE DATOS DE INSTALACIÓN PARA APLICACIONES EN ANDROID MARKET.
 REPORTE DE FALLOS PARA LOS PRODUCTOS DE GOOGLE.
 RESULTADOS DE OCR DE GOOGLE BOOKS.
 ANÁLISIS DE SPAM.
 DEPURACIÓN DE LOS MOSAICOS DEL MAPA EN GOOGLE MAPS.
 MIGRACIONES DE TABLETS EN INSTANCIAS DE BIGTABLE ADMINISTRADAS.
 RESULTADOS DE LAS PRUEBAS EJECUTADAS EN EL SISTEMA DE COMPILACIÓN DISTRIBUIDA
DE GOOGLE.
 ESTADÍSTICAS DE I/O DE DISCO PARA CIENTOS DE MILES DE DISCOS.
 SUPERVISIÓN DE RECURSOS PARA TRABAJOS EJECUTADOS EN CENTROS DE DATOS DE
GOOGLE.
 SÍMBOLOS Y DEPENDENCIAS EN LA BASE DE CÓDIGO DE GOOGLE.
5
REGISTROS VS COLUMNAS
 VELOCIDAD:
LECTURA > ESCRITURA
 ALMACENAMIENTO REDUCIDO
 ¿Y LA ESTRUCTURA ORIGINAL?
6
MODELO LÓGICO DE DREMEL
7
 TIPADO MÁXIMO GRANO
 CONSERVACIÓN ANIDACIONES ORIGEN
EMSAMBLADO DE REGISTROS
8
EJECUCIÓN MULTINIVEL: SISTEMA DISTRIBUIDO
CON ARQUITECTURA DE ÁRBOL
 CUANTO MAYOR NÚMERO DE NIVELES EN EL SISTEMA DISTRIBUIDO MAYOR
VELOCIDAD DE LECTURA
9
EXPERIMENTOS (1): LECTURA EN UN DISCO DURO
LOCAL
10
ESCANEO DE UN FRAGMENTO DE T1 DE 1 GB
QUE CONTIENE 300K FILAS. LA MÁQUINA ES
UN INTEL DUAL CORE CON UN ANCHO DE
BANDA DE LECTURA DE DISCO DE 70 MB/s
CONCLUSIÓN:
EL ORDEN DE MAGNITUD DE LOS
TIEMPOS DE
LECTURA+DESCOMPRESIÓN Y
PARSEADO A OBJETOS (A PESAR
DE TENER QUE SUMAR LOS
TIEMPOS DE REEMSAMBLAR LOS
REGISTROS) SON UN ORDEN DE
MAGNITUD MENORES PARA
FORMATO COLUMNAR QUE PARA
FILAS.
EXPERIMENTOS (2): MAPREDUCE VS DREMEL
11
CONCLUSIÓN: DREMEL
FUNCIONA MÁS RÁPIDO
PARA ESTE TIPO DE
QUERIES QUE EL MAP
REDUCE YA SEA
MEDIANTE PROCESADO
DE DATOS EN FILAS O
EN COLUMNAS.
EXPERIMENTOS (3): TOPOLOGÍA DEL ÁRBOL
 2 NIVELES: 1:2900 MÁQUINAS
 3 NIVELES: 1:100:2900 MÁQUINAS
 4 NIVELES: 1:10:100:2900 MÁQUINAS
12
CONCLUSIÓN: CUANTOS
MÁS NIVELES HAYA EN
LA ESTRUCTURA DE
ÁRBOL MÁS RÁPIDO
CORRE DREMEL ->
TOPOLOGÍA DE ÁRBOL
JERÁRQUICO ES
ADECUADA.
EXPERIMENTS (4): ESCALABILIDAD
13
CONCLUSIÓN:
CUANTOS MÁS SERVIDORES
HOJA (NODOS EN EL ÚLTIMO
NIVEL) HAYA EN LA
ESTRUCTURA DE ÁRBOL MÁS
RÁPIDO CORRE DREMEL EN
UNA RELACIÓN CASI-LINEAL
CONCLUSIONES (1)
 LAS CONSULTAS BASADAS EN SCAN SE PUEDEN EJECUTAR A GRAN VELOCIDAD EN CONJUNTOS
DE DATOS EN DISCO DE HASTA UN BILLÓN DE REGISTROS.
 LA ESCALABILIDAD CASI LINEAL EN EL NÚMERO DE COLUMNAS Y SERVIDORES ES ALCANZABLE
PARA SISTEMAS QUE CONTIENEN MILES DE NODOS.
 MR PUEDE BENEFICIARSE DEL ALMACENAMIENTO COLUMNAR AL IGUAL QUE UN DBMS.
 EL EMSAMBLADO Y EL ANÁLISIS DE REGISTROS SON CAROS. SOFTWARE LAWYERS (MÁS ALLÁ
DE LA CAPA DE PROCESAMIENTO DE CONSULTAS) DEBEN OPTIMIZARSE PARA QUE SE PUEDA
TRABAJAR DIRECTAMENTE CON DATOS ORIENTADOS A COLUMNAS.
 MR Y EL PROCESAMIENTO DE CONSULTAS MEDIANTE DREMEL SE PUEDEN UTILIZAR DE FORMA
COMPLEMENTARIA; LA SALIDA DE UNA CAPA PUEDE ALIMENTAR LA ENTRADA DE OTRA.
14
CONCLUSIONES (2)
 EN UN ENTORNO MULTIUSUARIO, UN SISTEMA MÁS GRANDE PUEDE APROVECHAR
LAS ECONOMÍAS DE ESCALA A LA VEZ QUE OFRECER UN MEJOR EXPERIENCIA DE
USUARIO.
 SI LA VELOCIDAD DE LECTURA ES PRIORITARIA FRENTE A LA EXACTITUD, UNA
CONSULTA PUEDE TERMINARSE MUCHO ANTES Y AÚN ASÍ VERSE LA MAYORÍA DE LOS
DATOS REQUERIDOS.
 LA MAYOR PARTE DE UN CONJUNTO DE DATOS A ESCALA WEB SE PUEDE ESCANEAR
RÁPIDAMENTE. CONSEGUIR EL PORCENTAJE RESTANTE DE DATOS EN TIEMPOS
AJUSTADOS ES DIFÍCIL.
15

Más contenido relacionado

Similar a Dremel Paper Review (Spanish)

Similar a Dremel Paper Review (Spanish) (20)

Los mejores consejos para migrar de RDBMS a MongoDB.pptx.pdf
Los mejores consejos para migrar de RDBMS a MongoDB.pptx.pdfLos mejores consejos para migrar de RDBMS a MongoDB.pptx.pdf
Los mejores consejos para migrar de RDBMS a MongoDB.pptx.pdf
 
BASES DE DATOS
BASES DE DATOSBASES DE DATOS
BASES DE DATOS
 
Smbd (2)
Smbd (2)Smbd (2)
Smbd (2)
 
Smbd (2)
Smbd (2)Smbd (2)
Smbd (2)
 
Smb Dfin
Smb DfinSmb Dfin
Smb Dfin
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Grupo 4
Grupo 4Grupo 4
Grupo 4
 
Base de Datos
Base de DatosBase de Datos
Base de Datos
 
Presentcion grupo 4 ib
Presentcion grupo  4 ibPresentcion grupo  4 ib
Presentcion grupo 4 ib
 
Presentcion grupo 4 ib
Presentcion grupo  4 ibPresentcion grupo  4 ib
Presentcion grupo 4 ib
 
Base de datos
Base de datosBase de datos
Base de datos
 
Presentcion grupo 4 ib
Presentcion grupo  4 ibPresentcion grupo  4 ib
Presentcion grupo 4 ib
 
Base de datos
Base de datosBase de datos
Base de datos
 
Exposicion de redes
Exposicion de redesExposicion de redes
Exposicion de redes
 
Smdb equipo #3
Smdb equipo #3Smdb equipo #3
Smdb equipo #3
 
Dbms investigacion equipo #3
Dbms investigacion  equipo #3Dbms investigacion  equipo #3
Dbms investigacion equipo #3
 
Dbms investigacion equipo #3
Dbms investigacion  equipo #3Dbms investigacion  equipo #3
Dbms investigacion equipo #3
 
Almacenamiento gatiita
Almacenamiento gatiitaAlmacenamiento gatiita
Almacenamiento gatiita
 
elsy
elsyelsy
elsy
 

Último

Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviHugoSSalinas
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomascarmenachullahuamani1
 
Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaAlexander VA
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEmisor Digital
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfJulioCesarRubianoArc1
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfanaliticaydatos
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioAlexander VA
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.FeliGamarra1
 
Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfJC Díaz Herrera
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdfJC Díaz Herrera
 
Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdfJC Díaz Herrera
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahodalisnicoles
 
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúDiegoFranciscoLarrea
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...Daniela Márquez Sena
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkJuanmanuelYapitamani
 

Último (15)

Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico Jamovi
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomas
 
Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historia
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de Ipsos
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdf
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia Patrimonio
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
 
Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdf
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdf
 
Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdf
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoah
 
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
 

Dremel Paper Review (Spanish)

  • 1. Paper Review (Spanish) David V.P. linkedin.com/in/david-v-p-74046759 Eduardo Prieto Valdivieso linkedin.com/in/eduardoprietovaldivieso
  • 2. ÍNDICE  ¿CUÁNDO APARECE EL PAPER SOBRE DREMEL?  ¿QUÉ ES DREMEL?  ¿EN QUÉ CASOS SE UTILIZABA DREMEL?  REGISTROS VS COLUMNAS  MODELO LÓGICO DE DREMEL  EMSAMBLADO DE REGISTROS  EJECUCIÓN MULTINIVEL: SISTEMA DISTRIBUIDO CON ARQUITECTURA DE ÁRBOL  EXPERIMENTOS  CONCLUSIONES 2
  • 3. ¿CUÁNDO APARECE EL PAPER SOBRE DREMEL?  SERGEY MELNIK, ANDREY GUBAREV, JING JING LONG, GEOFFREY ROMER, SHIVA SHIVAKUMAR, MATT TOLTON, THEO VASSILAKIS (2010): DREMEL: INTERACTIVE ANALYSIS OF WEBSCALE DATASETS; GOOGLE, INC.  THE 36TH INTERNATIONAL CONFERENCE ON VERY LARGE DATA BASES, SEPTEMBER13-17, 2010, SINGAPORE 3
  • 4. ¿QUÉ ES DREMEL?  ES UN SISTEMA DE CONSULTAS AD-HOC INTERACTIVO Y ESCALABLE PARA EL ANÁLISIS DE DATOS ANIDADAS DE SÓLO LECTURA EN SISTEMAS DISTRIBUIDOS.  ESTE SISTEMA SE CONSIGUE COMBINANDO: ÁRBOLES DE EJECUCIÓN MULTINIVEL Y UN FORMATO DE DATOS COLUMNAR FUERTEMENTE TIPADO.  ES CAPAZ DE EJECUTAR CONSULTAS DE AGREGACIÓN SOBRE TABLAS CON MÁS DE UN BILLÓN DE FILAS EN CUESTIÓN DE SEGUNDOS 4
  • 5. ¿EN QUÉ CASOS SE UTILIZABA DREMEL?  ANÁLISIS DE DOCUMENTOS DE RASTREO/INDEXACIÓN WEB.  SEGUIMIENTO DE DATOS DE INSTALACIÓN PARA APLICACIONES EN ANDROID MARKET.  REPORTE DE FALLOS PARA LOS PRODUCTOS DE GOOGLE.  RESULTADOS DE OCR DE GOOGLE BOOKS.  ANÁLISIS DE SPAM.  DEPURACIÓN DE LOS MOSAICOS DEL MAPA EN GOOGLE MAPS.  MIGRACIONES DE TABLETS EN INSTANCIAS DE BIGTABLE ADMINISTRADAS.  RESULTADOS DE LAS PRUEBAS EJECUTADAS EN EL SISTEMA DE COMPILACIÓN DISTRIBUIDA DE GOOGLE.  ESTADÍSTICAS DE I/O DE DISCO PARA CIENTOS DE MILES DE DISCOS.  SUPERVISIÓN DE RECURSOS PARA TRABAJOS EJECUTADOS EN CENTROS DE DATOS DE GOOGLE.  SÍMBOLOS Y DEPENDENCIAS EN LA BASE DE CÓDIGO DE GOOGLE. 5
  • 6. REGISTROS VS COLUMNAS  VELOCIDAD: LECTURA > ESCRITURA  ALMACENAMIENTO REDUCIDO  ¿Y LA ESTRUCTURA ORIGINAL? 6
  • 7. MODELO LÓGICO DE DREMEL 7  TIPADO MÁXIMO GRANO  CONSERVACIÓN ANIDACIONES ORIGEN
  • 9. EJECUCIÓN MULTINIVEL: SISTEMA DISTRIBUIDO CON ARQUITECTURA DE ÁRBOL  CUANTO MAYOR NÚMERO DE NIVELES EN EL SISTEMA DISTRIBUIDO MAYOR VELOCIDAD DE LECTURA 9
  • 10. EXPERIMENTOS (1): LECTURA EN UN DISCO DURO LOCAL 10 ESCANEO DE UN FRAGMENTO DE T1 DE 1 GB QUE CONTIENE 300K FILAS. LA MÁQUINA ES UN INTEL DUAL CORE CON UN ANCHO DE BANDA DE LECTURA DE DISCO DE 70 MB/s CONCLUSIÓN: EL ORDEN DE MAGNITUD DE LOS TIEMPOS DE LECTURA+DESCOMPRESIÓN Y PARSEADO A OBJETOS (A PESAR DE TENER QUE SUMAR LOS TIEMPOS DE REEMSAMBLAR LOS REGISTROS) SON UN ORDEN DE MAGNITUD MENORES PARA FORMATO COLUMNAR QUE PARA FILAS.
  • 11. EXPERIMENTOS (2): MAPREDUCE VS DREMEL 11 CONCLUSIÓN: DREMEL FUNCIONA MÁS RÁPIDO PARA ESTE TIPO DE QUERIES QUE EL MAP REDUCE YA SEA MEDIANTE PROCESADO DE DATOS EN FILAS O EN COLUMNAS.
  • 12. EXPERIMENTOS (3): TOPOLOGÍA DEL ÁRBOL  2 NIVELES: 1:2900 MÁQUINAS  3 NIVELES: 1:100:2900 MÁQUINAS  4 NIVELES: 1:10:100:2900 MÁQUINAS 12 CONCLUSIÓN: CUANTOS MÁS NIVELES HAYA EN LA ESTRUCTURA DE ÁRBOL MÁS RÁPIDO CORRE DREMEL -> TOPOLOGÍA DE ÁRBOL JERÁRQUICO ES ADECUADA.
  • 13. EXPERIMENTS (4): ESCALABILIDAD 13 CONCLUSIÓN: CUANTOS MÁS SERVIDORES HOJA (NODOS EN EL ÚLTIMO NIVEL) HAYA EN LA ESTRUCTURA DE ÁRBOL MÁS RÁPIDO CORRE DREMEL EN UNA RELACIÓN CASI-LINEAL
  • 14. CONCLUSIONES (1)  LAS CONSULTAS BASADAS EN SCAN SE PUEDEN EJECUTAR A GRAN VELOCIDAD EN CONJUNTOS DE DATOS EN DISCO DE HASTA UN BILLÓN DE REGISTROS.  LA ESCALABILIDAD CASI LINEAL EN EL NÚMERO DE COLUMNAS Y SERVIDORES ES ALCANZABLE PARA SISTEMAS QUE CONTIENEN MILES DE NODOS.  MR PUEDE BENEFICIARSE DEL ALMACENAMIENTO COLUMNAR AL IGUAL QUE UN DBMS.  EL EMSAMBLADO Y EL ANÁLISIS DE REGISTROS SON CAROS. SOFTWARE LAWYERS (MÁS ALLÁ DE LA CAPA DE PROCESAMIENTO DE CONSULTAS) DEBEN OPTIMIZARSE PARA QUE SE PUEDA TRABAJAR DIRECTAMENTE CON DATOS ORIENTADOS A COLUMNAS.  MR Y EL PROCESAMIENTO DE CONSULTAS MEDIANTE DREMEL SE PUEDEN UTILIZAR DE FORMA COMPLEMENTARIA; LA SALIDA DE UNA CAPA PUEDE ALIMENTAR LA ENTRADA DE OTRA. 14
  • 15. CONCLUSIONES (2)  EN UN ENTORNO MULTIUSUARIO, UN SISTEMA MÁS GRANDE PUEDE APROVECHAR LAS ECONOMÍAS DE ESCALA A LA VEZ QUE OFRECER UN MEJOR EXPERIENCIA DE USUARIO.  SI LA VELOCIDAD DE LECTURA ES PRIORITARIA FRENTE A LA EXACTITUD, UNA CONSULTA PUEDE TERMINARSE MUCHO ANTES Y AÚN ASÍ VERSE LA MAYORÍA DE LOS DATOS REQUERIDOS.  LA MAYOR PARTE DE UN CONJUNTO DE DATOS A ESCALA WEB SE PUEDE ESCANEAR RÁPIDAMENTE. CONSEGUIR EL PORCENTAJE RESTANTE DE DATOS EN TIEMPOS AJUSTADOS ES DIFÍCIL. 15