1. Paper Review (Spanish)
David V.P.
linkedin.com/in/david-v-p-74046759
Eduardo Prieto Valdivieso
linkedin.com/in/eduardoprietovaldivieso
2. ÍNDICE
¿CUÁNDO APARECE EL PAPER SOBRE DREMEL?
¿QUÉ ES DREMEL?
¿EN QUÉ CASOS SE UTILIZABA DREMEL?
REGISTROS VS COLUMNAS
MODELO LÓGICO DE DREMEL
EMSAMBLADO DE REGISTROS
EJECUCIÓN MULTINIVEL: SISTEMA DISTRIBUIDO CON ARQUITECTURA DE ÁRBOL
EXPERIMENTOS
CONCLUSIONES
2
3. ¿CUÁNDO APARECE EL PAPER SOBRE DREMEL?
SERGEY MELNIK, ANDREY GUBAREV, JING JING LONG, GEOFFREY ROMER, SHIVA
SHIVAKUMAR, MATT TOLTON, THEO VASSILAKIS (2010): DREMEL: INTERACTIVE
ANALYSIS OF WEBSCALE DATASETS; GOOGLE, INC.
THE 36TH INTERNATIONAL CONFERENCE ON VERY LARGE DATA BASES,
SEPTEMBER13-17, 2010, SINGAPORE
3
4. ¿QUÉ ES DREMEL?
ES UN SISTEMA DE CONSULTAS AD-HOC INTERACTIVO Y ESCALABLE PARA EL
ANÁLISIS DE DATOS ANIDADAS DE SÓLO LECTURA EN SISTEMAS DISTRIBUIDOS.
ESTE SISTEMA SE CONSIGUE COMBINANDO: ÁRBOLES DE EJECUCIÓN MULTINIVEL
Y UN FORMATO DE DATOS COLUMNAR FUERTEMENTE TIPADO.
ES CAPAZ DE EJECUTAR CONSULTAS DE AGREGACIÓN SOBRE TABLAS CON MÁS
DE UN BILLÓN DE FILAS EN CUESTIÓN DE SEGUNDOS
4
5. ¿EN QUÉ CASOS SE UTILIZABA DREMEL?
ANÁLISIS DE DOCUMENTOS DE RASTREO/INDEXACIÓN WEB.
SEGUIMIENTO DE DATOS DE INSTALACIÓN PARA APLICACIONES EN ANDROID MARKET.
REPORTE DE FALLOS PARA LOS PRODUCTOS DE GOOGLE.
RESULTADOS DE OCR DE GOOGLE BOOKS.
ANÁLISIS DE SPAM.
DEPURACIÓN DE LOS MOSAICOS DEL MAPA EN GOOGLE MAPS.
MIGRACIONES DE TABLETS EN INSTANCIAS DE BIGTABLE ADMINISTRADAS.
RESULTADOS DE LAS PRUEBAS EJECUTADAS EN EL SISTEMA DE COMPILACIÓN DISTRIBUIDA
DE GOOGLE.
ESTADÍSTICAS DE I/O DE DISCO PARA CIENTOS DE MILES DE DISCOS.
SUPERVISIÓN DE RECURSOS PARA TRABAJOS EJECUTADOS EN CENTROS DE DATOS DE
GOOGLE.
SÍMBOLOS Y DEPENDENCIAS EN LA BASE DE CÓDIGO DE GOOGLE.
5
6. REGISTROS VS COLUMNAS
VELOCIDAD:
LECTURA > ESCRITURA
ALMACENAMIENTO REDUCIDO
¿Y LA ESTRUCTURA ORIGINAL?
6
7. MODELO LÓGICO DE DREMEL
7
TIPADO MÁXIMO GRANO
CONSERVACIÓN ANIDACIONES ORIGEN
9. EJECUCIÓN MULTINIVEL: SISTEMA DISTRIBUIDO
CON ARQUITECTURA DE ÁRBOL
CUANTO MAYOR NÚMERO DE NIVELES EN EL SISTEMA DISTRIBUIDO MAYOR
VELOCIDAD DE LECTURA
9
10. EXPERIMENTOS (1): LECTURA EN UN DISCO DURO
LOCAL
10
ESCANEO DE UN FRAGMENTO DE T1 DE 1 GB
QUE CONTIENE 300K FILAS. LA MÁQUINA ES
UN INTEL DUAL CORE CON UN ANCHO DE
BANDA DE LECTURA DE DISCO DE 70 MB/s
CONCLUSIÓN:
EL ORDEN DE MAGNITUD DE LOS
TIEMPOS DE
LECTURA+DESCOMPRESIÓN Y
PARSEADO A OBJETOS (A PESAR
DE TENER QUE SUMAR LOS
TIEMPOS DE REEMSAMBLAR LOS
REGISTROS) SON UN ORDEN DE
MAGNITUD MENORES PARA
FORMATO COLUMNAR QUE PARA
FILAS.
11. EXPERIMENTOS (2): MAPREDUCE VS DREMEL
11
CONCLUSIÓN: DREMEL
FUNCIONA MÁS RÁPIDO
PARA ESTE TIPO DE
QUERIES QUE EL MAP
REDUCE YA SEA
MEDIANTE PROCESADO
DE DATOS EN FILAS O
EN COLUMNAS.
12. EXPERIMENTOS (3): TOPOLOGÍA DEL ÁRBOL
2 NIVELES: 1:2900 MÁQUINAS
3 NIVELES: 1:100:2900 MÁQUINAS
4 NIVELES: 1:10:100:2900 MÁQUINAS
12
CONCLUSIÓN: CUANTOS
MÁS NIVELES HAYA EN
LA ESTRUCTURA DE
ÁRBOL MÁS RÁPIDO
CORRE DREMEL ->
TOPOLOGÍA DE ÁRBOL
JERÁRQUICO ES
ADECUADA.
14. CONCLUSIONES (1)
LAS CONSULTAS BASADAS EN SCAN SE PUEDEN EJECUTAR A GRAN VELOCIDAD EN CONJUNTOS
DE DATOS EN DISCO DE HASTA UN BILLÓN DE REGISTROS.
LA ESCALABILIDAD CASI LINEAL EN EL NÚMERO DE COLUMNAS Y SERVIDORES ES ALCANZABLE
PARA SISTEMAS QUE CONTIENEN MILES DE NODOS.
MR PUEDE BENEFICIARSE DEL ALMACENAMIENTO COLUMNAR AL IGUAL QUE UN DBMS.
EL EMSAMBLADO Y EL ANÁLISIS DE REGISTROS SON CAROS. SOFTWARE LAWYERS (MÁS ALLÁ
DE LA CAPA DE PROCESAMIENTO DE CONSULTAS) DEBEN OPTIMIZARSE PARA QUE SE PUEDA
TRABAJAR DIRECTAMENTE CON DATOS ORIENTADOS A COLUMNAS.
MR Y EL PROCESAMIENTO DE CONSULTAS MEDIANTE DREMEL SE PUEDEN UTILIZAR DE FORMA
COMPLEMENTARIA; LA SALIDA DE UNA CAPA PUEDE ALIMENTAR LA ENTRADA DE OTRA.
14
15. CONCLUSIONES (2)
EN UN ENTORNO MULTIUSUARIO, UN SISTEMA MÁS GRANDE PUEDE APROVECHAR
LAS ECONOMÍAS DE ESCALA A LA VEZ QUE OFRECER UN MEJOR EXPERIENCIA DE
USUARIO.
SI LA VELOCIDAD DE LECTURA ES PRIORITARIA FRENTE A LA EXACTITUD, UNA
CONSULTA PUEDE TERMINARSE MUCHO ANTES Y AÚN ASÍ VERSE LA MAYORÍA DE LOS
DATOS REQUERIDOS.
LA MAYOR PARTE DE UN CONJUNTO DE DATOS A ESCALA WEB SE PUEDE ESCANEAR
RÁPIDAMENTE. CONSEGUIR EL PORCENTAJE RESTANTE DE DATOS EN TIEMPOS
AJUSTADOS ES DIFÍCIL.
15