Este documento describe una nueva plataforma de almacenamiento masivo y distribuido para el gobierno vasco que ofrece servicios de almacenamiento de archivos, edición en línea de documentos y capacidades de Big Data. La plataforma usa tecnologías de código abierto como HDFS y HBase para proporcionar un almacenamiento escalable y robusto que actualmente almacena más de 100 GB de datos y soporta hasta 35,000 operaciones diarias.
Plataforma de almacenamiento masivo y distribuido en la red corporativa del Gobierno Vasco
1. Plataforma de almacenamiento masivo y distribuido en
la red corporativa del Gobierno Vasco
Aproximación BigData
11 de Noviembre de 2014
Oscar Guadilla (o-guadilla@ejie.eus)
2. Índice
1. Presentación
2. Origen
3. Solución General
4. Edición Online
5. Números
6. Reflexiones Open Source
2
3. 1. Presentación
Sociedad Informática del Gobierno Vasco
Consultor de Sistemas
estandarización de productos
soluciones horizontales técnicas
(integración, seguridad, batch...)
dudas arquitectura
(fases -1)
3
4. 2. Origen
eAdministración (2004)
– plataformas de integración
– soluciones de mediación
– bajo calado horizontal
reingeniería integración (2009)
– mediación vs intermediación
– socialización departamental y organismos autónomos
solución full equipe (2014)
– servicios
– eventos
– ficheros
– documentos
4
5. 2. Origen
Requisitos funcionales
– tanto para backend como para frontend
– cualquier tecnología (java, .net…)
– usable tanto para intercambios internos como externos (xc001)
– total trazabilidad para saber que está pasando con los ficheros
– usabilidad (gmail)
– edición online (sharepoint)
Requisitos técnicos
– escalable & robusto
– auditable desde el punto de vista de seguridad
– estanqueidad en los datos (lopd)
5
6. 3. Solución General
Intercambio
apps
Seguridad
apartado correos
zonas apps
put, get, move,
copy, delete
zonas personas
Uso interno (XLNets): librería java,
rest y comandos serv. BD
Componente flash subida ficheros
(gmail upload like)
Uso externo (U/P): rest y webdav
Cargas/Descargas (Manager),
Explorador (Desa/Pru) y Consola
EjieBOX (dropbok like)
Ficheros en el móvil y en PC (Z:)
6
7. 7
4. Edición Online
La aplicación coge el documento de donde resida y lo ubica en la zona
del usuario (2 zonas hasta ahora estancas)
Se presenta una url especial (spif://...) que instruye al puesto para que la
operación se delega en la ofimática (libreoffice o microsoft)
Las escrituras van directamente contra la zona de usuario (webdav)
8. 8
Operaciones
5. Números
– 35.000 diarias
– 15.000 escrituras
Tiempos (dependen de la red)
– dentro del CPD → 10MB (300ms) y 200MB (4,6seg)
– red corporativa → puestos (10MB - 1,5seg)
– cargas vía jaso → Osakidetza (500KB - 200ms)
Usuarios
– zonas de aplicaciones → 100
– zonas de usuarios → 300
Cero
– fin a las entregas a explotación de CDs y discos duros
Disco
– zonas de aplicaciones →30GB
– zonas de usuarios → 80GB
9. 9
6. Reflexiones Open Source
De la brillantez
– google → gfs
– yahoo → hdfs
A la madurez en BigData:
– hdfs, hbase, spark, cassandra...
BigData como tractor de grandes proyectos:
– facebook, google, twitter, groupon
Software Libre en la administración
– Platea Integración Ficheros libre
– Usar vs Aportar. Muchas mejoras de serie en 2.3