Más contenido relacionado La actualidad más candente (20) Similar a Big data en la era de la nube (20) Big data en la era de la nube1. M ÉXI CO DF
BI G DATA
El análisis de los grandes
volúm enes de datos en la
era de la com putación en la
nube
M éx ico DF
14-15 de octubre, 2013
Prof. Luis Joyanes Aguilar
1
2. ESTADO DEL ARTE DE
CLOUD COM P UTI NG
COMPUTACIÓN
EN LA NUBE
La nueva era de la
com putación
Prof. Luis Joyanes Aguilar
2
5. MÉXICO DF, octubre 2013
BI G DATA
El universo digital de
datos y los datos
abiertos (OPEN DATA)
Prof. Luis Joyanes Aguilar
5
6. LA ERA DEL PETABYTE (1.000 TB),
W ired , julio 2008 (www.wired.com)
Sensores en todas partes, almacenamiento infinito
y Nubes (clouds ) de procesadores
Nuestra capacidad para capturar, almacenar y comprender
cantidades masivas de datos está cambiando la ciencia,
medicina, negocios y tecnología. A medida que aumenta
nuestra colección de hechos y figuras, crece la oportunidad
de encontrar respuestas a preguntas fundamentales.
Because in the era of big data,
m ore isn´t just m ore. M ore is
different
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –6–
7. LA ERA DEL P ETABYTE -2- . W ired ,
julio 2008 (www.wired.com)
1TB (250.000 canciones)
20 TB (fotos “uploaded ” a Facebook
cada mes)
120 TB (todos los datos e imágenes recogidos por el telescopio
espacial Hubble) ; 460 TB (todos los datos del tiempo climático en
EEUÜ compilados por el National Climatic Data Center); 530 TB
(Todos los vídeos de YouTube); 600 TB (base de datos de
genealogía, incluye todos los censos de EEUU 1790-2000)
1 PB (datos procesados por los
servidores de Google cada 75 minutos)
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –7–
8. Tabla de unidades de almacenamiento
(The Econom ist, febrero 2010): “data, data everywhere”
www.economist.com/specialreports/displaystory.cfm?story_id=15557421
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –8–
9. El Universo Digital – EMC / IDC
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –9–
10. El Universo Digital – EMC / IDC
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –10–
11. EL UNIVERSO DIGITAL DE DATOS, 2013
EMC Corporation PUBLICÓ en diciembre de 2013, su
estudio anual sobre el Universo Digital de IDC,
patrocinado por EMC: “Big Data, Bigger Digital
Shadow s, and Biggest Grow th in the Far East ”. El
a pesar de la expansión sin
precedentes del Universo Digital debido a el
Big Data que se generan a diario por
personas y máquinas, IDC estima que solo
0,5% de los datos mundiales se analizan.
estudio arrojó que,
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –11–
12. EL UNIVERSO DIGITAL DE DATOS, 2013
La proliferación a nivel mundial de dispositivos, como PC y
teléfonos inteligentes, aumentó el acceso a Internet
dentro de los mercados emergentes, y el incremento de
datos generados por máquinas, como cámaras de
vigilancia o contadores inteligentes, ha contribuido a la
duplicación del Universo Digital en los
últimos dos años solamente, hasta alcanzar
un tamaño descomunal de 2,8 ZB. IDC
proyecta que, para el 2020, el Universo Digital
alcanzará 40 ZB, cifra que supera las
proyecciones anteriores por 14%.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –12–
13. EL UNIVERSO DIGITAL DE DATOS, 2013
En términos de volumen, 40 ZB de datos son
equivalentes a lo siguiente:
Existen 700.500.000.000.000.000.000 granos de arena en todas las
playas del mundo (o setecientos trillones quinientos mil billones). Esto
significa que 40 ZB equivalen a 57 veces la cantidad de
granos de arena de todas las playas del mundo. Si
pudiéramos guardar los 40 ZB en los discos Blue-ray de la actualidad,
el peso de dichos discos (sin fundas ni estuches) sería equivalente a
424 portaaviones Nimitz. En 2020, 40 ZB serán 5.247 GB por persona
a nivel mundial.
Referencia: America Economia:
http://tecno.americaeconomia.com/noticias/el-granuniverso-digital-la-data-crece-mas-rapido-de-lo-quepodemos-protegerla
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –13–
14. El universo digital de datos, IDC 2013
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Pina –14–
15. El universo digital de datos, 2013
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –15–
16. OPEN DATA (Datos abiertos)
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –16–
17. OPEN DATA (Datos abiertos)
Las administraciones públicas [de
cualquier organismo nacional e
internacional] generan gran cantidad de
información en formatos propios de difícil
acceso para la mayoría de los ciudadanos.
Bases de datos, listas, estudios, informes,
estadísticas, etc. son datos abiertos (open
data ) en formatos propios que son de
difícil acceso para la mayoría de los
ciudadanos.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –17–
18. OPEN DATA (Datos abiertos)
Evidentemente estos datos se almacenan
normalmente en centros de datos propios
de las administraciones que a su vez se
almacenan y gestionan en nubes públicas o
privadas
¿Qué necesitan los profesionales o las
empresas para sacar rentabilidad a esos
datos públicos? Evidentemente la
colaboración de las entidades públicas para
liberar cada día más información y crear
más oportunidades de negocio
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –18–
19. ¿Qué son datos abiertos?
Los Datos Abiertos constituyen una iniciativa
de transparencia y Gobierno Abierto que
consiste en la liberación de conjuntos de
datos que son de interés público. Los Datos Abiertos
son puestos a disposición de la sociedad, se promueve su libre acceso y
reutilización, exceptuando aquellos datos que por razones de seguridad y
privacidad previstas en la normativas vigentes no puedan ser publicados;
La mayor parte de los datos generados o mantenidos por el
estado son públicos. Sin embargo, no sólo el estado puede abrir
sus datos: empresas, organizaciones y comunidades de
información que producen o mantienen datos pueden ponerlos a
disposición, siempre en formatos abiertos y bajo licencias libres.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –19–
20. OPEN DATA (Datos abiertos)
La administración de Estados Unidos
inició la iniciativa Open Data y en
paralelo la Unión Europea ha ido
adoptando también la iniciativa.
En España los primeros gobiernos han
sido los Gobiernos Autonómicos de El
Principado de Asturias y el País
Vasco.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –20–
21. OPEN DATA (Datos abiertos)
La iniciativa del Gobierno Vasco se ha
plasmado en la puesta en funcionamiento
de Open Data Euskadi que pretende crear
un sitio web donde la información
reutilizable (contenidos abiertos) estén al
alcance de cualquier ciudadano.
Un estudio de la UE(2010) estima que el
mercado de información pública podría
generar riqueza por valor de 27.000
millones de euros.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –21–
22. OPEN DATA EN LATAM…
MÉXICO
Portal de datos abiertos del Distrito Federal
//df.gob.mx
Ayuntamiento de Puebla (octubre 2013)
ha lanzado una iniciativa de Open Data
… Periódico “M ilenio ”
ARGENTINA… Portal de datos abiertos de
Buenos Aires
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –22–
23. OPEN DATA EN LATAM…
Colombia
Portal de Datos Abiertos del gobierno
http://datosabiertoscolombia.cloudapp.ne
t/frm/buscador/frmBuscador.aspx
Perú
Portal de Datos Abiertos de la Municipalidad de
Lima
Portal de Datos Abiertos:
http://www.datosperu.org/
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –23–
24. INICIATIVAS PIONERAS
INTERNACIONALES EN OPEN DATA
En España… además de los gobiernos autonómicos
de Asturias, País Vasco y Cataluña, la fundación CTIC
ligada al consorcio W3C (www.fundacionctic.org).
http://datos.gob.es/datos
En Estados Unidos data.gov, en Gran
Bretaña data.gov.uk
En Google (abril 2011, del número 1) la revista de
negocios. //thinkquarterly.co.uk. El número 1 dedicado
a OPEN DATA.
En la Unión Europea (Iniciativa OPEN DATA):
http://open-data.europa.eu/es (27.12.2013)
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –24–
25. México, DF
BI G DATA Y ANALÍ TI CA
DE DATOS.
Nuevas bases de datos
NoSQL, “I n-M em ory”…
Prof. Luis Joyanes Aguilar
25
27. Harvard Business Review , octubre 2012
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –27–
28. Foreign Affairs , mayo 2013
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –28–
29. Revista BBVA, innovation edge, junio 2013
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –29–
30. LA AVALANCHA DE DATOS
Según Eric Schmidt, presidente ejecutivo de Google, entre el
origen de la tierra y el 2003 se crearon cinco exabytes de
información. Hoy en día creamos la misma cifra cada dos
días2. Las previsiones aseguran que en esta década
crearemos alrededor de 35 zettabytes (40 ZB, informe de
diciembre de 2012)
Según la consultora IDC, cifran en 1,8 Zettabytes la
información generada en 2011. Si tratáramos de almacenar
esa información en iPads (del modelo de 32GB)
necesitaríamos 57.500 millones; puestos unos al lado de
otro formaríamos una línea que daría 3 veces la vuelta al
mundo y, si tratáramos de apilarlos, la “montaña” resultante
sería 25 veces más alta que el monte Fuji.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –30–
31. LA AVALANCHA DE DATOS
Twitter: (redes sociales)
90 millones de tuits (tweets) por día que representa 8
Terabytes.
Boeing: (industria)
Vuelo transoceánico de un jumbo puede generar 640
Terabytes.
Wal-Mart: (comercio)
1 millón de transacciones por hora que se estima que
alimenta una base de datos de 2.5 petabytes.
Google procesa al día 20 PB de información
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –31–
32. © Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –32–
33. © Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –33–
34. BIG DATA, bbva edge, junio 2013
Fuentes:
SAS | Big Data: www.sas.com/big-data.
IBM | Big Data at the Speed of Business
McKinsey Global Institute | Big Data: The next
frontier for innovation, competition, and
productivity, junio 2011.
Fuente:
Intel | What Happens in an Internet Minute?
www.intel.com/content/www/us/en/communic
ations/internet-minute-infographic.html
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –34–
35. EXP ANSI ÓN, de W all Street Journal, 1 de
abril 2013
01.04.2013 S. Rosenbush / M. Totty. WSJ. Las empresas
están buscando la mejor forma de aprovechar el exceso
de información.
La información abunda y las empresas están buscando la
mejor forma de aprovecharla. Los expertos ya bautizaron
este fenómeno como big data. La definición es amorfa,
pero normalmente significa lo siguiente: las empresas
tienen acceso a mucha más información que antes, que
proviene de muchas más fuentes y la obtienen casi al
momento en que se genera.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –35–
36. EXP ANSI ÓN, de W all Street Journal, 1 de
abril 2013
El concepto de big data a menudo se relaciona con las empresas que
ya operan en el mundo de la información, como Google, Facebook y
Amazon. Pero compañías en múltiples industrias están
colocando los datos en el corazón de sus operaciones. Están
recolectando cantidades enormes de información, a menudo
combinando indicadores tradicionales como las ventas, con
comentarios de redes sociales e información de ubicación que
viene de los dispositivos móviles. Las empresas escudriñan esta
información para mejorar sus productos, recortar gastos y mantener
la fidelidad de sus clientes.
Las firmas de logística, por ejemplo, instalan sensores en sus
camiones para detectar formas de acelerar las entregas. Los
fabricantes revisan miles de publicaciones en foros de Internet para
determinar si a los clientes les gusta una nueva característica. Los
gerentes de personal estudian cómo los candidatos a un empleo
responden preguntas para ver si encajan bien con la compañía.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –36–
37. EXP ANSI ÓN, de W all Street Journal, 1 de
abril 2013
Aún quedan numerosos obstáculos en el camino.
Algunos son técnicos, pero en la mayoría de las
empresas las decisiones se siguen basando en la
opinión de la persona con el salario más alto y
podría ser difícil convencer a un ejecutivo de que
los datos superan su intuición.
Los recursos humanos, las operaciones, el
desarrollo de productos o el márketing son las
diferentes formas a través de las cuales las
empresas usan el poder de la información para
transformar sus negocios.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –37–
38. EXP ANSI ÓN, de W all Street Journal, 1 de
abril 2013 (casos de estudio)
UPS
UPS comenzó a instalar sensores en sus vehículos de
reparto para conocer su velocidad y ubicación, si el
cinturón de seguridad del conductor está abrochado... Al
combinar su información de GPS y los datos de sensores
sobre rendimiento en más de 46.000 vehículos, UPS
recortó 136 millones de kilómetros de sus rutas.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –38–
39. EXP ANSI ÓN, de W all Street Journal, 1 de
abril 2013 (casos de estudio)
InterContinental
La cadena hotelera InterContinental ha recabado
información sobre los 71 millones de miembros de
su programa Priority Club, como niveles de
ingresos y preferencias sobre las instalaciones. El
grupo consolidó la información en un solo
almacén de datos que reúne información de redes
sociales y procesa búsquedas más rápido
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –39–
40. LA AVALANCHA DE DATOS
Según Eric Schmidt, presidente ejecutivo de Google, entre el
origen de la tierra y el 2003 se crearon cinco exabytes de
información. Hoy en día creamos la misma cifra cada dos
días2. Las previsiones aseguran que en esta década
crearemos alrededor de 35 zettabytes (40 ZB, informe de
diciembre de 2012)
Según la consultora IDC, cifran en 1,8 Zettabytes la
información generada en 2011. Si tratáramos de almacenar
esa información en iPads (del modelo de 32GB)
necesitaríamos 57.500 millones; puestos unos al lado de
otro formaríamos una línea que daría 3 veces la vuelta al
mundo y, si tratáramos de apilarlos, la “montaña” resultante
sería 25 veces más alta que el monte Fuji.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –40–
41. DEFINICIÓN DE BIG DATA: IBM
What is big data?*
Every day, we create 2.5 quintillion bytes of data — so
much that 90% of the data in the world today has
been created in the last two years alone. This data
comes from everywhere: sensors used to gather
climate information, posts to social media sites, digital
pictures and videos, purchase transaction records, and
cell phone GPS signals to name a few. This data is big
data.
* www-01.ibm.com/software/data/bigdata/
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –41–
42. DEFINICIÓN DE BIG DATA: IBM
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –42–
43. © Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –43–
44. DEFINICIÓN DE BIG DATA: IBM
VOLUMEN de datos
procesados por las
empresas ha crecido significativamente.
Google procesa 20 petabytes al día
En 2020 se esperan 42.000 millones
de pagos electrónicos.
La Bolsa de Nueva York genera UN
terabyte de datos al día
Twitter genera 8 TB
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –44–
45. DEFINICIÓN DE BIG DATA: IBM
VELOCIDAD. Rapidez con la que se accede
a los datos. La velocidad del movimiento,
proceso y captura de datos, dentro y fuera
de la empresa ha aumentado
considerablemente.
Flujo de datos a alta velocidad.
eBay se enfrenta al fraude a través
de PayPal analizando cinco millones
de transacciones en tiempo real al día.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –45–
46. DEFINICIÓN DE BIG DATA: IBM
VARIEDAD: Big data es cualquier tipo de
dato – estructurado y no estrutcturado - tales
como texto, datos de sensores, datos entre
máquinas (M2M), archivos “logs”, audio,
vídeo, flujos de clicks, XML, datos en
streaming, cotizaciones bursátiles, medios
sociales,
Una creciente variedad de datos
necesitan ser procesados y convertidos a
información
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –46–
47. DEFINICIÓN DE BIG DATA: IBM
Según otras definiciones de Big Data
de fabricantes, consultoras, NIST, etc.
existen otras propiedades de los big
data:
Veracidad de los datos
Valor de los datos
Viabilidad de la infraestructuras y las
herramientas de almacenamiento
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –47–
48. Modelo 3V de Big Data
VOLUMEN
• Terabytes
• Records
• Transactions
• Tables, files
VELOCIDAD
• Batch (por lotes)
• Near time (casi a tiempo)
• Real time (tiempo real)
• Streams (flujos)
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
VARIEDAD
Estructurado
No estructurado
Semi-estructurado
Todos los demás
Página –48–
49. Fuentes de Big Data
Herramientas para análisis de datos en grandes
volúmenes de datos. Infraestructuras de Big Data
Fuentes de Big Data (Soares 2012):
Web y Social media
Machine-to-Machine (M2M, Internet de
las cosas)
Biometria
Datos de transacciones de grandes datos
(salud, telecomunicaciones…)
Datos generados por las personas
(humanos)
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –49–
50. Store.com
Sunil Soares (2003). Big Data Governance Emerging
Imperative. Boise. MC Press Online. El autor de este
libro mantiene un blog excelente sobre Big Data y
Gobierno de Big Data
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –50–
51. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
1. Web y Social Media: Incluye contenido web e información
que es obtenida de las medios sociales como Facebook, Twitter,
LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs
de periódicos y televisiones, wikis como MediaWiki, Wikipedia,
marcadores sociales como Del.icio.us, Stumbleupon…
agregadores de contenidos como Dig, Meneame… En esta
categoría los datos se capturan, almacenan o distribuyen
teniendo presente las características siguientes: Datos de los
flujos de clics, tuits, retuits o entradas en general (feeds) de
Twitter, Tumblr…, Entradas (posting) de Facebook y contenidos
web diversos.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –51–
52. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
2. M achine-to-M achine (M 2M )/ I nternet de las
cosas : M2M se refiere a las tecnologías que permiten conectarse a
otros diferentes dispositivos entre sí. M2M utiliza dispositivos como
sensores o medidores que capturan algún evento en particular
(humedad, velocidad, temperatura, presión, variables meteorológicas,
variables químicas como la salinidad, etc.) los cuales transmiten a
través de cableadas, inalámbricas y móviles a otras aplicaciones que
traducen estos eventos en información significativa. La comunicación
M2M ha originado el conocido Internet de las cosas o de los objetos.
Entre los dispositivos que se emplean para capturar datos de esta
categoría podemos considerar chips o etiquetas RFID, chips NFC,
medidores (de temperaturas, de electricidad, presión…). sensores,
dispositivos GPS… y ocasionan la generación de datos mediante la
lectura de los medidores, lecturas de los RFID y NFC, lectura de los
sensores, señales GPS, señales de GIS, etc.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –52–
53. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
3.Big Data transaccionales: Grandes datos transaccionales
procedentes de operaciones normales de transacciones de todo
tipo. Incluye registros de facturación, en telecomunicaciones
registros detallados de las llamadas (CDR), etc. Estos datos
transaccionales están disponibles en formatos tanto
semiestructurados como no estructurados. Los datos generados
procederán de registros de llamada de centros de llamada,
departamentos de facturación, reclamaciones de las personas,
presentación de documentos…
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –53–
54. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
4. Biom etría : La biometría o reconocimiento biométrico.
La información biométrica se refiere a la identificación
automática de una persona basada en sus características
anatómicas o trazos personales. Los datos anatómicos se
crean a partir de las características físicas de una persona
incluyendo huellas digitales, iris, escaneo de la retina,
reconocimiento facial, genética, DNA, reconocimiento de
voz, incluso olor corporal etc. Los datos de
comportamiento incluyen análisis de pulsaciones y
escritura a mano. Los avances tecnológicos han
incrementado considerablemente los datos biométricos
disponibles
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –54–
55. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
. En el área de seguridad e inteligencia, los datos
biométricos han sido información importante para las
agencias de investigación. En el área de negocios y de
comercio electrónico los datos biométricos se pueden
combinar con datos procedentes de medios sociales lo
que hace aumentar el volumen de datos contenidos en los
datos biométricos. Los datos generados por la biometría
se pueden agrupar en dos grandes categorías: Genética y
Reconocimiento facial.
“An Overview of Biometric Recpgnition”.
http://biometrics.cse.nsu.edu/info.html
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –55–
56. Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
5. Datos generados por las personas : Las personas
generan enormes y diversas cantidades de datos como la
información que guarda un centro de llamadas telefónicas
(call center) al establecer una llamada telefónica, notas de
voz, correos electrónicos, documentos electrónicos,
estudios y registros médicos electrónicos, recetas
médicas, documentos papel, faxes, etc. El problema que
acompaña a los documentos generados por las personas es que
pueden contener información sensible de las personas que necesita,
normalmente ser oculta, enmascarada o cifrada de alguna forma para
conservar la privacidad de dichas personas. Estos datos al ser
sensibles necesitan ser protegidos por las leyes nacionales o
supranacionales (como es el caso de la Unión Europea o Mercosur)
relativas a protección de datos y privacidad.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –56–
57. Estructura de Big Data: tipos de datos
Estructurados
No estructurados
No estructurados (texto, datos de vídeo, datos de audio,,,)
Semiestructurados ( a veces se conocen como
“multiestructurados”. Tienen un formato y flujo lógico de modo
que pueden ser entendidos pero el formato no es amistoso al
usuario(HTML. XML…, datos de web logs)
Normalmente, se suelen asociar los datos
estructurados a los tradicionales y los datos no
estructurados a los Big Data
Objetivo principal de los sistemas de gestión de
datos: Integración de datos estructurados y no
estructurados
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –57–
58. ESTADO ACTUAL DE BIG DATA
1. Almacenamiento:
hacen falta nuevas tecnologías de almacenamiento
2. Bases de datos:
las BD relacionales no pueden con todo
3. Procesado:
se requieren nuevos modelos de programación
4. Obtención de valor:
los datos no se pueden comer crudos (en bruto)
La información no es conocimiento “accionable”
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –58–
59. 1. Almacenamiento
Hacen falta nuevas tecnologías de
almacenamiento
RAM vs HHD
Memorias hardware. HHD 100 más barato que RAM
pero 1000 veces más lento
Solución actual:
Solid- state drive (SSD) adem ás no volátil
Tecnologías “in-m em ory” (SAP HANA… )
Investigación:
Storage Class Memory (SCM)
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –59–
60. 2. Base de datos
Las BD relacionales no pueden con
todo
Base de datos
volumen de la información
GBs
PBs Tiempo de ejecución
Exabytes …. Cada día más populares
Limitadas para almacenamiento de “big data”
(ACID, SQL, …)
ACID: Atomicity, Consistency, Isolation & Durability
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –60–
61. 3. Procesado … HADOOP
Se requieren nuevos modelos de programación
para manejarse con estos datos
Solución: Para conseguir procesar grandes conjuntos de
datos:
MapReduce
Pero fue el desarrollo de Hadoop MapReduce,
por parte de Yahoo, el que ha propiciado un ecosistema
de herramientas open source os Google creó el modelo
de programación MapReduce
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –61–
62. 4. Obtención de valor
Los datos no se pueden comer ·crudos” (en bruto)
la información no es conocimiento accionable
Para ello tenemos técnicas de
Data M ining
• Asociación
• Clasificación
• Clustering
• Predicción
• ...
La mayoría de algoritmos se ejecutan bien
en miles de registros, pero son hoy por hoy
impracticables en miles de millones.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –62–
63. Bases de datos
I n-M em ory (en-memoria)
SAP Hana
Oracle Times Ten
In-Memory Database
IBM solidDB
Relacionales
Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…
Transferencia de datos entre Hadoop y bases de datos
relacionales
Legacy (jerárquicas, en red… primeras relacionales…)
NoSQL (Cassandra, Hive, mongoDB,
CouchDB, Hbase…)
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –63–
64. BASES DE DATOS ANALÍTICAS
Analíticas: para permitir a múltiples usuarios contestar
rápidamente preguntas de negocio que requieran de grandes
volúmenes de información.
Bases de datos de procesamiento
paralelo masivo (MPP)
Bases de datos “en memoria”
Almacenamiento en columnas
Históricamente estas bases de datos tan especializadas
tenían un costo muy elevado, pero hoy el mercado nos
ofrece varias alternativas que se adaptan al presupuesto de
cada organización.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –64–
65. Bases de datos analíticas
Bases de datos diseñadas específicamente para ser
utilizadas como motores de Data Warehouse.
Estas bases de datos logran procesar grandes volúmenes de
información a velocidades asombrosas, gracias a la aplicación de
diferentes conceptos y tecnologías:
Almacenamiento en columnas en lugar de filas
(registros)
Massively parallel processing (MPP)
n-M em ory Analytics
I
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –65–
66. © Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –66–
67. Almacenamiento en columnas, no filas:
FUENTE: datalytics.com
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –67–
68. Computación en memoria “In-Memory”
La computación en memoria es una
tecnología que permite el procesamiento de cantidades
masivas de datos en memoria principal para proporcionar
resultados inmediatos del análisis y de las transacciones.
Los datos a procesar, idealmente son datos en tiempo
real (es decir, datos que están disponibles para su
procesamiento o análisis inmediatamente después
que se han creado).
Existen un amplio conjunto de tecnologías que emplean
bases de datos en memoria. SAP HANA es una de las
más acreditadas y populares… (Oracle, IBM,…)
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –68–
69. BASES DE DATOS RELACIONALES
(REPASO)
La mayoría de las bases de datos cumplen con las
propiedades ACID (atomicity, consistency,
isolation, durability). Estas propiedades garantizan un
comportamiento de las base de datos relacionales y el mejor de los
argumentos para su utilización.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –69–
70. BASES DE DATOS NoSQL
Las bases de datos no-relacionales son comúnmente
llamadas bases de datos NoSQL ya que la gran mayoría
de ellas comparte el hecho de no utilizar el lenguaje SQL
para realizar las consultas
Es una definición controvertida, aunque la definición más
aceptada es “Not only SQL”.
Una de las características de las bases de datos no
relacionales es que la mayoría de ellas no utilizan
esquemas de datos rígidos como las bases de datos
relacionales. Esto hace que estas bases de datos también
se les llame “Schema-less” o “Schema-free
(“almacenamiento des-estructurado”).
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –70–
71. Taxonomía de Bases de datos NoSQL
Los principales tipos de BBDD de acuerdo con su
implementación son los siguientes:
– Almacenes de Clave-Valor
– Almacenes de Familia de Columnas (colum nares )
– Almacenes de documentos (orientadas a
documentos)
– Almacenes de Grafos (orientadas a grafos)
- Cachés de memoria
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –71–
72. SOLUCIONES DE BASES DE DATOS NoSQL
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –72–
73. ¿Quién usa Apache Cassandra?
Algunos usuarios importantes de Cassandra son:
Digg
Facebook
Twitter
Rackspace
SimpleGEO
…
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –73–
74. Integración con Big Data.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
FUENTE: datalytics.com
Página –74–
75. Integración con Big Data.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
FUENTE: datalytics.com
Página –75–
77. Logo de HADOOP
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –77–
78. Logo de HADOOP
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –78–
79. TECNOLOGÍAS BIG DATA (HADOOP)
Datos de la consultora IDC de agosto de 2012 prevén que el
mercado del software relacionado con los fram ew ork
open source Apache Hadoop y el MapReduce de
Google crecerá a un ritmo anual de más del 60% hasta el
año 2016.
La popularidad de Hadoop se ha ido incrementando durante
los últimos meses, a medida que las empresas necesitan
manejar grandes cantidades de datos estructurados y no
estructurados para después analizarlos y ser capaces de
tomar decisiones lo más favorables posible para sus negocios.
IDC también espera que el mercado de Hadoop-MapReduce evolucione y
que poco a poco comienza a introducirse en los sistemas empresariales.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –79–
80. Hadoop
“The Apache Hadoop software library is a
framework that allows for the distributed
processing of large data sets across
clusters of computers using a simple
Programming model”
De la página de Hadoop
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –80–
81. TECNOLOGÍAS BIG DATA (HADOOP)
Hadoop es un proyecto de software open source que
provee un framework para habilitar el procesamiento
distribuido de grandes conjuntos de datos sobre clusters
construidos con hardware genérico. En esencia, Hadoop
consiste de dos elementos base: un sistema de archivos
distribuido (Hadoop Distributed File System, HDFS) y un
motor de procesamiento de datos que implementa el
modelo Map/Reduce (Hadoop MapReduce). Sin embargo,
conforme ha ido ganando adopción y madurez, también
se han ido creando tecnologías para complementarlo y
ampliar sus escenarios de uso, de tal forma que hoy en
día el nombre “Hadoop” no se refiere a una sola
herramienta sino a una familia de herramientas alrededor
de HDFS y MapReduce.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –81–
82. What Is Apache Hadoop? (Fundación Apache)
The Apache™ Hadoop® project develops open-source
software for reliable, scalable, distributed computing.
The Apache Hadoop software library is a framework that
allows for the distributed processing of large data sets
across clusters of computers using simple programming
models. It is designed to scale up from single servers to
thousands of machines, each offering local computation
and storage. Rather than rely on hardware to deliver highavaiability, the library itself is designed to detect and
handle failures at the application layer, so delivering a
highly-availabile service on top of a cluster of computers,
each of which may be prone to failures.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –82–
83. Historia de HADOOP
● 2004-2006
– Google publica los papers de GFS y MapReduce
– Doug Cutting implementa una version Open Source en
Nutch
● 2006-2008
– Hadoop se separa de Nutch
– Se alcanza la escala web en 2008
● 2008-Hasta ahora
– Hadoop se populariza y se comienza a explotar
comercialmente.
Fuente: Hadoop: a brief history. Doug Cutting
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –83–
84. Historia de Hadoop: Doug Cutting
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –84–
85. Logo de HADOOP
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –85–
86. Logo de HADOOP
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –86–
87. © Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –87–
88. Fundación Apache: proyectos open source
The Apache Software Foundation provides support
for the Apache community of open-source software
projects, which provide software products for the
public good
The Apache Software Foundation provides support for the
Apache community of open-source software projects,
which provide software products for the public good
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –88–
89. TECNOLOGÍAS BIG DATA (HADOOP)
Datos de la consultora IDC de agosto de 2012 prevén que el
mercado del software relacionado con los fram ew ork
open source Apache Hadoop y el MapReduce de
Google crecerá a un ritmo anual de más del 60% hasta el
año 2016.
La popularidad de Hadoop se ha ido incrementando durante
los últimos meses, a medida que las empresas necesitan
manejar grandes cantidades de datos estructurados y no
estructurados para después analizarlos y ser capaces de
tomar decisiones lo más favorables posible para sus negocios.
IDC también espera que el mercado de Hadoop-MapReduce evolucione y
que poco a poco comienza a introducirse en los sistemas empresariales.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –89–
90. Componentes HADOOP (Apache)
The project includes these modules:
Hadoop Common: The common utilities that support
the other Hadoop modules.
Hadoop Distributed File System (HDFS™): A
distributed file system that provides high-throughput
access to application data.
Hadoop YARN: A framework for job scheduling and
cluster resource management.
Hadoop MapReduce: A YARN-based system for parallel
processing of large data sets.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –90–
91. Hadoop
Apache Hadoop es un framework que permite el
tratamiento distribuido de grandes cantidades de datos
(del orden de peta bytes) y trabajar con miles de
máquinas de forma distribuida. Se inspiró en los
documentos sobre MapReduce y Google File System
publicados por Google.
Está desarrollado en Java y se ejecuta dentro de la JVM.
Actualmente está soportado por Google, Yahoo e IBM
entre otros. También existen empresas como Cloudera
(http://www.cloudera.com/) que ofrecen soluciones
empresariales Open Source basadas en Hadoop.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –91–
92. Hadoop
Las características principales de Hadoop son
Económico: Está diseñado para ejecutarse en equipos de
bajo coste formando clústeres. Estos clústeres pueden
llevarnos a pensar en miles de nodos de procesamiento
disponibles para el procesado de información.
• Escalable: Si se necesita más poder de procesamiento o
capacidad de almacenamiento solo hay que añadir más
nodos al clúster de forma sencilla.
• Eficiente: Hadoop distribuye los datos y los procesa en
paralelo en los nodos donde los datos se encuentran
localizados.
• Confiable: Es capaz de mantener Es capaz de mantener
múltiples copias de los datos y
© Luis Joyanes Aguilar
automáticamente hacer un re-despliegue de las tareas
Alfaomega
México DF, 14 DE octubre de 2013
Página –92–
93. Hadoop
El diseño de Hadoop se divide en dos partes
principales:
Por un lado está el sistema de ficheros distribuido
Hadoop Distributed File System (HDFS) que
se encarga de almacenar todos los datos repartiéndolos
entre cada nodo de la red Hadoop.
Por otro lado la implementación de MapReduce que se
encarga del procesamiento de la información de forma
distribuida.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –93–
95. © Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –95–
96. Hadoop en la actualidad
Hadoop se puede utilizar en teoría para casi cualquier tipo
de trabajo batch, mejor que ha trabajos en tiempo real,
ya que son más fáciles de dividir y ejecutar en paralelo.
Entre lo campos actuales a aplicación se encuentran:
• Análisis de logs
• Análisis de mercado
• Machine learning y data mining
• Procesamiento de imágenes
• Procesamiento de mensajes XML
• Web crawling
• Indexación
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –96–
97. Hadoop en la actualidad
Actualmente Hadoop es un framework muy extendido en
el ámbito empresarial, sobre todo en compañías que
manejan grandes volúmenes de datos. Entre las que
podemos descarta las siguientes empresas:
Yahoo: La aplicación Yahoo! Search Webmap está
implementado con Hadoop sobre un clúster de mas de
10.000 nodos Linux y la información que produce es la
utilizada por el buscador de Yahoo.
Facebook: Tiene ha día de hoy el mayor clúster Hadoop
del mundo que almacena hasta 30 peta bytes de
información
Amazon A9: Se utiliza para la generar índices de búsqueda de los
productos ofertados en el portal. Disponen de varios clústeres de entre 1 y
100 nodos
© Luis Joyanes Aguilar
cada uno.
Alfaomega
México DF, 14 DE octubre de 2013
Página –97–
98. Hadoop en la actualidad
The New York Times: Utiliza Hadoop y EC2 (Amazon
Elastic Compute Cloud) para convertir 4 Tera bytes de
imágenes TIFF en imágenes PNG de 800 K para ser
mostradas en la Web en 36 horas.
Además existen compañías cuyo negocio es principal es
Hadoop, como Cloudera, que comercializa CDH
(Cloudera's Distribution including Apache Hadoop), que da
soporte en la configuración y despliegue de clústeres
Hadoop. Además proporciona servicios de consultoría y
formación en estas tecnología. Todo el software que
distribuyen es Open Source.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –98–
100. Proveedores de Big Data
Algunos han desarrollado sus propias distribuciones de
Hadoop (con diferentes niveles de personalización:
disponibilidad, rendimiento, replicas …). Una distribución
muy popular:
MapR, Greenplum,
Hortonworks, …
Otros ejemplos:
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –100–
101. ANALÍTICA DE BIG DATA
Cloudera
EMC Greenplum
IBM
Impetus Technologies
Kognitio
ParAccel
SAP
SAND Technology
SAS
Tableau Software
Teradata
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –101–
102. OP OR TUNI DADES Y NUEVAS
P R OFESI ONES TECNOLÓGI CAS
Y DE COM UNI CACI ÓN
DEM ANDADAS P OR LAS
EM P R ESAS
Prof. Luis Joyanes Aguilar
102
103. NECESIDAD DE FORMACIÓN PROFESIONAL
AVANZADA EN CLOUD COM P UTI NG-BI G
DATA
El mercado tiene carencia de especialistas en Cloud
Computing y sobre todo en Big Data. Hay miles de puestos que se
deberán cubrir en los próximos cinco años según estadísticas fiables de IDC,
Gartner, Forrester, McKinsey…
UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE
ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de
datos) y además ANALISTAS DE DATOS (formados en
Analytics y tecnologías Big Data ·Hadoop”, “InMemory”…)
Se necesitan certificaciones profesionales en CLOUD
COM P UTI NG Y BI G DATA… “TECNOLÓGI CAS Y DE
NEGOCI OS”
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –103–
104. NUEVAS CARRERAS UNIVERSITARIAS:
maestrias,ingeniería, diplomados…
Com m unity M anager, Social M edia
M anager y Analista Web y SEO
I ngeniero de Cloud Com puting (En España hay
una universidad privada que lo lanza el próximo curso)
I ngeniero de negocios digitales (Digital
Business Intelligence)
I ngeniero de datos (Infraestructuras, Bases de datos
NoSQL, Hadoop, Tecnologías “in-memory”…)
Analítica de datos ( Analytics) y Analítica de
Big Data
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –104–
105. NUEVAS CARRERAS Y PROFESIONES
Community Manager , Social Media Manager,
SEO, Analistas Web … cada día son más demandadas y.
Sin embargo la profesión del futuro será:
EL CIENTÍFICO DE DATOS (Data Scientist ).
Un profesional con formación de Sistemas,
Estadística, Analítica, Ciencias Físicas y
Biológicas… que analizará los Big Data para la
toma de decisiones eficientes y obtener
rentabilidad en los negocioS.
HBR (Harvard Business Review lo declaró la
profesión “MÁS SEXY del siglo XXI”…)
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –105–
106. LAS TITULACIONES-PROFESIONES MÁS
DEMANDADAS en TIC EN PRÓXIMOS AÑOS
(HBR, Harvard Business Review ) número de octubre
de 2012 (Los datos, el nuevo petróleo/oro del siglo XXI):
Ciencia de los datos: Data Science
(Maestría/Doctorado) … En Estados Unidos, México
y Europa… ya existen iniciativas. (EN MÉXICO, el
ITAM)
LA PROFESIÓN MÁS SEXY DEL SIGLO XXI : EL
CIENTÍFICO DE DATOS (Data Scientist ) /
INGENIERO DE DATOS
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –106–
107. MUCHAS GRACIAS … ¿Preguntas?
Tw itter:@luisjoyanes
w w w .facebook.com / joyanesluis
w w w .slideshare.net/ joyanes
P ortal GI SSI C “El Ágora de Latinoam érica”:
gissic.w ordpress.com
P ORTAL NTI CS : luisjoyanes.w ordpress.com
CORREO-e:
luis. joyanes@upsam.es
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –107–
109. BIBLIOGRAFÍA BÁSICA
JOYANES, Luis (2012). Com putación en
la nube. Estrategias de cloud
com puting para las em presas . México
DF: Alfaomega; Barcelona: Marcombo
BI G DATA. El
análisis de los grandes volúm enes de
datos. M éx ico DF: Alfaom ega; Barcelona:
JOYANES, Luis (2013).
Marcombo
Colección de libros NTiCS (Negocios, Tecnología, Innovación,
Conocimiento y Sociedad) dirigida por el profesor Luis
Joyanes y publicada en la editorial Alfaomega de México DF.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –109–
110. BIBLIOGRAFÍA BÁSICA
JOYANES, Luis. “Computación en "Nube" (Cloud
Computing) y Centros de Datos la nueva revolución
industrial ¿cómo cambiará el trabajo en
organizaciones y empresas?”. Sociedad y Utopía.
UPSA: Madrid. , ISSN 1133-6706, Nº 36, 2010, págs.
111-127.
JOYANES, Luis (2009a) “La Computación en
Nube(Cloud Com puting) :El nuevo paradigma
tecnológico para empresas y organizaciones en la
Sociedad del Conocimiento” , ICADE, nº 76, eneromarzo 2009, Madrid: Universidad Pontificia Comillas.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –110–
111. ÚLTIMOS LIBROS DEL prof. LUIS
JOYANES
Ciberseguridad. Retos y desafíos para
la defensa nacional en el ciberespacio.
Madrid: IEEE (Instituto Español de Estudios
Estratégicos). 2011. Editor y Coordinador.
www.ieee.org
Cuadernos de estrategia, nº 149
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –111–
112. Blogs tecnológicos
TechCrunch (www.techcrunch.com)
Gizmodo (www.gizmodo.com, www.gizmodo.es)
Boing Boing (www.boingboing.com)
Engadget (www.engadget.com)
The Official Google Blog (googleblog.blospot.com)
O´Reilly (www.oreillynet.com)
Slahdot (www.slahdot.com)
Microsiervos (www.microsiervos.com)
Xataca (www.xataca.com)
All Things Digital (allthingsd.com)
Mashable (www.mashable.com)
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –112–
113. LECTURAS RECOMENDADAS
NIST
Cloud Security Alliance
ISACA
BBVA, BANKINTER, Accenture…
ENISA
Cio.com, Computing.es, Computerworld
ONTSI. Cloud computing. Retos y
oportunidades.
www.ontsi.red.es/ontsi/sites/default/files/1_estudio_cloud_computing_retos_y_oportunidades_vdef.pdf
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –113–
114. BIBLIOGRAFÍA
Innovation Edge , revista BBVA, junio 2013
https://www.centrodeinnovacionbbva.com/innova
tion-edge/21-big-data
SOARES, Sunil (2013). Big Data Governance. An
emerging Imperative. Boise, USA: MC Press.
DAVENPORT, Thomas H. y DYCHÉ, Jill. Big Data in Big
Companies. SAS. International Institute for Analytics.
Datalytics. 18D – Pentaho Big Data Architecture,
www.datalytics.com (Pentaho)
Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . Inmemory Computing with SAP HANA on IBM eX5
Systems. ibm.com/redbooks. Draft Document for
Review December 7, 2012 1:59 pm SG24-8086-00
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –114–
115. BIBLIOGRAFÍA
ZIKOPOULOS, Paul C. et al (2012). Understanding Big
Data. Analytics for Enterprise Class Hadoop and Streaming
Data. New York: McGraw-Hill.
www-01.ibm.com/software/data/bigdata/
ZIKOPOULOS, Paul C. et al (2013). Harness the Power
of Big Data. The IBM Big Data Platform. New York:
McGraw-Hill. Descargable libre en IBM.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –115–
116. © Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –116–
117. REFERENCIAS
McKinsey Global Institute . Big data: The
next frontier for innovation, competition, and
productivity. June 2011
James G. Kobielus. The Forrester Wave™:
Enterprise Hadoop Solutions, Q1 2012, February
2, 2012.
www-01.ibm.com/software/data/bigdata/
Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No
Relacionales (NoSQL). Facultad de Ingeniería,
Universidad de Deusto. www.morelab.deusto.es
http://paginaspersonales.deusto.es/dipina
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –117–
118. REFERENCIAS
Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER
2011. TDWI.org
IBM. http://www-01.ibm.com/software/data/bigdata/
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –118–
119. LECTURAS RECOMENDADAS (historia
del cloud )
KING, Rachael (2008): “How Cloud Computing
is Changing the World?” en BusinessWeek, New
York, 4 august, 2008
LEINWAND, Allan (2008): “It´s 2018: Who
Owns the Cloud?” en BusinessWeek, New York, 4
august, 2008
THE ECONOMIST (2008): “Let it rise. A
Special report on IT Corporate” en The
Economist, London, October 25th 2008.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –119–
120. Big Data – McKinsey. Junio 2011
Big data: The nex t frontier for
innovation, com petition, and
productivity.
http://www.mckinsey.com/Insights/MGI/
Research/Technology_and_Innovation/Big
_data_The_next_frontier_for_innovation
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –120–
121. Big Data – McKinsey. Junio 2011
Big data: The nex t frontier for innovation,
com petition, and productivity.
The amount of data in our world has been
exploding. Companies capture trillions of bytes of
information about their customers, suppliers, and
operations, and millions of networked sensors are
being embedded in the physical world in devices
such as mobile phones and automobiles,
sensing, creating, and communicating data.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –121–
122. Big Data – McKinsey. Junio 2011
Multimedia and individuals with smartphones and
on social network sites will continue to fuel
exponential growth. Big data—large pools of data
that can be captured, communicated, aggregated,
stored, and analyzed—is now part of every sector
and function of the global economy. Like other
essential factors of production such as hard
assets and human capital, it is increasingly the
case that much of modern economic activity,
innovation, and growth simply couldn’t take place
without data.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –122–
123. Big Data – McKinsey. Junio 2011
The question is what this phenomenon means. Is the
proliferation of data simply evidence of an increasingly
intrusive world? Or can big data play a useful economic
role? While most research into big data thus far has
focused on the question of its volume, our study makes the
case that the business and economic possibilities of big
data and its wider implications are important issues that
business leaders and policy makers must tackle. To inform
the debate, this study examines the potential value that big
data can create for organizations and sectors of the
economy and seeks to illustrate and quantify that value. We
also explore what leaders of organizations and policy
makers need to do to capture it.
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –123–
124. What do we mean by "big data"?“
: McKinsey 2011
“Big data” refers to datasets whose size is
beyond the ability of typical database software
tools to capture, store, manage, and analyze.
This definition is intentionally subjective and incorporates a
moving definition of how big a dataset needs to be in order to be
considered big data—i.e., we don’t define big data in terms of
being larger than a certain number of terabytes (thousands of
gigabytes). We assume that, as technology advances over time,
the size of datasets that qualify as big data will also increase. Also
note that the definition can vary by sector, depending on what
kinds of software tools are commonly available and what sizes of
datasets are common in a particular industry. With those caveats,
big data in many sectors today will range from a few dozen
terabytes to multiple petabytes (thousands of terabytes).
© Luis Joyanes Aguilar
Alfaomega
México DF, 14 DE octubre de 2013
Página –124–