SlideShare una empresa de Scribd logo
1 de 135
Descargar para leer sin conexión
11
Prof. Luis Joyanes Aguilar
INNOVACIONES TECNOLÓGICAS
Estrategias empresariales en:
Cloud Computing
y Big Data
EGADE Business School (campus
BBVA, La Moraleja)
Madrid, 2 de octubre, 2013
22
ESTADO DEL ARTE DE
CLOUD COMPUTING
Prof. Luis Joyanes Aguilar
COMPUTACIÓN
EN LA NUBE
La nueva era de la
computación
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Página –3–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Página –4–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
CONTENIDO
1. INNOVACIONES TECNOLÓGICAS
2. CLOUD COMPUTING
3. BIG DATA y BUSINESS ANALYTICS
4. ESTRATEGIAS EMPRESARIALES PARA
CLOUD COMPUTING y BIG DATA
5. CONCLUSIONES Y FUTURO
ANEXO. Libros y documentación de
referencia, Referencias Web
Página –5–
6
III. BIG DATA
Una introducción gerencial
y para empresas
Prof. Luis Joyanes Aguilar
77
EGADE Business School
Prof. Luis Joyanes Aguilar
BIG DATA
El universo digital de
datos
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LA ERA DEL PETABYTE (1.000 TB),
Wired , julio 2008 (www.wired.com)
Sensores en todas partes, almacenamiento infinito
y Nubes (clouds) de procesadores
 Nuestra capacidad para capturar, almacenar y comprender
cantidades masivas de datos está cambiando la ciencia,
medicina, negocios y tecnología. A medida que aumenta
nuestra colección de hechos y figuras, crece la oportunidad
de encontrar respuestas a preguntas fundamentales.
Because in the era of big data,
more isn´t just more. More is
different
Página –8–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LA ERA DEL PETABYTE -2- . Wired ,
julio 2008 (www.wired.com)
 1TB (250.000 canciones)
20 TB (fotos “uploaded” a Facebook
cada mes)
 120 TB (todos los datos e imágenes recogidos por el telescopio
espacial Hubble) ; 460 TB (todos los datos del tiempo climático en
EEUÜ compilados por el National Climatic Data Center); 530 TB
(Todos los vídeos de YouTube); 600 TB (base de datos de
genealogía, incluye todos los censos de EEUU 1790-2000)
1 PB (datos procesados por los
servidores de Google cada 75 minutos)
Página –9–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Tabla de unidades de almacenamiento
(The Economist, febrero 2010): “data, data everywhere”
www.economist.com/specialreports/displaystory.cfm?story_id=15557421
Página –10–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
El Universo Digital – EMC / IDC
Página –11–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
El Universo Digital – EMC / IDC
Página –12–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EL UNIVERSO DIGITAL DE DATOS, 2013
 EMC Corporation PUBLICÓ en diciembre de 2013, su
estudio anual sobre el Universo Digital de IDC,
patrocinado por EMC: “Big Data, Bigger Digital
Shadows, and Biggest Growth in the Far East”. El
estudio arrojó que, a pesar de la expansión sin
precedentes del Universo Digital debido a el
Big Data que se generan a diario por
personas y máquinas, IDC estima que solo
0,5% de los datos mundiales se analizan.
Página –13–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EL UNIVERSO DIGITAL DE DATOS, 2013
 La proliferación a nivel mundial de dispositivos, como PC y
teléfonos inteligentes, aumentó el acceso a Internet
dentro de los mercados emergentes, y el incremento de
datos generados por máquinas, como cámaras de
vigilancia o contadores inteligentes, ha contribuido a la
duplicación del Universo Digital en los
últimos dos años solamente, hasta alcanzar
un tamaño descomunal de 2,8 ZB. IDC
proyecta que, para el 2020, el Universo Digital
alcanzará 40 ZB, cifra que supera las
proyecciones anteriores por 14%.
Página –14–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EL UNIVERSO DIGITAL DE DATOS, 2013
 En términos de volumen, 40 ZB de datos son
equivalentes a lo siguiente:
 Existen 700.500.000.000.000.000.000 granos de arena en todas las
playas del mundo (o setecientos trillones quinientos mil billones). Esto
significa que 40 ZB equivalen a 57 veces la cantidad de
granos de arena de todas las playas del mundo. Si
pudiéramos guardar los 40 ZB en los discos Blue-ray de la actualidad,
el peso de dichos discos (sin fundas ni estuches) sería equivalente a
424 portaaviones Nimitz. En 2020, 40 ZB serán 5.247 GB por persona
a nivel mundial.
 Referencia: America Economia:
http://tecno.americaeconomia.com/noticias/el-gran-
universo-digital-la-data-crece-mas-rapido-de-lo-que-
podemos-protegerla
Página –15–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
El universo digital de datos, IDC 2013
Pina –16–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
El universo digital de datos, 2013
Página –17–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPEN DATA (Datos abiertos)
Página –18–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPEN DATA (Datos abiertos)
Las administraciones públicas [de
cualquier organismo nacional e
internacional] generan gran cantidad de
información en formatos propios de difícil
acceso para la mayoría de los ciudadanos.
Bases de datos, listas, estudios, informes,
estadísticas, etc. son datos abiertos (open
data) en formatos propios que son de
difícil acceso para la mayoría de los
ciudadanos.
Página –19–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPEN DATA (Datos abiertos)
Evidentemente estos datos se almacenan
normalmente en centros de datos propios
de las administraciones que a su vez se
almacenan y gestionan en nubes públicas o
privadas
¿Qué necesitan los profesionales o las
empresas para sacar rentabilidad a esos
datos públicos? Evidentemente la
colaboración de las entidades públicas para
liberar cada día más información y crear
más oportunidades de negocio
Página –20–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
¿Qué son datos abiertos?
Los Datos Abiertos constituyen una iniciativa
de transparencia y Gobierno Abierto que
consiste en la liberación de conjuntos de
datos que son de interés público. Los Datos Abiertos
son puestos a disposición de la sociedad, se promueve su libre acceso y
reutilización, exceptuando aquellos datos que por razones de seguridad y
privacidad previstas en la normativas vigentes no puedan ser publicados;
La mayor parte de los datos generados o mantenidos por el
estado son públicos. Sin embargo, no sólo el estado puede abrir
sus datos: empresas, organizaciones y comunidades de
información que producen o mantienen datos pueden ponerlos a
disposición, siempre en formatos abiertos y bajo licencias libres.
Página –21–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPEN DATA (Datos abiertos)
La administración de Estados Unidos
inició la iniciativa Open Data y en
paralelo la Unión Europea ha ido
adoptando también la iniciativa.
En España los primeros gobiernos han
sido los Gobiernos Autonómicos de El
Principado de Asturias y el País
Vasco.
Página –22–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPEN DATA (Datos abiertos)
La iniciativa del Gobierno Vasco se ha
plasmado en la puesta en funcionamiento
de Open Data Euskadi que pretende crear
un sitio web donde la información
reutilizable (contenidos abiertos) estén al
alcance de cualquier ciudadano.
Un estudio de la UE(2010) estima que el
mercado de información pública podría
generar riqueza por valor de 27.000
millones de euros.
Página –23–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPEN DATA EN LATAM…
Colombia
 Portal de Datos Abiertos del gobierno
http://datosabiertoscolombia.cloudapp.ne
t/frm/buscador/frmBuscador.aspx
Perú
 Portal de Datos Abiertos de la Municipalidad de
Lima
 Portal de Datos Abiertos:
http://www.datosperu.org/
Página –24–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
INICIATIVAS PIONERAS
INTERNACIONALES EN OPEN DATA
En España… además de los gobiernos autonómicos
de Asturias, País Vasco y Cataluña, la fundación CTIC
ligada al consorcio W3C (www.fundacionctic.org).
http://datos.gob.es/datos/?q=node/232
En Estados Unidos data.gov, en Gran
Bretaña data.gov.uk
 En Google (abril 2011, del número 1) la revista de
negocios. //thinkquarterly.co.uk. El número 1 dedicado
a OPEN DATA.
En la Unión Europea (Iniciativa OPEN DATA):
http://open-data.europa.eu/es
Página –25–
2626
EGADE Business School
Prof. Luis Joyanes Aguilar
III
BIG DATA Y ANALÍTICA
DE DATOS.
Nuevas bases de datos
NoSQL, “In-Memory”…
2727
Prof. Luis Joyanes Aguilar
Arquitectura de Big Data
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Harvard Business Review, octubre 2012
Página –28–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Foreign Affairs, mayo 2013
Página –29–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Revista BBVA, innovation edge, junio 2013
Página –30–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LA AVALANCHA DE DATOS
 Según Eric Schmidt, presidente ejecutivo de Google, entre el
origen de la tierra y el 2003 se crearon cinco exabytes de
información. Hoy en día creamos la misma cifra cada dos
días2. Las previsiones aseguran que en esta década
crearemos alrededor de 35 zettabytes (40 ZB, informe de
diciembre de 2012)
 Según la consultora IDC, cifran en 1,8 Zettabytes la
información generada en 2011. Si tratáramos de almacenar
esa información en iPads (del modelo de 32GB)
necesitaríamos 57.500 millones; puestos unos al lado de
otro formaríamos una línea que daría 3 veces la vuelta al
mundo y, si tratáramos de apilarlos, la “montaña” resultante
sería 25 veces más alta que el monte Fuji.
Página –31–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LA AVALANCHA DE DATOS
Twitter: (redes sociales)
 90 millones de tuits (tweets) por día que representa 8
Terabytes.
Boeing: (industria)
 Vuelo transoceánico de un jumbo puede generar 640
Terabytes.
Wal-Mart: (comercio)
 1 millón de transacciones por hora que se estima que
alimenta una base de datos de 2.5 petabytes.
Google procesa al día 20 PB de información
Página –32–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Página –33–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Página –34–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BIG DATA, bbva edge, junio 2013
Fuentes:
SAS | Big Data: www.sas.com/big-data.
IBM | Big Data at the Speed of Business
McKinsey Global Institute | Big Data: The next
frontier for innovation, competition, and
productivity, junio 2011.
Fuente:
Intel | What Happens in an Internet Minute?
www.intel.com/content/www/us/en/communic
ations/internet-minute-infographic.html
Página –35–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013
 01.04.2013 S. Rosenbush / M. Totty. WSJ. Las empresas
están buscando la mejor forma de aprovechar el exceso
de información.
 La información abunda y las empresas están buscando la
mejor forma de aprovecharla. Los expertos ya bautizaron
este fenómeno como big data. La definición es amorfa,
pero normalmente significa lo siguiente: las empresas
tienen acceso a mucha más información que antes, que
proviene de muchas más fuentes y la obtienen casi al
momento en que se genera.
Página –36–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013
 El concepto de big data a menudo se relaciona con las empresas que
ya operan en el mundo de la información, como Google, Facebook y
Amazon. Pero compañías en múltiples industrias están
colocando los datos en el corazón de sus operaciones. Están
recolectando cantidades enormes de información, a menudo
combinando indicadores tradicionales como las ventas, con
comentarios de redes sociales e información de ubicación que
viene de los dispositivos móviles. Las empresas escudriñan esta
información para mejorar sus productos, recortar gastos y mantener
la fidelidad de sus clientes.
 Las firmas de logística, por ejemplo, instalan sensores en sus
camiones para detectar formas de acelerar las entregas. Los
fabricantes revisan miles de publicaciones en foros de Internet para
determinar si a los clientes les gusta una nueva característica. Los
gerentes de personal estudian cómo los candidatos a un empleo
responden preguntas para ver si encajan bien con la compañía.
Página –37–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013
Aún quedan numerosos obstáculos en el camino.
Algunos son técnicos, pero en la mayoría de las
empresas las decisiones se siguen basando en la
opinión de la persona con el salario más alto y
podría ser difícil convencer a un ejecutivo de que
los datos superan su intuición.
Los recursos humanos, las operaciones, el
desarrollo de productos o el márketing son las
diferentes formas a través de las cuales las
empresas usan el poder de la información para
transformar sus negocios.
Página –38–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
 UPS
UPS comenzó a instalar sensores en sus vehículos de
reparto para conocer su velocidad y ubicación, si el
cinturón de seguridad del conductor está abrochado... Al
combinar su información de GPS y los datos de sensores
sobre rendimiento en más de 46.000 vehículos, UPS
recortó 136 millones de kilómetros de sus rutas.
Página –39–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
EXPANSIÓN, de Wall Street Journal, 1 de
abril 2013 (casos de estudio)
 InterContinental
La cadena hotelera InterContinental ha recabado
información sobre los 71 millones de miembros de
su programa Priority Club, como niveles de
ingresos y preferencias sobre las instalaciones. El
grupo consolidó la información en un solo
almacén de datos que reúne información de redes
sociales y procesa búsquedas más rápido
Página –40–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Tabla de unidades de almacenamiento
(The Economist, febrero 2010): “data, data everywhere”
www.economist.com/specialreports/displaystory.cfm?story_id=15557421
Página –41–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LA AVALANCHA DE DATOS
 Según Eric Schmidt, presidente ejecutivo de Google, entre el
origen de la tierra y el 2003 se crearon cinco exabytes de
información. Hoy en día creamos la misma cifra cada dos
días2. Las previsiones aseguran que en esta década
crearemos alrededor de 35 zettabytes (40 ZB, informe de
diciembre de 2012)
 Según la consultora IDC, cifran en 1,8 Zettabytes la
información generada en 2011. Si tratáramos de almacenar
esa información en iPads (del modelo de 32GB)
necesitaríamos 57.500 millones; puestos unos al lado de
otro formaríamos una línea que daría 3 veces la vuelta al
mundo y, si tratáramos de apilarlos, la “montaña” resultante
sería 25 veces más alta que el monte Fuji.
Página –42–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data – McKinsey. Junio 2011
Big data: The next frontier for
innovation, competition, and
productivity.
http://www.mckinsey.com/Insights/MGI/
Research/Technology_and_Innovation/Big
_data_The_next_frontier_for_innovation
Página –43–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data – McKinsey. Junio 2011
Big data: The next frontier for innovation,
competition, and productivity.
The amount of data in our world has been
exploding. Companies capture trillions of bytes of
information about their customers, suppliers, and
operations, and millions of networked sensors are
being embedded in the physical world in devices
such as mobile phones and automobiles,
sensing, creating, and communicating data.
Página –44–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data – McKinsey. Junio 2011
Multimedia and individuals with smartphones and
on social network sites will continue to fuel
exponential growth. Big data—large pools of data
that can be captured, communicated, aggregated,
stored, and analyzed—is now part of every sector
and function of the global economy. Like other
essential factors of production such as hard
assets and human capital, it is increasingly the
case that much of modern economic activity,
innovation, and growth simply couldn’t take place
without data.
Página –45–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data – McKinsey. Junio 2011
 The question is what this phenomenon means. Is the
proliferation of data simply evidence of an increasingly
intrusive world? Or can big data play a useful economic
role? While most research into big data thus far has
focused on the question of its volume, our study makes the
case that the business and economic possibilities of big
data and its wider implications are important issues that
business leaders and policy makers must tackle. To inform
the debate, this study examines the potential value that big
data can create for organizations and sectors of the
economy and seeks to illustrate and quantify that value. We
also explore what leaders of organizations and policy
makers need to do to capture it.
Página –46–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
What do we mean by "big data"?“
: McKinsey 2011
“Big data” refers to datasets whose size is
beyond the ability of typical database software
tools to capture, store, manage, and analyze.
This definition is intentionally subjective and incorporates a
moving definition of how big a dataset needs to be in order to be
considered big data—i.e., we don’t define big data in terms of
being larger than a certain number of terabytes (thousands of
gigabytes). We assume that, as technology advances over time,
the size of datasets that qualify as big data will also increase. Also
note that the definition can vary by sector, depending on what
kinds of software tools are commonly available and what sizes of
datasets are common in a particular industry. With those caveats,
big data in many sectors today will range from a few dozen
terabytes to multiple petabytes (thousands of terabytes).
Página –47–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
DEFINICIÓN DE BIG DATA: IBM
 What is big data?*
 Every day, we create 2.5 quintillion bytes of data — so
much that 90% of the data in the world today has been
created in the last two years alone. This data comes from
everywhere: sensors used to gather climate information,
posts to social media sites, digital pictures and videos,
purchase transaction records, and cell phone GPS signals
to name a few. This data is big data.
 *http://www-
01.ibm.com/software/data/bigdata/
Página –48–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Página –49–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
DEFINICIÓN DE BIG DATA: IBM
Página –50–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
DEFINICIÓN DE BIG DATA: IBM
 Big data spans four dimensions: Volume, Velocity,
Variety, and Veracity.

Volume: Enterprises are awash with ever-growing data
of all types, easily amassing terabytes—even petabytes—
of information.
• Turn 12 terabytes of Tweets created each day into
improved product sentiment analysis
• Convert 350 billion annual meter readings to better
predict power consumption
Página –51–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
DEFINICIÓN DE BIG DATA: IBM
 Velocity: Sometimes 2 minutes is too late. For time-
sensitive processes such as catching fraud, big data must
be used as it streams into your enterprise in order to
maximize its value.
• Scrutinize 5 million trade events created each day to
identify potential fraud
• Analyze 500 million daily call detail records in real-time to
predict customer churn faster
Página –52–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
DEFINICIÓN DE BIG DATA: IBM
 Variety: Big data is any type of data - structured and
unstructured data such as text, sensor data, audio, video,
click streams, log files and more. New insights are found
when analyzing these data types together.
 Monitor 100’s of live video feeds from surveillance
cameras to target points of interest
 Exploit the 80% data growth in images, video and
documents to improve customer satisfaction
Página –53–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
DEFINICIÓN DE BIG DATA: IBM
 Veracity: 1 in 3 business leaders don’t trust the
information they use to make decisions. How can you act
upon information if you don’t trust it? Establishing trust in
big data presents a huge challenge as the variety and
number of sources grows.
 Big data is more than simply a matter of size; it is an opportunity to
find insights in new and emerging types of data and content, to make
your business more agile, and to answer questions that were
previously considered beyond your reach. Until now, there was no
practical way to harvest this opportunity. Today, IBM’s platform for
big data uses state of the art technologies including patented
advanced analytics to open the door to a world of possibilities.
Página –54–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Modelo 3V de Big Data
 VOLUMEN
 • Terabytes
 • Records
 • Transactions
 • Tables, files
 VELOCIDAD VARIEDAD
 • Batch (por lotes) Estructurado
 • Near time (casi a tiempo) No estructurado
 • Real time (tiempo real) Semi-estructurado
 • Streams (flujos) Todos los demás
Página –55–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Fuentes de Big Data
 Herramientas para análisis de datos en grandes
volúmenes de datos. Infraestructuras de Big Data
 Fuentes de Big Data (Soares 2012):
 Web y Social media
 Machine-to-Machine (M2M, Internet de
las cosas)
 Biometria
 Datos de transacciones de grandes datos
(salud, telecomunicaciones…)
 Datos generados por las personas
(humanos)
Página –56–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Store.com
Sunil Soares (2003). Big Data Governance Emerging
Imperative. Boise. MC Press Online. El autor de este
libro mantiene un blog excelente sobre Big Data y
Gobierno de Big Data
Página –57–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 1. Web y Social Media: Incluye contenido web e información
que es obtenida de las medios sociales como Facebook, Twitter,
LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs
de periódicos y televisiones, wikis como MediaWiki, Wikipedia,
marcadores sociales como Del.icio.us, Stumbleupon…
agregadores de contenidos como Dig, Meneame… En esta
categoría los datos se capturan, almacenan o distribuyen
teniendo presente las características siguientes: Datos de los
flujos de clics, tuits, retuits o entradas en general (feeds) de
Twitter, Tumblr…, Entradas (posting) de Facebook y contenidos
web diversos.
Página –58–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 2. Machine-to-Machine (M2M)/ Internet de las
cosas: M2M se refiere a las tecnologías que permiten conectarse a
otros diferentes dispositivos entre sí. M2M utiliza dispositivos como
sensores o medidores que capturan algún evento en particular
(humedad, velocidad, temperatura, presión, variables meteorológicas,
variables químicas como la salinidad, etc.) los cuales transmiten a
través de cableadas, inalámbricas y móviles a otras aplicaciones que
traducen estos eventos en información significativa. La comunicación
M2M ha originado el conocido Internet de las cosas o de los objetos.
Entre los dispositivos que se emplean para capturar datos de esta
categoría podemos considerar chips o etiquetas RFID, chips NFC,
medidores (de temperaturas, de electricidad, presión…). sensores,
dispositivos GPS… y ocasionan la generación de datos mediante la
lectura de los medidores, lecturas de los RFID y NFC, lectura de los
sensores, señales GPS, señales de GIS, etc.
Página –59–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 3.Big Data transaccionales: Grandes datos transaccionales
procedentes de operaciones normales de transacciones de todo
tipo. Incluye registros de facturación, en telecomunicaciones
registros detallados de las llamadas (CDR), etc. Estos datos
transaccionales están disponibles en formatos tanto
semiestructurados como no estructurados. Los datos generados
procederán de registros de llamada de centros de llamada,
departamentos de facturación, reclamaciones de las personas,
presentación de documentos…
Página –60–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 4. Biometría: La biometría o reconocimiento biométrico.
La información biométrica se refiere a la identificación
automática de una persona basada en sus características
anatómicas o trazos personales. Los datos anatómicos se
crean a partir de las características físicas de una persona
incluyendo huellas digitales, iris, escaneo de la retina,
reconocimiento facial, genética, DNA, reconocimiento de
voz, incluso olor corporal etc. Los datos de
comportamiento incluyen análisis de pulsaciones y
escritura a mano. Los avances tecnológicos han
incrementado considerablemente los datos biométricos
disponibles
Página –61–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 . En el área de seguridad e inteligencia, los datos
biométricos han sido información importante para las
agencias de investigación. En el área de negocios y de
comercio electrónico los datos biométricos se pueden
combinar con datos procedentes de medios sociales lo
que hace aumentar el volumen de datos contenidos en los
datos biométricos. Los datos generados por la biometría
se pueden agrupar en dos grandes categorías: Genética y
Reconocimiento facial.
 “An Overview of Biometric Recpgnition”.
http://biometrics.cse.nsu.edu/info.html
Página –62–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Big Data. Joyanes, MéxicoDF: Alfaomega (2013)
 5. Datos generados por las personas: Las personas
generan enormes y diversas cantidades de datos como la
información que guarda un centro de llamadas telefónicas
(call center) al establecer una llamada telefónica, notas de
voz, correos electrónicos, documentos electrónicos,
estudios y registros médicos electrónicos, recetas
médicas, documentos papel, faxes, etc. El problema que
acompaña a los documentos generados por las personas es que
pueden contener información sensible de las personas que necesita,
normalmente ser oculta, enmascarada o cifrada de alguna forma para
conservar la privacidad de dichas personas. Estos datos al ser
sensibles necesitan ser protegidos por las leyes nacionales o
supranacionales (como es el caso de la Unión Europea o Mercosur)
relativas a protección de datos y privacidad.
Página –63–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Estructura de Big Data: tipos de datos
Estructurados
No estructurados
 No estructurados (texto, datos de vídeo, datos de audio,,,)
 Semiestructurados ( a veces se conocen como
“multiestructurados”. Tienen un formato y flujo lógico de modo
que pueden ser entendidos pero el formato no es amistoso al
usuario(HTML. XML…, datos de web logs)
 Normalmente, se suelen asociar los datos
estructurados a los tradicionales y los datos no
estructurados a los Big Data
 Objetivo principal de los sistemas de gestión de
datos: Integración de datos estructurados y no
estructurados
Página –64–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
ESTADO ACTUAL DE BIG DATA
1. Almacenamiento:
hacen falta nuevas tecnologías de almacenamiento
2. Bases de datos:
las BD relacionales no pueden con todo
3. Procesado:
se requieren nuevos modelos de programación
4. Obtención de valor:
los datos no se pueden comer crudos (en bruto)
La información no es conocimiento “accionable”
Página –65–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
1. Almacenamiento
Hacen falta nuevas tecnologías de
almacenamiento
 RAM vs HHD
 Memorias hardware. HHD 100 más barato que RAM
pero 1000 veces más lento
 Solución actual:
Solid- state drive (SSD) además no volátil
 Tecnologías “in-memory” (SAP HANA…)
 Investigación:
 Storage Class Memory (SCM)
Página –66–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
2. Base de datos
Las BD relacionales no pueden con
todo
 Base de datos
 volumen de la información
 GBs
 PBs Tiempo de ejecución
 Exabytes …. Cada día más populares
 Limitadas para almacenamiento de “big data”
 (ACID, SQL, …)
 ACID: Atomicity, Consistency, Isolation & Durability
Página –67–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
2. Bases de datos
In-Memory (en-memoria)
 SAP Hana
 Oracle Times Ten In-Memory Database
 IBM solidDB
NoSQL (Not only SQL)
Relacional
 Sistemas RDBMS
 Transferencia de datos entre Hadoop y bases de datos
relacionales
Legacy (heredadas, antiguas…)
Página –68–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
3. Procesado … HADOOP
 Se requieren nuevos modelos de programación
para manejarse con estos datos
 Solución: Para conseguir procesar grandes conjuntos de
datos: MapReduce
 Pero fue el desarrollo de Hadoop MapReduce,
por parte de Yahoo, el que ha propiciado un ecosistema
de herramientas open source os Google creó el modelo
de programación MapReduce
Página –69–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
4. Obtención de valor
 Los datos no se pueden comer ·crudos” (en bruto)
la información no es conocimiento accionable
 Para ello tenemos técnicas de Data Mining
 • Asociación
 • Clasificación
 • Clustering
 • Predicción
 • ...
La mayoría de algoritmos se ejecutan bien
en miles de registros, pero son hoy por hoy
impracticables en miles de millones.
Página –70–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Bases de datos
In-Memory (en-memoria)
 SAP Hana
 Oracle Times Ten In-Memory Database
 IBM solidDB
Relacionales
 Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…
 Transferencia de datos entre Hadoop y bases de datos
relacionales
Legacy (jerárquicas, en red… primeras relacionales…)
NoSQL (Cassandra, Hive, mongoDB,
CouchDB, Hbase…)
Página –71–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BASES DE DATOS ANALÍTICAS
 Analíticas: para permitir a múltiples usuarios contestar
rápidamente preguntas de negocio que requieran de grandes
volúmenes de información.
Bases de datos de procesamiento
paralelo masivo (MPP)
Bases de datos “en memoria”
Almacenamiento en columnas
 Históricamente estas bases de datos tan especializadas
tenían un costo muy elevado, pero hoy el mercado nos
ofrece varias alternativas que se adaptan al presupuesto de
cada organización.
Página –72–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Bases de datos analíticas
 Bases de datos diseñadas específicamente para ser
utilizadas como motores de Data Warehouse.
 Estas bases de datos logran procesar grandes volúmenes de
información a velocidades asombrosas, gracias a la aplicación de
diferentes conceptos y tecnologías:
 Almacenamiento en columnas en lugar de filas
(registros)
 Massively parallel processing (MPP)
 In-Memory Analytics
Página –73–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Página –74–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Almacenamiento en columnas, no filas:
FUENTE: datalytics.com
Página –75–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Computación en memoria “In-Memory”
La computación en memoria es una
tecnología que permite el procesamiento de cantidades
masivas de datos en memoria principal para proporcionar
resultados inmediatos del análisis y de las transacciones.
Los datos a procesar, idealmente son datos en tiempo
real (es decir, datos que están disponibles para su
procesamiento o análisis inmediatamente después
que se han creado).
Existen un amplio conjunto de tecnologías que emplean
bases de datos en memoria. SAP HANA es una de las
más acreditadas y populares… (Oracle, IBM,…)
Página –76–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BASES DE DATOS RELACIONALES (REPASO)
 La mayoría de las bases de datos cumplen con las
propiedades ACID (atomicity, consistency,
isolation, durability). Estas propiedades garantizan un
comportamiento de las base de datos relacionales y el mejor de los
argumentos para su utilización.
Página –77–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BASES DE DATOS NoSQL
 Las bases de datos no-relacionales son comúnmente
llamadas bases de datos NoSQL ya que la gran mayoría
de ellas comparte el hecho de no utilizar el lenguaje SQL
para realizar las consultas
 Es una definición controvertida, aunque la definición más
aceptada es “Not only SQL”.
 Una de las características de las bases de datos no
relacionales es que la mayoría de ellas no utilizan
esquemas de datos rígidos como las bases de datos
relacionales. Esto hace que estas bases de datos también
se les llame “Schema-less” o “Schema-free
(“almacenamiento des-estructurado”).
Página –78–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Taxonomía de Bases de datos NoSQL
 Los principales tipos de BBDD de acuerdo con su
implementación son los siguientes:
 – Almacenes de Clave-Valor
 – Almacenes de Familia de Columnas (columnares)
 – Almacenes de documentos (orientadas a
documentos)
 – Almacenes de Grafos (orientadas a grafos)
 - Cachés de memoria
Página –79–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
SOLUCIONES DE BASES DE DATOS NoSQL
Página –80–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Integración con Big Data. FUENTE: datalytics.com
Página –81–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Integración con Big Data. FUENTE: datalytics.com
Página –82–
8383
Prof. Luis Joyanes Aguilar
Tecnologías BIG DATA
HADOOP
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Logo de HADOOP
Página –84–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Logo de HADOOP
Página –85–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
TECNOLOGÍAS BIG DATA (HADOOP)
 Datos de la consultora IDC de agosto de 2012 prevén que el
mercado del software relacionado con los framework
open source Apache Hadoop y el MapReduce de
Google crecerá a un ritmo anual de más del 60% hasta el
año 2016.
 La popularidad de Hadoop se ha ido incrementando durante
los últimos meses, a medida que las empresas necesitan
manejar grandes cantidades de datos estructurados y no
estructurados para después analizarlos y ser capaces de
tomar decisiones lo más favorables posible para sus negocios.
 IDC también espera que el mercado de Hadoop-MapReduce evolucione y
que poco a poco comienza a introducirse en los sistemas empresariales.
Página –86–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop
“The Apache Hadoop software library is a
framework that allows for the distributed
processing of large data sets across
clusters of computers using a simple
Programming model”
 De la página de Hadoop
Página –87–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
TECNOLOGÍAS BIG DATA (HADOOP)
 Hadoop es un proyecto de software open source que
provee un framework para habilitar el procesamiento
distribuido de grandes conjuntos de datos sobre clusters
construidos con hardware genérico. En esencia, Hadoop
consiste de dos elementos base: un sistema de archivos
distribuido (Hadoop Distributed File System, HDFS) y un
motor de procesamiento de datos que implementa el
modelo Map/Reduce (Hadoop MapReduce). Sin embargo,
conforme ha ido ganando adopción y madurez, también
se han ido creando tecnologías para complementarlo y
ampliar sus escenarios de uso, de tal forma que hoy en
día el nombre “Hadoop” no se refiere a una sola
herramienta sino a una familia de herramientas alrededor
de HDFS y MapReduce.
Página –88–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
What Is Apache Hadoop? (Fundación Apache)
 The Apache™ Hadoop® project develops open-source
software for reliable, scalable, distributed computing.
 The Apache Hadoop software library is a framework that
allows for the distributed processing of large data sets
across clusters of computers using simple programming
models. It is designed to scale up from single servers to
thousands of machines, each offering local computation
and storage. Rather than rely on hardware to deliver high-
avaiability, the library itself is designed to detect and
handle failures at the application layer, so delivering a
highly-availabile service on top of a cluster of computers,
each of which may be prone to failures.
Página –89–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Historia de HADOOP
 ● 2004-2006
 – Google publica los papers de GFS y MapReduce
 – Doug Cutting implementa una version Open Source en
 Nutch
 ● 2006-2008
 – Hadoop se separa de Nutch
 – Se alcanza la escala web en 2008
 ● 2008-Hasta ahora
 – Hadoop se populariza y se comienza a explotar
 comercialmente.
 Fuente: Hadoop: a brief history. Doug Cutting
Página –90–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Historia de Hadoop: Doug Cutting
Página –91–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Logo de HADOOP
Página –92–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Logo de HADOOP
Página –93–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Página –94–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Fundación Apache: proyectos open source
 The Apache Software Foundation provides support
for the Apache community of open-source software
projects, which provide software products for the
public good
 The Apache Software Foundation provides support for the
Apache community of open-source software projects,
which provide software products for the public good
Página –95–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
TECNOLOGÍAS BIG DATA (HADOOP)
 Datos de la consultora IDC de agosto de 2012 prevén que el
mercado del software relacionado con los framework
open source Apache Hadoop y el MapReduce de
Google crecerá a un ritmo anual de más del 60% hasta el
año 2016.
 La popularidad de Hadoop se ha ido incrementando durante
los últimos meses, a medida que las empresas necesitan
manejar grandes cantidades de datos estructurados y no
estructurados para después analizarlos y ser capaces de
tomar decisiones lo más favorables posible para sus negocios.
 IDC también espera que el mercado de Hadoop-MapReduce evolucione y
que poco a poco comienza a introducirse en los sistemas empresariales.
Página –96–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Componentes HADOOP (Apache)
 The project includes these modules:
 Hadoop Common: The common utilities that support
the other Hadoop modules.
 Hadoop Distributed File System (HDFS™): A
distributed file system that provides high-throughput
access to application data.
 Hadoop YARN: A framework for job scheduling and
cluster resource management.
 Hadoop MapReduce: A YARN-based system for parallel
processing of large data sets.
Página –97–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop
 Apache Hadoop es un framework que permite el
tratamiento distribuido de grandes cantidades de datos
(del orden de peta bytes) y trabajar con miles de
máquinas de forma distribuida. Se inspiró en los
documentos sobre MapReduce y Google File System
publicados por Google.
 Está desarrollado en Java y se ejecuta dentro de la JVM.
 Actualmente está soportado por Google, Yahoo e IBM
entre otros. También existen empresas como Cloudera
(http://www.cloudera.com/) que ofrecen soluciones
empresariales Open Source basadas en Hadoop.
Página –98–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop
 Las características principales de Hadoop son
 Económico: Está diseñado para ejecutarse en equipos de
bajo coste formando clústeres. Estos clústeres pueden
llevarnos a pensar en miles de nodos de procesamiento
disponibles para el procesado de información.
 • Escalable: Si se necesita más poder de procesamiento o
capacidad de almacenamiento solo hay que añadir más
nodos al clúster de forma sencilla.
 • Eficiente: Hadoop distribuye los datos y los procesa en
paralelo en los nodos donde los datos se encuentran
localizados.
 • Confiable: Es capaz de mantener Es capaz de mantener
múltiples copias de los datos y
 automáticamente hacer un re-despliegue de las tareas
Página –99–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop
 El diseño de Hadoop se divide en dos partes
principales:
 Por un lado está el sistema de ficheros distribuido
Hadoop Distributed File System (HDFS) que
se encarga de almacenar todos los datos repartiéndolos
entre cada nodo de la red Hadoop.
 Por otro lado la implementación de MapReduce que se
encarga del procesamiento de la información de forma
distribuida.
Página –100–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop
Página –101–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Página –102–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop en la actualidad
 Hadoop se puede utilizar en teoría para casi cualquier tipo
de trabajo batch, mejor que ha trabajos en tiempo real,
ya que son más fáciles de dividir y ejecutar en paralelo.
Entre lo campos actuales a aplicación se encuentran:
 • Análisis de logs
 • Análisis de mercado
 • Machine learning y data mining
 • Procesamiento de imágenes
 • Procesamiento de mensajes XML
 • Web crawling
 • Indexación
Página –103–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop en la actualidad
 Actualmente Hadoop es un framework muy extendido en
el ámbito empresarial, sobre todo en compañías que
manejan grandes volúmenes de datos. Entre las que
podemos descarta las siguientes empresas:
 Yahoo: La aplicación Yahoo! Search Webmap está
implementado con Hadoop sobre un clúster de mas de
10.000 nodos Linux y la información que produce es la
utilizada por el buscador de Yahoo.
 Facebook: Tiene ha día de hoy el mayor clúster Hadoop
del mundo que almacena hasta 30 peta bytes de
información
 Amazon A9: Se utiliza para la generar índices de búsqueda de los
productos ofertados en el portal. Disponen de varios clústeres de entre 1 y
100 nodos
 cada uno.
Página –104–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Hadoop en la actualidad
 The New York Times: Utiliza Hadoop y EC2 (Amazon
Elastic Compute Cloud) para convertir 4 Tera bytes de
imágenes TIFF en imágenes PNG de 800 K para ser
mostradas en la Web en 36 horas.
 Además existen compañías cuyo negocio es principal es
Hadoop, como Cloudera, que comercializa CDH
(Cloudera's Distribution including Apache Hadoop), que da
soporte en la configuración y despliegue de clústeres
 Hadoop. Además proporciona servicios de consultoría y
formación en estas tecnología. Todo el software que
distribuyen es Open Source.
Página –105–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Distribuciones de Hadoop
Página –106–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Proveedores de Big Data
 Algunos han desarrollado sus propias distribuciones de
Hadoop (con diferentes niveles de personalización:
disponibilidad, rendimiento, replicas …). Una distribución
muy popular
 Otros ejemplos: MapR, Greenplum, Hortonworks, …
 Hay docenas
Página –107–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Empresas que ya utilizan “Big Data”

 . IBM
 Intel
 HP
 Oracle
 Teradata
 Fujitsu
 CSC
 Accenture
 Dell
 Seagate
 Capgemini
Página –108–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Definición de Analítica de Big Data
BIG DATA ANALYTICS : (TDWI): 4Q 2011
 Big data analytics is where advanced analytic
techniques operate on big data sets. Hence, big
data analytics is really about two things—big data
and analytics—plus how the two have teamed up
to create one of the most profound trends in
business intelligence (BI) today.
 The definition is easy to understand, but do users actually
use the term? To quantify this question, the survey for
this report asked: “Which of the following best
characterizes your familiarity with big data analytics and
how you name it?” The survey results show that most
users understand the concept of big data analytics,
whether they have a name for it or not:
Página –109–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
ANALÍTICA DE BIG DATA
 Cloudera
 EMC Greenplum
 IBM
 Impetus Technologies
 Kognitio
 ParAccel
 SAP
 SAND Technology
 SAS
 Tableau Software
 Teradata
Página –110–
111111
OPORTUNIDADES Y NUEVAS
PROFESIONES TECNOLÓGICAS
Y DE COMUNICACIÓN
DEMANDADAS POR LAS
EMPRESAS
Prof. Luis Joyanes Aguilar
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPORTUNIDADES PARA LATINOAMÉRICA
Despliegue y comercialización de la red de
alta velocidad y gran ancho de banda LTE
(4G) en la actualidad (Noticia de impacto
en CLOUD COMPUTING y Big Data y gran
ventaja competitiva).
En Europa está comenzando el despliegue y
comercialización este año 2013. Colombia,
Panamá, México, Dominicana… ya iniciaron el
despliegue
Página –112–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
OPORTUNIDADES PARA COLOMBIA Y PERÚ
TURISMO INTELIGENTE (Smart Tourism). Vease
proyecto piloto aprobado en marzo 2013 de la Isla
de Hierro de Canarias apoyándose en despliegues
móviles, cloud computing y big data.
CREACIÓN Y CONSTRUCCIÓN DE CENTROS DE
DATOS para dar soporte a infraestructuras, plataformas y
desarrollo de Cloud Computing (COLOMBIA y PERÚ, tieneN
las condiciones de hábitat idóneas para construcción de
Data Centers).
 PUESTA EN MARCHA DE ESTUDIOS DE CLOUD
COMPUTING , BIG DATA Y ANALYTICS, así como
CERTIFICACIONES INTERNACIONALES correspondientes.
Página –113–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
NECESIDAD DE FORMACIÓN PROFESIONAL
AVANZADA EN CLOUD COMPUTING-BIG
DATA
 El mercado tiene carencia de especialistas en Cloud
Computing y sobre todo en Big Data. Hay miles de puestos que se
deberán cubrir en los próximos cinco años según estadísticas fiables de IDC,
Gartner, Forrester, McKinsey…
 UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE
ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de
datos) y además ANALISTAS DE DATOS (formados en
Analytics y tecnologías Big Data ·Hadoop”, “InMemory”…)
 Se necesitan certificaciones profesionales en CLOUD
COMPUTING Y BIG DATA… “TECNOLÓGICAS Y DE
NEGOCIOS”
Página –114–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
NUEVAS PROFESIONES EN LA
ECONOMÍA Y EMPRESA DIGITAL
 Algunas de las profesiones o roles más demandados son:
CTO (Chief Technology Officer)
ASO (App search optimization). Especialista
en “app search optimization”… similar al
SEO pero para apps móviles.
Expertos en usabilidad y experiencia de
usuario (UX)
Profesionales de big data (“análisis de
grandes volúmenes de datos)
Página –115–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
NUEVAS CARRERAS UNIVERSITARIAS:
maestrias,ingeniería, diplomados…
Community Manager, Social Media
Manager y Analista Web y SEO
Ingeniero de Cloud Computing (En España hay
una universidad privada que lo lanza el próximo curso)
Ingeniero de negocios digitales (Digital
Business Intelligence)
Ingeniero de datos (Infraestructuras, Bases de datos
NoSQL, Hadoop, Tecnologías “in-memory”…)
Analítica de datos (Analytics) y Analítica de
Big Data
Página –116–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
NUEVAS CARRERAS Y PROFESIONES
Community Manager , Social Media Manager,
SEO, Analistas Web … cada día son más demandadas y.
Sin embargo la profesión del futuro será:
EL CIENTÍFICO DE DATOS (Data Scientist). Un
profesional con formación de Sistemas,
Estadística, Analítica, Ciencias Físicas y
Biológicas… que analizará los Big Data para la
toma de decisiones eficientes y obtener
rentabilidad en los negocios.
HBR (Harvard Business Review lo declaró la
profesión “MÁS SEXY del siglo XXI”…)
Página –117–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LAS TITULACIONES-PROFESIONES MÁS
DEMANDADAS en TIC EN PRÓXIMOS AÑOS
(HBR, Harvard Business Review) número de
octubre de 2012 (Los datos el nuevo petróleo/oro
del siglo XXI):
Ciencia de los datos: Data Science
(Maestría/Doctorado) … En Estados
Unidos, México y Europa… ya existen
iniciativas.
LA PROFESIÓN MÁS SEXY DEL SIGLO XXI : EL
CIENTÍFICO DE DATOS (Data Scientist)
Página –118–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
INNOVACIÓN VS
ESPECIALIZACIÓN INTELIGENTE*
“La estrategia de especialización inteligente
(RIS3 en inglés) parte de un principio
básico: hace falta que haya una masa crítica
de recursos para innovar y un territorio
tiene que concentrar sus recursos en
aquello que genera ventajas competitivas,
actuales o potenciales. Más aún, en tiempos
de crisis y escasez.”
 *Aranguren, Navarro y Wilson (Instituto Vasco de
Competitividad, Deusto Business School) en La
Vanguardia, 22 de septiembre de 2013, p. 34.
Página –119–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
INNOVACIÓN VS
ESPECIALIZACIÓN INTELIGENTE*
“El término “especialización inteligente”
hace referencia a la necesidad de
concentrar los recursos en determinadas
apuestas. Pero toda estrategia inteligente
requiere, paradójicamente, diversificar:
producir otros productos y para otros
mercados. Esto resulta evidente en estos
momentos, en España, en que la demanda
doméstica ha caído como media un 40 por
ciento de los productos tradicionales”
Página –120–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
INNOVACIÓN VS
ESPECIALIZACIÓN INTELIGENTE*
“La Unión Europea ha fijado a las regiones que
elaboren una estrategia de especialización
inteligente como una condicionalidad ex ante
para acceder a los fondos estructurales y de
inversión.
[…] Se trata de seguir o establecer nuevas estrategias
regionales de innovación que nusca pasar de una
aproximación a la estrategia de carácter tradicional,
basada en el diseño y posterior ejecución de una plan,
a una aproximación más dinámica y viva, que descansa
en procesos participativos y en evaluación permanente”
Página –121–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
INNOVACIÓN VS
ESPECIALIZACIÓN INTELIGENTE*
Innovaciones tecnológicas en TIC
Cloud Computing
Big Data
Movilidad
Medios sociales
Internet de las cosas
Ayudarán considerablemente a la potenciación
de la innovación y la especialización
inteligente.
Página –122–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Página –123–
MUCHAS GRACIAS … ¿Preguntas?
Portal tecnológico y de conocimiento
www.mhe.es/joyanes
Portal GISSIC “El Ágora de
Latinoamérica”: gissic.wordpress.com
Twitter:@luisjoyanes
www.slideshare.net/joyanes
www.facebook.com/joyanesluis
PORTAL NTICS : luisjoyanes.wordpress.com (en
construcción)
CORREO-e: joyanes@gmail.com
124
Prof. Luis Joyanes Aguilar
BIBLIOGRAFÍA
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BIBLIOGRAFÍA BÁSICA
JOYANES, Luis (2012). Computación en
la nube. Estrategias de cloud
computing para las empresas. México
DF: Alfaomega; Barcelona: Marcombo
JOYANES, Luis (2013). BIG DATA. El
análisis de los grandes volúmenes de
datos. México DF: Alfaomega; Barcelona:
Marcombo
 Colección de libros NTiCS (Negocios, Tecnología, Innovación,
Conocimiento y Sociedad) dirigida por el profesor Luis
Joyanes y publicada en la editorial Alfaomega de México DF.
Página –125–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BIBLIOGRAFÍA BÁSICA
 JOYANES, Luis. “Computación en "Nube" (Cloud
Computing) y Centros de Datos la nueva revolución
industrial ¿cómo cambiará el trabajo en
organizaciones y empresas?”. Sociedad y Utopía.
UPSA: Madrid. , ISSN 1133-6706, Nº 36, 2010, págs.
111-127.
 JOYANES, Luis (2009a) “La Computación en
Nube(Cloud Computing) :El nuevo paradigma
tecnológico para empresas y organizaciones en la
Sociedad del Conocimiento” , ICADE, nº 76, enero-
marzo 2009, Madrid: Universidad Pontificia Comillas.
Página –126–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
ÚLTIMOS LIBROS DEL prof. LUIS
JOYANES
Ciberseguridad. Retos y desafíos para
la defensa nacional en el ciberespacio.
Madrid: IEEE (Instituto Español de Estudios
Estratégicos). 2011. Editor y Coordinador.
www.ieee.org
Cuadernos de estrategia, nº 149
Página –127–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Blogs tecnológicos
 TechCrunch (www.techcrunch.com)
 Gizmodo (www.gizmodo.com, www.gizmodo.es)
 Boing Boing (www.boingboing.com)
 Engadget (www.engadget.com)
 The Official Google Blog (googleblog.blospot.com)
 O´Reilly (www.oreillynet.com)
 Slahdot (www.slahdot.com)
 Microsiervos (www.microsiervos.com)
 Xataca (www.xataca.com)
 All Things Digital (allthingsd.com)
 Mashable (www.mashable.com)
Página –128–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LECTURAS RECOMENDADAS
NIST
Cloud Security Alliance
ISACA
BBVA, BANKINTER, Accenture…
ENISA
Cio.com, Computing.es, Computerworld
ONTSI. Cloud computing. Retos y
oportunidades.
www.ontsi.red.es/ontsi/sites/default/files/1-
_estudio_cloud_computing_retos_y_oportunidades_vdef.pdf
Página –129–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BIBLIOGRAFÍA
 Innovation Edge , revista BBVA, junio 2013
https://www.centrodeinnovacionbbva.com/innova
tion-edge/21-big-data
 SOARES, Sunil (2013). Big Data Governance. An
emerging Imperative. Boise, USA: MC Press.
 DAVENPORT, Thomas H. y DYCHÉ, Jill. Big Data in Big
Companies. SAS. International Institute for Analytics.
 Datalytics. 18D – Pentaho Big Data Architecture,
www.datalytics.com (Pentaho)
 Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . In-
memory Computing with SAP HANA on IBM eX5
Systems. ibm.com/redbooks. Draft Document for
Review December 7, 2012 1:59 pm SG24-8086-00
Página –130–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
BIBLIOGRAFÍA
 ZIKOPOULOS, Paul C. et al (2012). Understanding Big
Data. Analytics for Enterprise Class Hadoop and Streaming
Data. New York: McGraw-Hill.
www-01.ibm.com/software/data/bigdata/
 ZIKOPOULOS, Paul C. et al (2013). Harness the Power
of Big Data. The IBM Big Data Platform. New York:
McGraw-Hill. Descargable libre en IBM.
Página –131–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
Página –132–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
REFERENCIAS
McKinsey Global Institute . Big data: The
next frontier for innovation, competition, and
productivity. June 2011
James G. Kobielus. The Forrester Wave™:
Enterprise Hadoop Solutions, Q1 2012, February
2, 2012.
www-01.ibm.com/software/data/bigdata/
 Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No
Relacionales (NoSQL). Facultad de Ingeniería,
Universidad de Deusto. www.morelab.deusto.es
http://paginaspersonales.deusto.es/dipina
Página –133–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
REFERENCIAS
 Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER
2011. TDWI.org
IBM. http://www-01.ibm.com/software/data/bigdata/
Página –134–
© Luis Joyanes Aguilar
EGADE Business School /TEC Monterrey
Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013
LECTURAS RECOMENDADAS (historia
del cloud)
KING, Rachael (2008): “How Cloud Computing
is Changing the World?” en BusinessWeek, New
York, 4 august, 2008
 LEINWAND, Allan (2008): “It´s 2018: Who
Owns the Cloud?” en BusinessWeek, New York, 4
august, 2008
THE ECONOMIST (2008): “Let it rise. A
Special report on IT Corporate” en The
Economist, London, October 25th 2008.
Página –135–

Más contenido relacionado

La actualidad más candente

Privacidad y anonimato
Privacidad y anonimatoPrivacidad y anonimato
Privacidad y anonimato
JSS22
 
Inteligencia De Negocios para Dummies
Inteligencia De Negocios para DummiesInteligencia De Negocios para Dummies
Inteligencia De Negocios para Dummies
Sorey García
 

La actualidad más candente (20)

Big Data para Dummies
Big Data para DummiesBig Data para Dummies
Big Data para Dummies
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
Big data
Big dataBig data
Big data
 
Big data presentacion diapositiva
Big data presentacion diapositivaBig data presentacion diapositiva
Big data presentacion diapositiva
 
Big data
Big dataBig data
Big data
 
Analyse spatiale en Big data
Analyse spatiale en Big dataAnalyse spatiale en Big data
Analyse spatiale en Big data
 
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.
 
Histoire du big data
Histoire du big dataHistoire du big data
Histoire du big data
 
Cuentas de usuarios, grupos y unidades organizativas
Cuentas de usuarios, grupos y unidades organizativasCuentas de usuarios, grupos y unidades organizativas
Cuentas de usuarios, grupos y unidades organizativas
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Chapitre1 introduction
Chapitre1 introductionChapitre1 introduction
Chapitre1 introduction
 
Privacidad y anonimato
Privacidad y anonimatoPrivacidad y anonimato
Privacidad y anonimato
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCG
 
Sqlite
SqliteSqlite
Sqlite
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
Big data
Big dataBig data
Big data
 
Inteligencia De Negocios para Dummies
Inteligencia De Negocios para DummiesInteligencia De Negocios para Dummies
Inteligencia De Negocios para Dummies
 
Introduction au big data
Introduction au big dataIntroduction au big data
Introduction au big data
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 

Destacado

Big Data y su impacto en la Inteligencia de Negocios
Big Data y su impacto en la Inteligencia de NegociosBig Data y su impacto en la Inteligencia de Negocios
Big Data y su impacto en la Inteligencia de Negocios
Luis Joyanes
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Socialmetrix
 

Destacado (20)

Big Data y Minería de datos
Big Data y Minería de datos Big Data y Minería de datos
Big Data y Minería de datos
 
Big Data. La revolución y el poder de los datos
Big Data. La revolución y el poder de los datosBig Data. La revolución y el poder de los datos
Big Data. La revolución y el poder de los datos
 
Big Data y su impacto en la Inteligencia de Negocios
Big Data y su impacto en la Inteligencia de NegociosBig Data y su impacto en la Inteligencia de Negocios
Big Data y su impacto en la Inteligencia de Negocios
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión II
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big Data
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Big data ppt
Big  data pptBig  data ppt
Big data ppt
 
Mining data, big data, cloud computing.
Mining data, big data, cloud computing.Mining data, big data, cloud computing.
Mining data, big data, cloud computing.
 
CUADRO COMPARATIVO DE CONCEPTOS DE MINING DATA, BIG DATA Y CLOUD COMPUTING.
CUADRO COMPARATIVO DE CONCEPTOS DE   MINING DATA, BIG DATA Y CLOUD COMPUTING.CUADRO COMPARATIVO DE CONCEPTOS DE   MINING DATA, BIG DATA Y CLOUD COMPUTING.
CUADRO COMPARATIVO DE CONCEPTOS DE MINING DATA, BIG DATA Y CLOUD COMPUTING.
 
Conferencia Cloud Computing y Big Data: los pilares del científico de datos
Conferencia Cloud Computing y Big Data: los pilares del científico de datosConferencia Cloud Computing y Big Data: los pilares del científico de datos
Conferencia Cloud Computing y Big Data: los pilares del científico de datos
 
Conferencia businessintelligence
Conferencia businessintelligence Conferencia businessintelligence
Conferencia businessintelligence
 
Cloud Computing - Retos y oportunidades en la educación 2013
Cloud Computing - Retos y oportunidades en la educación 2013Cloud Computing - Retos y oportunidades en la educación 2013
Cloud Computing - Retos y oportunidades en la educación 2013
 
Big Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BIBig Data - Infraestrucutra de BI para soluciones de BI
Big Data - Infraestrucutra de BI para soluciones de BI
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
Bases de Datos Analiticas-Columnares
Bases de Datos Analiticas-ColumnaresBases de Datos Analiticas-Columnares
Bases de Datos Analiticas-Columnares
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
 

Similar a Curso de big data

Similar a Curso de big data (20)

Conferencia bigdata uem
Conferencia bigdata uemConferencia bigdata uem
Conferencia bigdata uem
 
Big data en la era de la nube
Big data en la era de la nubeBig data en la era de la nube
Big data en la era de la nube
 
Upsa abril2014
Upsa abril2014Upsa abril2014
Upsa abril2014
 
San luis bigdata
San luis bigdataSan luis bigdata
San luis bigdata
 
Presentación bigdata
Presentación bigdataPresentación bigdata
Presentación bigdata
 
Big data medellin_seminario_internacional
Big data medellin_seminario_internacionalBig data medellin_seminario_internacional
Big data medellin_seminario_internacional
 
Curso de innovaciones tecnológicas y cloud computing
Curso de innovaciones tecnológicas y cloud computingCurso de innovaciones tecnológicas y cloud computing
Curso de innovaciones tecnológicas y cloud computing
 
Open data redeltic
Open data redelticOpen data redeltic
Open data redeltic
 
Big data&data science vfinal
Big data&data science vfinalBig data&data science vfinal
Big data&data science vfinal
 
Presentación open data upv, donostia
Presentación open data   upv, donostiaPresentación open data   upv, donostia
Presentación open data upv, donostia
 
Tec monterrey ciudadanía_inclusion_digital
Tec monterrey ciudadanía_inclusion_digitalTec monterrey ciudadanía_inclusion_digital
Tec monterrey ciudadanía_inclusion_digital
 
El valor de los datos abiertos
El valor de los datos abiertosEl valor de los datos abiertos
El valor de los datos abiertos
 
Informe unir sobre big data y periodismo de datos
Informe unir sobre big data y periodismo de datosInforme unir sobre big data y periodismo de datos
Informe unir sobre big data y periodismo de datos
 
Nuevas tecnologias power point pptx
Nuevas tecnologias power point pptxNuevas tecnologias power point pptx
Nuevas tecnologias power point pptx
 
Reutilización de la Información del Sector Público Risp - OpenData.
Reutilización de la Información del Sector Público Risp - OpenData.Reutilización de la Información del Sector Público Risp - OpenData.
Reutilización de la Información del Sector Público Risp - OpenData.
 
Los datos abiertos un movimiento en expansión
Los datos abiertos un movimiento en expansiónLos datos abiertos un movimiento en expansión
Los datos abiertos un movimiento en expansión
 
20180711 interoperabilidaddatosabiertosid ev1_afrodriguez
20180711 interoperabilidaddatosabiertosid ev1_afrodriguez20180711 interoperabilidaddatosabiertosid ev1_afrodriguez
20180711 interoperabilidaddatosabiertosid ev1_afrodriguez
 
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
Conferencia ciberseguridad 360º bis: Impacto Big Data, Cloud e Internet de la...
 
#OpenData #RISP Epsi Platform
#OpenData #RISP Epsi Platform#OpenData #RISP Epsi Platform
#OpenData #RISP Epsi Platform
 
Transmedia Open Data
Transmedia Open DataTransmedia Open Data
Transmedia Open Data
 

Más de Luis Joyanes (6)

Curso doctorado nebrija enero 2014
Curso doctorado nebrija enero 2014Curso doctorado nebrija enero 2014
Curso doctorado nebrija enero 2014
 
Innovaciones tecnológicas qbit
Innovaciones tecnológicas qbitInnovaciones tecnológicas qbit
Innovaciones tecnológicas qbit
 
Innovaciones tecnológicas qbit
Innovaciones tecnológicas qbitInnovaciones tecnológicas qbit
Innovaciones tecnológicas qbit
 
Master salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusinessMaster salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusiness
 
Master salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusinessMaster salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusiness
 
Master salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusinessMaster salamancamarzo 4_ socialbusiness
Master salamancamarzo 4_ socialbusiness
 

Último

FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
El Fortí
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...
JonathanCovena1
 
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfCurso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Francisco158360
 
Criterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosCriterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficios
JonathanCovena1
 
2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx
2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx
2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx
RigoTito
 
PLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docxPLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docx
lupitavic
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
EliaHernndez7
 
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdfNUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
UPTAIDELTACHIRA
 

Último (20)

LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
LABERINTOS DE DISCIPLINAS DEL PENTATLÓN OLÍMPICO MODERNO. Por JAVIER SOLIS NO...
 
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURAFORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
FORTI-MAYO 2024.pdf.CIENCIA,EDUCACION,CULTURA
 
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdf
Programacion Anual Matemática5    MPG 2024  Ccesa007.pdfProgramacion Anual Matemática5    MPG 2024  Ccesa007.pdf
Programacion Anual Matemática5 MPG 2024 Ccesa007.pdf
 
Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024Prueba libre de Geografía para obtención título Bachillerato - 2024
Prueba libre de Geografía para obtención título Bachillerato - 2024
 
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJO
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJOACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJO
ACTIVIDAD DIA DE LA MADRE FICHA DE TRABAJO
 
Medición del Movimiento Online 2024.pptx
Medición del Movimiento Online 2024.pptxMedición del Movimiento Online 2024.pptx
Medición del Movimiento Online 2024.pptx
 
La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...La empresa sostenible: Principales Características, Barreras para su Avance y...
La empresa sostenible: Principales Características, Barreras para su Avance y...
 
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdfCurso = Metodos Tecnicas y Modelos de Enseñanza.pdf
Curso = Metodos Tecnicas y Modelos de Enseñanza.pdf
 
Criterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficiosCriterios ESG: fundamentos, aplicaciones y beneficios
Criterios ESG: fundamentos, aplicaciones y beneficios
 
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
ACERTIJO DE LA BANDERA OLÍMPICA CON ECUACIONES DE LA CIRCUNFERENCIA. Por JAVI...
 
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdfTema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
Tema 8.- PROTECCION DE LOS SISTEMAS DE INFORMACIÓN.pdf
 
2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx
2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx
2 REGLAMENTO RM 0912-2024 DE MODALIDADES DE GRADUACIÓN_.pptx
 
PLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docxPLAN DE REFUERZO ESCOLAR primaria (1).docx
PLAN DE REFUERZO ESCOLAR primaria (1).docx
 
Sesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronósticoSesión de clase: Fe contra todo pronóstico
Sesión de clase: Fe contra todo pronóstico
 
CALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDADCALENDARIZACION DE MAYO / RESPONSABILIDAD
CALENDARIZACION DE MAYO / RESPONSABILIDAD
 
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLAACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
ACERTIJO DE POSICIÓN DE CORREDORES EN LA OLIMPIADA. Por JAVIER SOLIS NOYOLA
 
Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...Caja de herramientas de inteligencia artificial para la academia y la investi...
Caja de herramientas de inteligencia artificial para la academia y la investi...
 
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
🦄💫4° SEM32 WORD PLANEACIÓN PROYECTOS DARUKEL 23-24.docx
 
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niñoproyecto de mayo inicial 5 añitos aprender es bueno para tu niño
proyecto de mayo inicial 5 añitos aprender es bueno para tu niño
 
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdfNUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
NUEVAS DIAPOSITIVAS POSGRADO Gestion Publica.pdf
 

Curso de big data

  • 1. 11 Prof. Luis Joyanes Aguilar INNOVACIONES TECNOLÓGICAS Estrategias empresariales en: Cloud Computing y Big Data EGADE Business School (campus BBVA, La Moraleja) Madrid, 2 de octubre, 2013
  • 2. 22 ESTADO DEL ARTE DE CLOUD COMPUTING Prof. Luis Joyanes Aguilar COMPUTACIÓN EN LA NUBE La nueva era de la computación
  • 3. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Página –3–
  • 4. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Página –4–
  • 5. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 CONTENIDO 1. INNOVACIONES TECNOLÓGICAS 2. CLOUD COMPUTING 3. BIG DATA y BUSINESS ANALYTICS 4. ESTRATEGIAS EMPRESARIALES PARA CLOUD COMPUTING y BIG DATA 5. CONCLUSIONES Y FUTURO ANEXO. Libros y documentación de referencia, Referencias Web Página –5–
  • 6. 6 III. BIG DATA Una introducción gerencial y para empresas Prof. Luis Joyanes Aguilar
  • 7. 77 EGADE Business School Prof. Luis Joyanes Aguilar BIG DATA El universo digital de datos
  • 8. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 LA ERA DEL PETABYTE (1.000 TB), Wired , julio 2008 (www.wired.com) Sensores en todas partes, almacenamiento infinito y Nubes (clouds) de procesadores  Nuestra capacidad para capturar, almacenar y comprender cantidades masivas de datos está cambiando la ciencia, medicina, negocios y tecnología. A medida que aumenta nuestra colección de hechos y figuras, crece la oportunidad de encontrar respuestas a preguntas fundamentales. Because in the era of big data, more isn´t just more. More is different Página –8–
  • 9. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com)  1TB (250.000 canciones) 20 TB (fotos “uploaded” a Facebook cada mes)  120 TB (todos los datos e imágenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climático en EEUÜ compilados por el National Climatic Data Center); 530 TB (Todos los vídeos de YouTube); 600 TB (base de datos de genealogía, incluye todos los censos de EEUU 1790-2000) 1 PB (datos procesados por los servidores de Google cada 75 minutos) Página –9–
  • 10. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Tabla de unidades de almacenamiento (The Economist, febrero 2010): “data, data everywhere” www.economist.com/specialreports/displaystory.cfm?story_id=15557421 Página –10–
  • 11. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 El Universo Digital – EMC / IDC Página –11–
  • 12. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 El Universo Digital – EMC / IDC Página –12–
  • 13. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 EL UNIVERSO DIGITAL DE DATOS, 2013  EMC Corporation PUBLICÓ en diciembre de 2013, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: “Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East”. El estudio arrojó que, a pesar de la expansión sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y máquinas, IDC estima que solo 0,5% de los datos mundiales se analizan. Página –13–
  • 14. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 EL UNIVERSO DIGITAL DE DATOS, 2013  La proliferación a nivel mundial de dispositivos, como PC y teléfonos inteligentes, aumentó el acceso a Internet dentro de los mercados emergentes, y el incremento de datos generados por máquinas, como cámaras de vigilancia o contadores inteligentes, ha contribuido a la duplicación del Universo Digital en los últimos dos años solamente, hasta alcanzar un tamaño descomunal de 2,8 ZB. IDC proyecta que, para el 2020, el Universo Digital alcanzará 40 ZB, cifra que supera las proyecciones anteriores por 14%. Página –14–
  • 15. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 EL UNIVERSO DIGITAL DE DATOS, 2013  En términos de volumen, 40 ZB de datos son equivalentes a lo siguiente:  Existen 700.500.000.000.000.000.000 granos de arena en todas las playas del mundo (o setecientos trillones quinientos mil billones). Esto significa que 40 ZB equivalen a 57 veces la cantidad de granos de arena de todas las playas del mundo. Si pudiéramos guardar los 40 ZB en los discos Blue-ray de la actualidad, el peso de dichos discos (sin fundas ni estuches) sería equivalente a 424 portaaviones Nimitz. En 2020, 40 ZB serán 5.247 GB por persona a nivel mundial.  Referencia: America Economia: http://tecno.americaeconomia.com/noticias/el-gran- universo-digital-la-data-crece-mas-rapido-de-lo-que- podemos-protegerla Página –15–
  • 16. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 El universo digital de datos, IDC 2013 Pina –16–
  • 17. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 El universo digital de datos, 2013 Página –17–
  • 18. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 OPEN DATA (Datos abiertos) Página –18–
  • 19. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 OPEN DATA (Datos abiertos) Las administraciones públicas [de cualquier organismo nacional e internacional] generan gran cantidad de información en formatos propios de difícil acceso para la mayoría de los ciudadanos. Bases de datos, listas, estudios, informes, estadísticas, etc. son datos abiertos (open data) en formatos propios que son de difícil acceso para la mayoría de los ciudadanos. Página –19–
  • 20. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 OPEN DATA (Datos abiertos) Evidentemente estos datos se almacenan normalmente en centros de datos propios de las administraciones que a su vez se almacenan y gestionan en nubes públicas o privadas ¿Qué necesitan los profesionales o las empresas para sacar rentabilidad a esos datos públicos? Evidentemente la colaboración de las entidades públicas para liberar cada día más información y crear más oportunidades de negocio Página –20–
  • 21. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 ¿Qué son datos abiertos? Los Datos Abiertos constituyen una iniciativa de transparencia y Gobierno Abierto que consiste en la liberación de conjuntos de datos que son de interés público. Los Datos Abiertos son puestos a disposición de la sociedad, se promueve su libre acceso y reutilización, exceptuando aquellos datos que por razones de seguridad y privacidad previstas en la normativas vigentes no puedan ser publicados; La mayor parte de los datos generados o mantenidos por el estado son públicos. Sin embargo, no sólo el estado puede abrir sus datos: empresas, organizaciones y comunidades de información que producen o mantienen datos pueden ponerlos a disposición, siempre en formatos abiertos y bajo licencias libres. Página –21–
  • 22. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 OPEN DATA (Datos abiertos) La administración de Estados Unidos inició la iniciativa Open Data y en paralelo la Unión Europea ha ido adoptando también la iniciativa. En España los primeros gobiernos han sido los Gobiernos Autonómicos de El Principado de Asturias y el País Vasco. Página –22–
  • 23. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 OPEN DATA (Datos abiertos) La iniciativa del Gobierno Vasco se ha plasmado en la puesta en funcionamiento de Open Data Euskadi que pretende crear un sitio web donde la información reutilizable (contenidos abiertos) estén al alcance de cualquier ciudadano. Un estudio de la UE(2010) estima que el mercado de información pública podría generar riqueza por valor de 27.000 millones de euros. Página –23–
  • 24. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 OPEN DATA EN LATAM… Colombia  Portal de Datos Abiertos del gobierno http://datosabiertoscolombia.cloudapp.ne t/frm/buscador/frmBuscador.aspx Perú  Portal de Datos Abiertos de la Municipalidad de Lima  Portal de Datos Abiertos: http://www.datosperu.org/ Página –24–
  • 25. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 INICIATIVAS PIONERAS INTERNACIONALES EN OPEN DATA En España… además de los gobiernos autonómicos de Asturias, País Vasco y Cataluña, la fundación CTIC ligada al consorcio W3C (www.fundacionctic.org). http://datos.gob.es/datos/?q=node/232 En Estados Unidos data.gov, en Gran Bretaña data.gov.uk  En Google (abril 2011, del número 1) la revista de negocios. //thinkquarterly.co.uk. El número 1 dedicado a OPEN DATA. En la Unión Europea (Iniciativa OPEN DATA): http://open-data.europa.eu/es Página –25–
  • 26. 2626 EGADE Business School Prof. Luis Joyanes Aguilar III BIG DATA Y ANALÍTICA DE DATOS. Nuevas bases de datos NoSQL, “In-Memory”…
  • 27. 2727 Prof. Luis Joyanes Aguilar Arquitectura de Big Data
  • 28. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Harvard Business Review, octubre 2012 Página –28–
  • 29. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Foreign Affairs, mayo 2013 Página –29–
  • 30. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Revista BBVA, innovation edge, junio 2013 Página –30–
  • 31. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 LA AVALANCHA DE DATOS  Según Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días2. Las previsiones aseguran que en esta década crearemos alrededor de 35 zettabytes (40 ZB, informe de diciembre de 2012)  Según la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (del modelo de 32GB) necesitaríamos 57.500 millones; puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la “montaña” resultante sería 25 veces más alta que el monte Fuji. Página –31–
  • 32. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 LA AVALANCHA DE DATOS Twitter: (redes sociales)  90 millones de tuits (tweets) por día que representa 8 Terabytes. Boeing: (industria)  Vuelo transoceánico de un jumbo puede generar 640 Terabytes. Wal-Mart: (comercio)  1 millón de transacciones por hora que se estima que alimenta una base de datos de 2.5 petabytes. Google procesa al día 20 PB de información Página –32–
  • 33. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Página –33–
  • 34. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Página –34–
  • 35. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 BIG DATA, bbva edge, junio 2013 Fuentes: SAS | Big Data: www.sas.com/big-data. IBM | Big Data at the Speed of Business McKinsey Global Institute | Big Data: The next frontier for innovation, competition, and productivity, junio 2011. Fuente: Intel | What Happens in an Internet Minute? www.intel.com/content/www/us/en/communic ations/internet-minute-infographic.html Página –35–
  • 36. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 EXPANSIÓN, de Wall Street Journal, 1 de abril 2013  01.04.2013 S. Rosenbush / M. Totty. WSJ. Las empresas están buscando la mejor forma de aprovechar el exceso de información.  La información abunda y las empresas están buscando la mejor forma de aprovecharla. Los expertos ya bautizaron este fenómeno como big data. La definición es amorfa, pero normalmente significa lo siguiente: las empresas tienen acceso a mucha más información que antes, que proviene de muchas más fuentes y la obtienen casi al momento en que se genera. Página –36–
  • 37. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 EXPANSIÓN, de Wall Street Journal, 1 de abril 2013  El concepto de big data a menudo se relaciona con las empresas que ya operan en el mundo de la información, como Google, Facebook y Amazon. Pero compañías en múltiples industrias están colocando los datos en el corazón de sus operaciones. Están recolectando cantidades enormes de información, a menudo combinando indicadores tradicionales como las ventas, con comentarios de redes sociales e información de ubicación que viene de los dispositivos móviles. Las empresas escudriñan esta información para mejorar sus productos, recortar gastos y mantener la fidelidad de sus clientes.  Las firmas de logística, por ejemplo, instalan sensores en sus camiones para detectar formas de acelerar las entregas. Los fabricantes revisan miles de publicaciones en foros de Internet para determinar si a los clientes les gusta una nueva característica. Los gerentes de personal estudian cómo los candidatos a un empleo responden preguntas para ver si encajan bien con la compañía. Página –37–
  • 38. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 Aún quedan numerosos obstáculos en el camino. Algunos son técnicos, pero en la mayoría de las empresas las decisiones se siguen basando en la opinión de la persona con el salario más alto y podría ser difícil convencer a un ejecutivo de que los datos superan su intuición. Los recursos humanos, las operaciones, el desarrollo de productos o el márketing son las diferentes formas a través de las cuales las empresas usan el poder de la información para transformar sus negocios. Página –38–
  • 39. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)  UPS UPS comenzó a instalar sensores en sus vehículos de reparto para conocer su velocidad y ubicación, si el cinturón de seguridad del conductor está abrochado... Al combinar su información de GPS y los datos de sensores sobre rendimiento en más de 46.000 vehículos, UPS recortó 136 millones de kilómetros de sus rutas. Página –39–
  • 40. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio)  InterContinental La cadena hotelera InterContinental ha recabado información sobre los 71 millones de miembros de su programa Priority Club, como niveles de ingresos y preferencias sobre las instalaciones. El grupo consolidó la información en un solo almacén de datos que reúne información de redes sociales y procesa búsquedas más rápido Página –40–
  • 41. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Tabla de unidades de almacenamiento (The Economist, febrero 2010): “data, data everywhere” www.economist.com/specialreports/displaystory.cfm?story_id=15557421 Página –41–
  • 42. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 LA AVALANCHA DE DATOS  Según Eric Schmidt, presidente ejecutivo de Google, entre el origen de la tierra y el 2003 se crearon cinco exabytes de información. Hoy en día creamos la misma cifra cada dos días2. Las previsiones aseguran que en esta década crearemos alrededor de 35 zettabytes (40 ZB, informe de diciembre de 2012)  Según la consultora IDC, cifran en 1,8 Zettabytes la información generada en 2011. Si tratáramos de almacenar esa información en iPads (del modelo de 32GB) necesitaríamos 57.500 millones; puestos unos al lado de otro formaríamos una línea que daría 3 veces la vuelta al mundo y, si tratáramos de apilarlos, la “montaña” resultante sería 25 veces más alta que el monte Fuji. Página –42–
  • 43. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Big Data – McKinsey. Junio 2011 Big data: The next frontier for innovation, competition, and productivity. http://www.mckinsey.com/Insights/MGI/ Research/Technology_and_Innovation/Big _data_The_next_frontier_for_innovation Página –43–
  • 44. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Big Data – McKinsey. Junio 2011 Big data: The next frontier for innovation, competition, and productivity. The amount of data in our world has been exploding. Companies capture trillions of bytes of information about their customers, suppliers, and operations, and millions of networked sensors are being embedded in the physical world in devices such as mobile phones and automobiles, sensing, creating, and communicating data. Página –44–
  • 45. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Big Data – McKinsey. Junio 2011 Multimedia and individuals with smartphones and on social network sites will continue to fuel exponential growth. Big data—large pools of data that can be captured, communicated, aggregated, stored, and analyzed—is now part of every sector and function of the global economy. Like other essential factors of production such as hard assets and human capital, it is increasingly the case that much of modern economic activity, innovation, and growth simply couldn’t take place without data. Página –45–
  • 46. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Big Data – McKinsey. Junio 2011  The question is what this phenomenon means. Is the proliferation of data simply evidence of an increasingly intrusive world? Or can big data play a useful economic role? While most research into big data thus far has focused on the question of its volume, our study makes the case that the business and economic possibilities of big data and its wider implications are important issues that business leaders and policy makers must tackle. To inform the debate, this study examines the potential value that big data can create for organizations and sectors of the economy and seeks to illustrate and quantify that value. We also explore what leaders of organizations and policy makers need to do to capture it. Página –46–
  • 47. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 What do we mean by "big data"?“ : McKinsey 2011 “Big data” refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze. This definition is intentionally subjective and incorporates a moving definition of how big a dataset needs to be in order to be considered big data—i.e., we don’t define big data in terms of being larger than a certain number of terabytes (thousands of gigabytes). We assume that, as technology advances over time, the size of datasets that qualify as big data will also increase. Also note that the definition can vary by sector, depending on what kinds of software tools are commonly available and what sizes of datasets are common in a particular industry. With those caveats, big data in many sectors today will range from a few dozen terabytes to multiple petabytes (thousands of terabytes). Página –47–
  • 48. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 DEFINICIÓN DE BIG DATA: IBM  What is big data?*  Every day, we create 2.5 quintillion bytes of data — so much that 90% of the data in the world today has been created in the last two years alone. This data comes from everywhere: sensors used to gather climate information, posts to social media sites, digital pictures and videos, purchase transaction records, and cell phone GPS signals to name a few. This data is big data.  *http://www- 01.ibm.com/software/data/bigdata/ Página –48–
  • 49. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Página –49–
  • 50. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 DEFINICIÓN DE BIG DATA: IBM Página –50–
  • 51. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 DEFINICIÓN DE BIG DATA: IBM  Big data spans four dimensions: Volume, Velocity, Variety, and Veracity.  Volume: Enterprises are awash with ever-growing data of all types, easily amassing terabytes—even petabytes— of information. • Turn 12 terabytes of Tweets created each day into improved product sentiment analysis • Convert 350 billion annual meter readings to better predict power consumption Página –51–
  • 52. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 DEFINICIÓN DE BIG DATA: IBM  Velocity: Sometimes 2 minutes is too late. For time- sensitive processes such as catching fraud, big data must be used as it streams into your enterprise in order to maximize its value. • Scrutinize 5 million trade events created each day to identify potential fraud • Analyze 500 million daily call detail records in real-time to predict customer churn faster Página –52–
  • 53. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 DEFINICIÓN DE BIG DATA: IBM  Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together.  Monitor 100’s of live video feeds from surveillance cameras to target points of interest  Exploit the 80% data growth in images, video and documents to improve customer satisfaction Página –53–
  • 54. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 DEFINICIÓN DE BIG DATA: IBM  Veracity: 1 in 3 business leaders don’t trust the information they use to make decisions. How can you act upon information if you don’t trust it? Establishing trust in big data presents a huge challenge as the variety and number of sources grows.  Big data is more than simply a matter of size; it is an opportunity to find insights in new and emerging types of data and content, to make your business more agile, and to answer questions that were previously considered beyond your reach. Until now, there was no practical way to harvest this opportunity. Today, IBM’s platform for big data uses state of the art technologies including patented advanced analytics to open the door to a world of possibilities. Página –54–
  • 55. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Modelo 3V de Big Data  VOLUMEN  • Terabytes  • Records  • Transactions  • Tables, files  VELOCIDAD VARIEDAD  • Batch (por lotes) Estructurado  • Near time (casi a tiempo) No estructurado  • Real time (tiempo real) Semi-estructurado  • Streams (flujos) Todos los demás Página –55–
  • 56. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Fuentes de Big Data  Herramientas para análisis de datos en grandes volúmenes de datos. Infraestructuras de Big Data  Fuentes de Big Data (Soares 2012):  Web y Social media  Machine-to-Machine (M2M, Internet de las cosas)  Biometria  Datos de transacciones de grandes datos (salud, telecomunicaciones…)  Datos generados por las personas (humanos) Página –56–
  • 57. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Store.com Sunil Soares (2003). Big Data Governance Emerging Imperative. Boise. MC Press Online. El autor de este libro mantiene un blog excelente sobre Big Data y Gobierno de Big Data Página –57–
  • 58. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  1. Web y Social Media: Incluye contenido web e información que es obtenida de las medios sociales como Facebook, Twitter, LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs de periódicos y televisiones, wikis como MediaWiki, Wikipedia, marcadores sociales como Del.icio.us, Stumbleupon… agregadores de contenidos como Dig, Meneame… En esta categoría los datos se capturan, almacenan o distribuyen teniendo presente las características siguientes: Datos de los flujos de clics, tuits, retuits o entradas en general (feeds) de Twitter, Tumblr…, Entradas (posting) de Facebook y contenidos web diversos. Página –58–
  • 59. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  2. Machine-to-Machine (M2M)/ Internet de las cosas: M2M se refiere a las tecnologías que permiten conectarse a otros diferentes dispositivos entre sí. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (humedad, velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de cableadas, inalámbricas y móviles a otras aplicaciones que traducen estos eventos en información significativa. La comunicación M2M ha originado el conocido Internet de las cosas o de los objetos. Entre los dispositivos que se emplean para capturar datos de esta categoría podemos considerar chips o etiquetas RFID, chips NFC, medidores (de temperaturas, de electricidad, presión…). sensores, dispositivos GPS… y ocasionan la generación de datos mediante la lectura de los medidores, lecturas de los RFID y NFC, lectura de los sensores, señales GPS, señales de GIS, etc. Página –59–
  • 60. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  3.Big Data transaccionales: Grandes datos transaccionales procedentes de operaciones normales de transacciones de todo tipo. Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados. Los datos generados procederán de registros de llamada de centros de llamada, departamentos de facturación, reclamaciones de las personas, presentación de documentos… Página –60–
  • 61. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  4. Biometría: La biometría o reconocimiento biométrico. La información biométrica se refiere a la identificación automática de una persona basada en sus características anatómicas o trazos personales. Los datos anatómicos se crean a partir de las características físicas de una persona incluyendo huellas digitales, iris, escaneo de la retina, reconocimiento facial, genética, DNA, reconocimiento de voz, incluso olor corporal etc. Los datos de comportamiento incluyen análisis de pulsaciones y escritura a mano. Los avances tecnológicos han incrementado considerablemente los datos biométricos disponibles Página –61–
  • 62. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  . En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación. En el área de negocios y de comercio electrónico los datos biométricos se pueden combinar con datos procedentes de medios sociales lo que hace aumentar el volumen de datos contenidos en los datos biométricos. Los datos generados por la biometría se pueden agrupar en dos grandes categorías: Genética y Reconocimiento facial.  “An Overview of Biometric Recpgnition”. http://biometrics.cse.nsu.edu/info.html Página –62–
  • 63. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Big Data. Joyanes, MéxicoDF: Alfaomega (2013)  5. Datos generados por las personas: Las personas generan enormes y diversas cantidades de datos como la información que guarda un centro de llamadas telefónicas (call center) al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios y registros médicos electrónicos, recetas médicas, documentos papel, faxes, etc. El problema que acompaña a los documentos generados por las personas es que pueden contener información sensible de las personas que necesita, normalmente ser oculta, enmascarada o cifrada de alguna forma para conservar la privacidad de dichas personas. Estos datos al ser sensibles necesitan ser protegidos por las leyes nacionales o supranacionales (como es el caso de la Unión Europea o Mercosur) relativas a protección de datos y privacidad. Página –63–
  • 64. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Estructura de Big Data: tipos de datos Estructurados No estructurados  No estructurados (texto, datos de vídeo, datos de audio,,,)  Semiestructurados ( a veces se conocen como “multiestructurados”. Tienen un formato y flujo lógico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML…, datos de web logs)  Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data  Objetivo principal de los sistemas de gestión de datos: Integración de datos estructurados y no estructurados Página –64–
  • 65. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 ESTADO ACTUAL DE BIG DATA 1. Almacenamiento: hacen falta nuevas tecnologías de almacenamiento 2. Bases de datos: las BD relacionales no pueden con todo 3. Procesado: se requieren nuevos modelos de programación 4. Obtención de valor: los datos no se pueden comer crudos (en bruto) La información no es conocimiento “accionable” Página –65–
  • 66. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 1. Almacenamiento Hacen falta nuevas tecnologías de almacenamiento  RAM vs HHD  Memorias hardware. HHD 100 más barato que RAM pero 1000 veces más lento  Solución actual: Solid- state drive (SSD) además no volátil  Tecnologías “in-memory” (SAP HANA…)  Investigación:  Storage Class Memory (SCM) Página –66–
  • 67. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 2. Base de datos Las BD relacionales no pueden con todo  Base de datos  volumen de la información  GBs  PBs Tiempo de ejecución  Exabytes …. Cada día más populares  Limitadas para almacenamiento de “big data”  (ACID, SQL, …)  ACID: Atomicity, Consistency, Isolation & Durability Página –67–
  • 68. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 2. Bases de datos In-Memory (en-memoria)  SAP Hana  Oracle Times Ten In-Memory Database  IBM solidDB NoSQL (Not only SQL) Relacional  Sistemas RDBMS  Transferencia de datos entre Hadoop y bases de datos relacionales Legacy (heredadas, antiguas…) Página –68–
  • 69. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 3. Procesado … HADOOP  Se requieren nuevos modelos de programación para manejarse con estos datos  Solución: Para conseguir procesar grandes conjuntos de datos: MapReduce  Pero fue el desarrollo de Hadoop MapReduce, por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source os Google creó el modelo de programación MapReduce Página –69–
  • 70. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 4. Obtención de valor  Los datos no se pueden comer ·crudos” (en bruto) la información no es conocimiento accionable  Para ello tenemos técnicas de Data Mining  • Asociación  • Clasificación  • Clustering  • Predicción  • ... La mayoría de algoritmos se ejecutan bien en miles de registros, pero son hoy por hoy impracticables en miles de millones. Página –70–
  • 71. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Bases de datos In-Memory (en-memoria)  SAP Hana  Oracle Times Ten In-Memory Database  IBM solidDB Relacionales  Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft…  Transferencia de datos entre Hadoop y bases de datos relacionales Legacy (jerárquicas, en red… primeras relacionales…) NoSQL (Cassandra, Hive, mongoDB, CouchDB, Hbase…) Página –71–
  • 72. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 BASES DE DATOS ANALÍTICAS  Analíticas: para permitir a múltiples usuarios contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información. Bases de datos de procesamiento paralelo masivo (MPP) Bases de datos “en memoria” Almacenamiento en columnas  Históricamente estas bases de datos tan especializadas tenían un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de cada organización. Página –72–
  • 73. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Bases de datos analíticas  Bases de datos diseñadas específicamente para ser utilizadas como motores de Data Warehouse.  Estas bases de datos logran procesar grandes volúmenes de información a velocidades asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:  Almacenamiento en columnas en lugar de filas (registros)  Massively parallel processing (MPP)  In-Memory Analytics Página –73–
  • 74. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Página –74–
  • 75. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Almacenamiento en columnas, no filas: FUENTE: datalytics.com Página –75–
  • 76. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Computación en memoria “In-Memory” La computación en memoria es una tecnología que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del análisis y de las transacciones. Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que están disponibles para su procesamiento o análisis inmediatamente después que se han creado). Existen un amplio conjunto de tecnologías que emplean bases de datos en memoria. SAP HANA es una de las más acreditadas y populares… (Oracle, IBM,…) Página –76–
  • 77. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 BASES DE DATOS RELACIONALES (REPASO)  La mayoría de las bases de datos cumplen con las propiedades ACID (atomicity, consistency, isolation, durability). Estas propiedades garantizan un comportamiento de las base de datos relacionales y el mejor de los argumentos para su utilización. Página –77–
  • 78. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 BASES DE DATOS NoSQL  Las bases de datos no-relacionales son comúnmente llamadas bases de datos NoSQL ya que la gran mayoría de ellas comparte el hecho de no utilizar el lenguaje SQL para realizar las consultas  Es una definición controvertida, aunque la definición más aceptada es “Not only SQL”.  Una de las características de las bases de datos no relacionales es que la mayoría de ellas no utilizan esquemas de datos rígidos como las bases de datos relacionales. Esto hace que estas bases de datos también se les llame “Schema-less” o “Schema-free (“almacenamiento des-estructurado”). Página –78–
  • 79. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Taxonomía de Bases de datos NoSQL  Los principales tipos de BBDD de acuerdo con su implementación son los siguientes:  – Almacenes de Clave-Valor  – Almacenes de Familia de Columnas (columnares)  – Almacenes de documentos (orientadas a documentos)  – Almacenes de Grafos (orientadas a grafos)  - Cachés de memoria Página –79–
  • 80. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 SOLUCIONES DE BASES DE DATOS NoSQL Página –80–
  • 81. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Integración con Big Data. FUENTE: datalytics.com Página –81–
  • 82. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Integración con Big Data. FUENTE: datalytics.com Página –82–
  • 83. 8383 Prof. Luis Joyanes Aguilar Tecnologías BIG DATA HADOOP
  • 84. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Logo de HADOOP Página –84–
  • 85. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Logo de HADOOP Página –85–
  • 86. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 TECNOLOGÍAS BIG DATA (HADOOP)  Datos de la consultora IDC de agosto de 2012 prevén que el mercado del software relacionado con los framework open source Apache Hadoop y el MapReduce de Google crecerá a un ritmo anual de más del 60% hasta el año 2016.  La popularidad de Hadoop se ha ido incrementando durante los últimos meses, a medida que las empresas necesitan manejar grandes cantidades de datos estructurados y no estructurados para después analizarlos y ser capaces de tomar decisiones lo más favorables posible para sus negocios.  IDC también espera que el mercado de Hadoop-MapReduce evolucione y que poco a poco comienza a introducirse en los sistemas empresariales. Página –86–
  • 87. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Hadoop “The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple Programming model”  De la página de Hadoop Página –87–
  • 88. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 TECNOLOGÍAS BIG DATA (HADOOP)  Hadoop es un proyecto de software open source que provee un framework para habilitar el procesamiento distribuido de grandes conjuntos de datos sobre clusters construidos con hardware genérico. En esencia, Hadoop consiste de dos elementos base: un sistema de archivos distribuido (Hadoop Distributed File System, HDFS) y un motor de procesamiento de datos que implementa el modelo Map/Reduce (Hadoop MapReduce). Sin embargo, conforme ha ido ganando adopción y madurez, también se han ido creando tecnologías para complementarlo y ampliar sus escenarios de uso, de tal forma que hoy en día el nombre “Hadoop” no se refiere a una sola herramienta sino a una familia de herramientas alrededor de HDFS y MapReduce. Página –88–
  • 89. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 What Is Apache Hadoop? (Fundación Apache)  The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.  The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high- avaiability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-availabile service on top of a cluster of computers, each of which may be prone to failures. Página –89–
  • 90. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Historia de HADOOP  ● 2004-2006  – Google publica los papers de GFS y MapReduce  – Doug Cutting implementa una version Open Source en  Nutch  ● 2006-2008  – Hadoop se separa de Nutch  – Se alcanza la escala web en 2008  ● 2008-Hasta ahora  – Hadoop se populariza y se comienza a explotar  comercialmente.  Fuente: Hadoop: a brief history. Doug Cutting Página –90–
  • 91. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Historia de Hadoop: Doug Cutting Página –91–
  • 92. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Logo de HADOOP Página –92–
  • 93. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Logo de HADOOP Página –93–
  • 94. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Página –94–
  • 95. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Fundación Apache: proyectos open source  The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good  The Apache Software Foundation provides support for the Apache community of open-source software projects, which provide software products for the public good Página –95–
  • 96. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 TECNOLOGÍAS BIG DATA (HADOOP)  Datos de la consultora IDC de agosto de 2012 prevén que el mercado del software relacionado con los framework open source Apache Hadoop y el MapReduce de Google crecerá a un ritmo anual de más del 60% hasta el año 2016.  La popularidad de Hadoop se ha ido incrementando durante los últimos meses, a medida que las empresas necesitan manejar grandes cantidades de datos estructurados y no estructurados para después analizarlos y ser capaces de tomar decisiones lo más favorables posible para sus negocios.  IDC también espera que el mercado de Hadoop-MapReduce evolucione y que poco a poco comienza a introducirse en los sistemas empresariales. Página –96–
  • 97. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Componentes HADOOP (Apache)  The project includes these modules:  Hadoop Common: The common utilities that support the other Hadoop modules.  Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.  Hadoop YARN: A framework for job scheduling and cluster resource management.  Hadoop MapReduce: A YARN-based system for parallel processing of large data sets. Página –97–
  • 98. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Hadoop  Apache Hadoop es un framework que permite el tratamiento distribuido de grandes cantidades de datos (del orden de peta bytes) y trabajar con miles de máquinas de forma distribuida. Se inspiró en los documentos sobre MapReduce y Google File System publicados por Google.  Está desarrollado en Java y se ejecuta dentro de la JVM.  Actualmente está soportado por Google, Yahoo e IBM entre otros. También existen empresas como Cloudera (http://www.cloudera.com/) que ofrecen soluciones empresariales Open Source basadas en Hadoop. Página –98–
  • 99. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Hadoop  Las características principales de Hadoop son  Económico: Está diseñado para ejecutarse en equipos de bajo coste formando clústeres. Estos clústeres pueden llevarnos a pensar en miles de nodos de procesamiento disponibles para el procesado de información.  • Escalable: Si se necesita más poder de procesamiento o capacidad de almacenamiento solo hay que añadir más nodos al clúster de forma sencilla.  • Eficiente: Hadoop distribuye los datos y los procesa en paralelo en los nodos donde los datos se encuentran localizados.  • Confiable: Es capaz de mantener Es capaz de mantener múltiples copias de los datos y  automáticamente hacer un re-despliegue de las tareas Página –99–
  • 100. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Hadoop  El diseño de Hadoop se divide en dos partes principales:  Por un lado está el sistema de ficheros distribuido Hadoop Distributed File System (HDFS) que se encarga de almacenar todos los datos repartiéndolos entre cada nodo de la red Hadoop.  Por otro lado la implementación de MapReduce que se encarga del procesamiento de la información de forma distribuida. Página –100–
  • 101. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Hadoop Página –101–
  • 102. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Página –102–
  • 103. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Hadoop en la actualidad  Hadoop se puede utilizar en teoría para casi cualquier tipo de trabajo batch, mejor que ha trabajos en tiempo real, ya que son más fáciles de dividir y ejecutar en paralelo. Entre lo campos actuales a aplicación se encuentran:  • Análisis de logs  • Análisis de mercado  • Machine learning y data mining  • Procesamiento de imágenes  • Procesamiento de mensajes XML  • Web crawling  • Indexación Página –103–
  • 104. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Hadoop en la actualidad  Actualmente Hadoop es un framework muy extendido en el ámbito empresarial, sobre todo en compañías que manejan grandes volúmenes de datos. Entre las que podemos descarta las siguientes empresas:  Yahoo: La aplicación Yahoo! Search Webmap está implementado con Hadoop sobre un clúster de mas de 10.000 nodos Linux y la información que produce es la utilizada por el buscador de Yahoo.  Facebook: Tiene ha día de hoy el mayor clúster Hadoop del mundo que almacena hasta 30 peta bytes de información  Amazon A9: Se utiliza para la generar índices de búsqueda de los productos ofertados en el portal. Disponen de varios clústeres de entre 1 y 100 nodos  cada uno. Página –104–
  • 105. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Hadoop en la actualidad  The New York Times: Utiliza Hadoop y EC2 (Amazon Elastic Compute Cloud) para convertir 4 Tera bytes de imágenes TIFF en imágenes PNG de 800 K para ser mostradas en la Web en 36 horas.  Además existen compañías cuyo negocio es principal es Hadoop, como Cloudera, que comercializa CDH (Cloudera's Distribution including Apache Hadoop), que da soporte en la configuración y despliegue de clústeres  Hadoop. Además proporciona servicios de consultoría y formación en estas tecnología. Todo el software que distribuyen es Open Source. Página –105–
  • 106. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Distribuciones de Hadoop Página –106–
  • 107. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Proveedores de Big Data  Algunos han desarrollado sus propias distribuciones de Hadoop (con diferentes niveles de personalización: disponibilidad, rendimiento, replicas …). Una distribución muy popular  Otros ejemplos: MapR, Greenplum, Hortonworks, …  Hay docenas Página –107–
  • 108. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Empresas que ya utilizan “Big Data”   . IBM  Intel  HP  Oracle  Teradata  Fujitsu  CSC  Accenture  Dell  Seagate  Capgemini Página –108–
  • 109. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Definición de Analítica de Big Data BIG DATA ANALYTICS : (TDWI): 4Q 2011  Big data analytics is where advanced analytic techniques operate on big data sets. Hence, big data analytics is really about two things—big data and analytics—plus how the two have teamed up to create one of the most profound trends in business intelligence (BI) today.  The definition is easy to understand, but do users actually use the term? To quantify this question, the survey for this report asked: “Which of the following best characterizes your familiarity with big data analytics and how you name it?” The survey results show that most users understand the concept of big data analytics, whether they have a name for it or not: Página –109–
  • 110. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 ANALÍTICA DE BIG DATA  Cloudera  EMC Greenplum  IBM  Impetus Technologies  Kognitio  ParAccel  SAP  SAND Technology  SAS  Tableau Software  Teradata Página –110–
  • 111. 111111 OPORTUNIDADES Y NUEVAS PROFESIONES TECNOLÓGICAS Y DE COMUNICACIÓN DEMANDADAS POR LAS EMPRESAS Prof. Luis Joyanes Aguilar
  • 112. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 OPORTUNIDADES PARA LATINOAMÉRICA Despliegue y comercialización de la red de alta velocidad y gran ancho de banda LTE (4G) en la actualidad (Noticia de impacto en CLOUD COMPUTING y Big Data y gran ventaja competitiva). En Europa está comenzando el despliegue y comercialización este año 2013. Colombia, Panamá, México, Dominicana… ya iniciaron el despliegue Página –112–
  • 113. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 OPORTUNIDADES PARA COLOMBIA Y PERÚ TURISMO INTELIGENTE (Smart Tourism). Vease proyecto piloto aprobado en marzo 2013 de la Isla de Hierro de Canarias apoyándose en despliegues móviles, cloud computing y big data. CREACIÓN Y CONSTRUCCIÓN DE CENTROS DE DATOS para dar soporte a infraestructuras, plataformas y desarrollo de Cloud Computing (COLOMBIA y PERÚ, tieneN las condiciones de hábitat idóneas para construcción de Data Centers).  PUESTA EN MARCHA DE ESTUDIOS DE CLOUD COMPUTING , BIG DATA Y ANALYTICS, así como CERTIFICACIONES INTERNACIONALES correspondientes. Página –113–
  • 114. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 NECESIDAD DE FORMACIÓN PROFESIONAL AVANZADA EN CLOUD COMPUTING-BIG DATA  El mercado tiene carencia de especialistas en Cloud Computing y sobre todo en Big Data. Hay miles de puestos que se deberán cubrir en los próximos cinco años según estadísticas fiables de IDC, Gartner, Forrester, McKinsey…  UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de datos) y además ANALISTAS DE DATOS (formados en Analytics y tecnologías Big Data ·Hadoop”, “InMemory”…)  Se necesitan certificaciones profesionales en CLOUD COMPUTING Y BIG DATA… “TECNOLÓGICAS Y DE NEGOCIOS” Página –114–
  • 115. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 NUEVAS PROFESIONES EN LA ECONOMÍA Y EMPRESA DIGITAL  Algunas de las profesiones o roles más demandados son: CTO (Chief Technology Officer) ASO (App search optimization). Especialista en “app search optimization”… similar al SEO pero para apps móviles. Expertos en usabilidad y experiencia de usuario (UX) Profesionales de big data (“análisis de grandes volúmenes de datos) Página –115–
  • 116. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 NUEVAS CARRERAS UNIVERSITARIAS: maestrias,ingeniería, diplomados… Community Manager, Social Media Manager y Analista Web y SEO Ingeniero de Cloud Computing (En España hay una universidad privada que lo lanza el próximo curso) Ingeniero de negocios digitales (Digital Business Intelligence) Ingeniero de datos (Infraestructuras, Bases de datos NoSQL, Hadoop, Tecnologías “in-memory”…) Analítica de datos (Analytics) y Analítica de Big Data Página –116–
  • 117. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 NUEVAS CARRERAS Y PROFESIONES Community Manager , Social Media Manager, SEO, Analistas Web … cada día son más demandadas y. Sin embargo la profesión del futuro será: EL CIENTÍFICO DE DATOS (Data Scientist). Un profesional con formación de Sistemas, Estadística, Analítica, Ciencias Físicas y Biológicas… que analizará los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios. HBR (Harvard Business Review lo declaró la profesión “MÁS SEXY del siglo XXI”…) Página –117–
  • 118. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 LAS TITULACIONES-PROFESIONES MÁS DEMANDADAS en TIC EN PRÓXIMOS AÑOS (HBR, Harvard Business Review) número de octubre de 2012 (Los datos el nuevo petróleo/oro del siglo XXI): Ciencia de los datos: Data Science (Maestría/Doctorado) … En Estados Unidos, México y Europa… ya existen iniciativas. LA PROFESIÓN MÁS SEXY DEL SIGLO XXI : EL CIENTÍFICO DE DATOS (Data Scientist) Página –118–
  • 119. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 INNOVACIÓN VS ESPECIALIZACIÓN INTELIGENTE* “La estrategia de especialización inteligente (RIS3 en inglés) parte de un principio básico: hace falta que haya una masa crítica de recursos para innovar y un territorio tiene que concentrar sus recursos en aquello que genera ventajas competitivas, actuales o potenciales. Más aún, en tiempos de crisis y escasez.”  *Aranguren, Navarro y Wilson (Instituto Vasco de Competitividad, Deusto Business School) en La Vanguardia, 22 de septiembre de 2013, p. 34. Página –119–
  • 120. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 INNOVACIÓN VS ESPECIALIZACIÓN INTELIGENTE* “El término “especialización inteligente” hace referencia a la necesidad de concentrar los recursos en determinadas apuestas. Pero toda estrategia inteligente requiere, paradójicamente, diversificar: producir otros productos y para otros mercados. Esto resulta evidente en estos momentos, en España, en que la demanda doméstica ha caído como media un 40 por ciento de los productos tradicionales” Página –120–
  • 121. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 INNOVACIÓN VS ESPECIALIZACIÓN INTELIGENTE* “La Unión Europea ha fijado a las regiones que elaboren una estrategia de especialización inteligente como una condicionalidad ex ante para acceder a los fondos estructurales y de inversión. […] Se trata de seguir o establecer nuevas estrategias regionales de innovación que nusca pasar de una aproximación a la estrategia de carácter tradicional, basada en el diseño y posterior ejecución de una plan, a una aproximación más dinámica y viva, que descansa en procesos participativos y en evaluación permanente” Página –121–
  • 122. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 INNOVACIÓN VS ESPECIALIZACIÓN INTELIGENTE* Innovaciones tecnológicas en TIC Cloud Computing Big Data Movilidad Medios sociales Internet de las cosas Ayudarán considerablemente a la potenciación de la innovación y la especialización inteligente. Página –122–
  • 123. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Página –123– MUCHAS GRACIAS … ¿Preguntas? Portal tecnológico y de conocimiento www.mhe.es/joyanes Portal GISSIC “El Ágora de Latinoamérica”: gissic.wordpress.com Twitter:@luisjoyanes www.slideshare.net/joyanes www.facebook.com/joyanesluis PORTAL NTICS : luisjoyanes.wordpress.com (en construcción) CORREO-e: joyanes@gmail.com
  • 124. 124 Prof. Luis Joyanes Aguilar BIBLIOGRAFÍA
  • 125. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 BIBLIOGRAFÍA BÁSICA JOYANES, Luis (2012). Computación en la nube. Estrategias de cloud computing para las empresas. México DF: Alfaomega; Barcelona: Marcombo JOYANES, Luis (2013). BIG DATA. El análisis de los grandes volúmenes de datos. México DF: Alfaomega; Barcelona: Marcombo  Colección de libros NTiCS (Negocios, Tecnología, Innovación, Conocimiento y Sociedad) dirigida por el profesor Luis Joyanes y publicada en la editorial Alfaomega de México DF. Página –125–
  • 126. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 BIBLIOGRAFÍA BÁSICA  JOYANES, Luis. “Computación en "Nube" (Cloud Computing) y Centros de Datos la nueva revolución industrial ¿cómo cambiará el trabajo en organizaciones y empresas?”. Sociedad y Utopía. UPSA: Madrid. , ISSN 1133-6706, Nº 36, 2010, págs. 111-127.  JOYANES, Luis (2009a) “La Computación en Nube(Cloud Computing) :El nuevo paradigma tecnológico para empresas y organizaciones en la Sociedad del Conocimiento” , ICADE, nº 76, enero- marzo 2009, Madrid: Universidad Pontificia Comillas. Página –126–
  • 127. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 ÚLTIMOS LIBROS DEL prof. LUIS JOYANES Ciberseguridad. Retos y desafíos para la defensa nacional en el ciberespacio. Madrid: IEEE (Instituto Español de Estudios Estratégicos). 2011. Editor y Coordinador. www.ieee.org Cuadernos de estrategia, nº 149 Página –127–
  • 128. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Blogs tecnológicos  TechCrunch (www.techcrunch.com)  Gizmodo (www.gizmodo.com, www.gizmodo.es)  Boing Boing (www.boingboing.com)  Engadget (www.engadget.com)  The Official Google Blog (googleblog.blospot.com)  O´Reilly (www.oreillynet.com)  Slahdot (www.slahdot.com)  Microsiervos (www.microsiervos.com)  Xataca (www.xataca.com)  All Things Digital (allthingsd.com)  Mashable (www.mashable.com) Página –128–
  • 129. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 LECTURAS RECOMENDADAS NIST Cloud Security Alliance ISACA BBVA, BANKINTER, Accenture… ENISA Cio.com, Computing.es, Computerworld ONTSI. Cloud computing. Retos y oportunidades. www.ontsi.red.es/ontsi/sites/default/files/1- _estudio_cloud_computing_retos_y_oportunidades_vdef.pdf Página –129–
  • 130. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 BIBLIOGRAFÍA  Innovation Edge , revista BBVA, junio 2013 https://www.centrodeinnovacionbbva.com/innova tion-edge/21-big-data  SOARES, Sunil (2013). Big Data Governance. An emerging Imperative. Boise, USA: MC Press.  DAVENPORT, Thomas H. y DYCHÉ, Jill. Big Data in Big Companies. SAS. International Institute for Analytics.  Datalytics. 18D – Pentaho Big Data Architecture, www.datalytics.com (Pentaho)  Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . In- memory Computing with SAP HANA on IBM eX5 Systems. ibm.com/redbooks. Draft Document for Review December 7, 2012 1:59 pm SG24-8086-00 Página –130–
  • 131. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 BIBLIOGRAFÍA  ZIKOPOULOS, Paul C. et al (2012). Understanding Big Data. Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill. www-01.ibm.com/software/data/bigdata/  ZIKOPOULOS, Paul C. et al (2013). Harness the Power of Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM. Página –131–
  • 132. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 Página –132–
  • 133. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 REFERENCIAS McKinsey Global Institute . Big data: The next frontier for innovation, competition, and productivity. June 2011 James G. Kobielus. The Forrester Wave™: Enterprise Hadoop Solutions, Q1 2012, February 2, 2012. www-01.ibm.com/software/data/bigdata/  Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos No Relacionales (NoSQL). Facultad de Ingeniería, Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina Página –133–
  • 134. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 REFERENCIAS  Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org IBM. http://www-01.ibm.com/software/data/bigdata/ Página –134–
  • 135. © Luis Joyanes Aguilar EGADE Business School /TEC Monterrey Madrid (Campus BBVA, La Moraleja), 2 d octubre de 2013 LECTURAS RECOMENDADAS (historia del cloud) KING, Rachael (2008): “How Cloud Computing is Changing the World?” en BusinessWeek, New York, 4 august, 2008  LEINWAND, Allan (2008): “It´s 2018: Who Owns the Cloud?” en BusinessWeek, New York, 4 august, 2008 THE ECONOMIST (2008): “Let it rise. A Special report on IT Corporate” en The Economist, London, October 25th 2008. Página –135–