Presentación guía sencilla en Microsoft Excel.pptx
Introduciéndose en el sector del Big Data
1. Artículo: Introduciendo el Big Data. 15/3/2013
walterfarah@yahoo.com
El “Big Data”
Walter Farah Calderón
Las primeras décadas del siglo XXI muestran que una de sus características dominantes es la
generación, procesamiento y disponibilidad de grandes volúmenes de datos y, en consecuencia,
de las Supercomputadoras que, a diferencia de una red que incluye servidores dispersos en
distintos lugares, los concentra en un solo lugar. Watson, una de las más reconocidas, agrupa no
menos de 90 de ellos.
Pero además, supercomputadoras, porque por sus características físicas y lógicas superan en
mucho las tecnologías actuales, “anticuadas y arraigadas en los sistemas informáticos y
tecnologías desarrolladas en la década de 1970”, como la caracteriza Sam Madden, profesor de
The Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT.
Para representar fácil y rápidamente el rendimiento de una supercomputadora los expertos
recurren a su particular notación científica, los FLOPS (“floating point operations per second”), es
decir, la cantidad de operaciones que procesa por segundo, por lo que hablamos de teras y petas,
es decir, respectivamente, de al menos un billón y mil billones de operaciones por segundo. El
siguiente paso, el grail santo de la supercomputación actual, al decir de Clay Dillow, sería una
máquina con capacidad exaflop, es decir, que pueda ejecutar un trillón de operaciones por
segundo, 100 veces más que la mayor velocidad actual. INTEL anunció que llegará a esa meta en el
2018, con el desarrollo de su familia de chips, IXeon Phi.
En función de la capacidad de procesamiento, se genera el TOP500, una lista que incluye a las 500
supercomputadoras más veloces, actualizada dos veces al año. A noviembre de 2012, última
disponible, 5 de los 10 primeros puestos de la lista son ocupados por supercomputadoras de
Estados Unidos, Alemania con 2 y una cada uno, Japón, China e Italia. Domina IBM con 6 de las 10
primeras, con presencia en tres países diferentes: Estados Unidos, Alemania e Italia.
Sin embargo, a pesar del énfasis en la capacidad de procesamiento, hoy día las
supercomputadoras empiezan a ser valoradas con mayor complejidad y el término empieza a ser
sustituido por el de “Computación de Alto Rendimiento” (HPC); “Cluster de Computadoras de Alto
Rendimiento” (HPCC); “Computación Acelerada” como la llama Cray Inc. o el “Big Data”, como le
gusta utilizar a la mayoría, conceptos mucho más comprensivos que la identificación tradicional de
la supercomputación con la súper velocidad de procesamiento.
La National Science Foundation caracteriza el Big Data como “large, diverse, complex, longitudinal,
and/or distributed data sets”. El IBM Institute for Business Value y la Saïd Business School de
University of Oxford, introducen el concepto de las “4 V del BD”: volumen, velocidad, variedad, y
veracidad. Variedad, es decir, la complejidad de integrar la gestión de diferentes fuentes y tipos de
datos, incluyendo estructurados, semiestructurados y no estructurados, para su disposición en
múltiples formatos. Veracidad, que refiere al nivel de fiabilidad asociado con los datos y la
disminución de la incertidumbre.
1
2. Artículo: Introduciendo el Big Data. 15/3/2013
walterfarah@yahoo.com
Otros empiezan a fijarse en el costo energético asociado a su uso y por ello, frente al TOP500, se
consolida la lista Green500, que reordena los datos de aquella, de acuerdo a cuántos cálculos
obtiene por vatio de electricidad.
Para noviembre de 2012, los tres primeros en el TOP500 lo son Titán, de Cray Inc.; Sequoia Blue
Geen de IBM y la K Computer de la japonesa Fujitsu. Para igualar lo que procesan los 16.3 petas de
Sequoia, en un día se necesitarían 120 billones de personas con 120 billones de calculadoras,
durante 50 años. Titán, del U.S. Department of Energy’s (DOE), en manos del Oak Ridge National
Laboratory (ORNL), el supercomputador de mayor rendimiento, inaugurado en octubre de 2012,
llega a 17.89 petas. En el Green500, por el contrario, figuran Beacon de Appro, SANAM de ADtech
y Titán de Cray Inc., quien no solo es primera en procesamiento sino tercera en eficiencia
energética.
Una mayor cantidad de fuentes de datos y el desarrollo de fuentes digitales que permiten su
recolección en tiempo real, como instrumentos, sensores, transacciones de internet, entre otras
muchas, impulsan al sector del Big Data. De acuerdo a cifras de IBM, el 90% de los datos en el
mundo se ha creado en los últimos dos años y hoy, todos los días, se crean 2.5 quintillones de
bytes de datos.
Más de 900 millones de usuarios de Facebook registrados generan más de 1500 actualizaciones de
estado cada segundo de sus intereses y su paradero. En 2011, la plataforma de comercio
electrónico eBay, recolectó datos sobre más de 100 millones de usuarios activos, incluyendo los 6
millones de nuevos bienes que se ofrecen todos los días. Cuando el 14 de febrero del 2013, cerró
sus puertas tras tres años de operación para una etapa de mantenimiento y renovación de
equipos, el Large Hadron Collider (LHC), que hizo posible el descubrimiento de la Partícula de
Higgs, entre la frontera de Suiza y Francia, había logrado acumular 100 petaflops de datos, dos
veces una biblioteca colectiva que incluiría cada palabra escrita de todas las lenguas, más o menos
el equivalente a 700 años de películas HD de plena calidad o mil veces todo el texto disponible en
la Biblioteca del Congreso de los Estados Unidos. El “Correlator”, la supercomputadora del Radio
Telescopio ALMA que en pleno funcionamiento capturará señales del radioespectro espacial,
actuará como un único receptor diseñado para correlacionar las señales débiles de múltiples
fuentes (de ahí el nombre con que es conocida), capaz de realizar 17 petas de operaciones por
segundo.
Pero su generación no es exclusiva de internet o la investigación científica; baste pensar en
empresas de exploración geológica, aeroportuarias, transacciones financieras o de
telecomunicaciones, entre otras. Y su crecimiento no se detiene, porque las posibilidades son
infinitas, impulsadas por dispositivos móviles como teléfonos y autos. En 2011, había 780 millones
teléfonos inteligentes en todo el mundo capaces de recoger y transmitir datos de geo-localización,
lo que generó más de 600 petas de datos cada mes. Se estima que el tráfico global de datos
generados por las comunicaciones móviles se duplicará cada año hasta llegar a 11 exabytes por
mes en 2016.
Y con ello una Nube que se expande, una Computación Cuántica que sigue madurando y,
esperando, lo que llaman, Google entre otros, el “Deep Learning”, el “Aprendizaje Profundo”.
2