Big Data es un término de actualidad que parece contener la respuesta a todos los problemas de la sociedad, hasta el punto en que muchos exageran las expectativas sobre los beneficios que puede generar e ignoran sus verdaderas virtudes.
Dado el avance de nuestra sociedad, la generación de información es cada vez más desenfrenada, de forma que la comprensión de lo que ocurre puede suponer una ventaja competitiva importante para empresas y organismos públicos.
En esta presentación, correspondiente al ciclo de Big Data organizado por Rainer Open School, se estudia esta tendencia y el papel del científico de datos.
2. INTRODUCCIÓN
Big Data es un término de actualidad, que
parece dar respuesta a todos los problemas
empresariales. Pero ¿qué es exactamente?
¿En qué se diferencia de otras técnicas?
raineropenschool.com
3. ALGUNOS CONCEPTOS ERRÓNEOS
Big Data no es:
Cuando hay que analizar más de 1 TB (o 20).
Lo que sustituye a las BBDD relacionales.
Algo imprescindible en la Web 13.7.
4. RESPONDAMOS A ESTOS MITOS…
Big Data no tiene que ver exactamente con el volumen de
datos. No se puede poner la cifra arbitraria de 1TB o 20
TB como referencia. Más bien hablamos de problemas
que van “demasiado deprisa”. Ahora lo veremos mejor…
Las BBDD relacionales no están muertas. De hecho,
TODOS los sistemas de Big Data funcionan con ellas y hay
problemas en los que no se pueden sustituir.
La Web 2.0 introdujo el contenido dinámico (PHP) y la 3.0
la participación del usuario (Redes sociales). A partir de
ahí se ha perdido un poco el norte y esos números son
más un reclamo comercial que un concepto.
5. ENTONCES ¿QUÉ ES ESO DE BIG DATA?
Velocidad
Volumen
Variedad
Doug Laney definió en 2001 los problemas de
Big Data como aquellos en los que se dan las
características de velocidad, volumen y
variedad en la generación de datos.
6. VELOCIDAD
La velocidad se refiere a aquellos escenarios,
como la bolsa, en donde la producción de
datos es muy rápida y continua. El mercado
bursátil funciona a toda velocidad.
7. VOLUMEN
El volumen de los problemas en Big Data
puede ser descomunal. Nunca será posible
aprehender por completo la complejidad del
análisis meteorológico, por ejemplo.
8. VARIEDAD
La variedad se refiere a que no sabemos qué
formato van a tener los datos analizados. Hoy
los móviles dan coordenadas GPS, fotos o
sonido. ¿Y mañana?
9. POR TANTO…
Cuando un problema:
Genera información a una gran velocidad y sin
interrupción.
Genera un gran volumen de datos, capaz de
desbordar sistemas convencionales.
Genera datos en cambio constante, sin que
sepamos su contenido o relación entre sí.
…es candidato a un análisis de Big Data.
10. NUESTRA DEFINICIÓN…
Big Data es un término genérico para
agrupar un conjunto de técnicas y recursos
destinados a analizar información que no
es viable estudiar por medios tradicionales,
con el objetivo de extraer información de
valor y conclusiones útiles.
11. POR EJEMPLO…
Indexar páginas web es un problema de Big
Data: no paran de generarse, es una
barbaridad de información y no sabemos qué
vamos a encontrar en ellas.
12. GENERACIÓN CRECIENTE DE INFORMACIÓN
Esta situación es consecuencia de la creciente
velocidad a la que se genera información, en
especial desde la “inflexión digital” hacia
2002, el momento en que se producen más
datos digitales que analógicos.
13. DESESTRUCTURACIÓN DEL CONTENIDO
Estructurado -> Tablas
Semiestructurado -> XML
Quasiestructurado -> Registros
Desestructurado –> Imágenes
Otra característica de esta tendencia es que la
información cada vez es más desestructurada;
se genera tan rápido que no se organiza muy
bien. ¿Qué estamos buscando, por ejemplo, en
el contenido de una red social?
14. EVOLUCIÓN DE LOS SISTEMAS DE ANÁLISIS
Ficheros
tabulados
Hojas de
cálculo
Bases de datos
relacionales
(OLAP)
Centros de
Proceso de
Datos (DW-BI)
Entornos
analíticos
(Sandbox)
De esta forma, se produce una evolución
lógica, apareciendo estrategias de análisis
para los problemas que vamos generando
como sociedad.
15. BUSINESS INTELLIGENCE VS BIG DATA
Los sistemas de BI se centran más en el
análisis de periodos fijos, mientras que Big
Data se preocupa de explorar relaciones:
¿Qué ha pasado? <- vs -> ¿Qué puede pasar?
16. UNA NUEVA ECONOMÍA DE DATOS
Dispositivos
Recolectores
Agregadores
Usuarios
Las relaciones entre usuarios, tecnología y
proveedores han definido una “economía de
datos”, donde la comprensión de lo que ocurre
proporciona una ventaja competitiva.
17. EL PAPEL DEL CIENTÍFICO DE DATOS
En este contexto surge la necesidad de un perfil
que ayude a todos los interlocutores: alguien que
sepa de informática, de estadística y de negocios,
sin llegar a ser un programador, un estadístico o
un empresario: el científico de datos.
18. HABILIDADES DEL CIENTÍFICO DE DATOS
No hay una “carrera” para ser científico de datos,
sino más bien un conjunto de actitudes y
habilidades que favorecen su trabajo:
Competencias en matemáticas o estadística.
Competencia básica en programación.
Pensamiento crítico y escéptico en el análisis.
Curiosidad y creatividad.
Capacidad para comunicación y colaboración.
19. CONCLUSIONES
El desarrollo de nuestra sociedad de la
información ha generado un valor de negocio en la
comprensión de los datos que genera.
Esta necesidad requiere nuevas técnicas de
análisis de la información que hagan frente a la
velocidad, volumen y variedad de datos que se
producen.
El científico de datos es el profesional que ayuda a
todos los demás a comprender y afrontar este tipo
de problemas.
raineropenschool.com
20. LECTURAS RECOMENDADAS
Data Science & Big Data
Statistics
EMC Education Services
ISBN: 978-1118876138
http://amzn.to/1QTNWH7
Cap. 1, sobre el contenido
de esta presentación
raineropenschool.com
21. SOBRE EL AUTOR
Rafael Morales
Consultor y formador en
Sistemas de información (IT).
Gestión de proyectos (PM).
Aseguramiento de la calidad (QA).
En LinkedIn: http://bit.ly/20Qh0oZ
Email: contacto@rafael-morales.com
raineropenschool.com
22. OTROS CONTENIDOS
Puedes encontrar las notas de
esta conferencia y otras obras
del mismo autor en Amazon:
http://amzn.to/1Rp8yM9
Puedes seguir las novedades
y convocatorias de nuevos
seminarios, cursillos y
presentaciones en
raineropenschool.com
raineropenschool.com