Definir de manera concreta y concisa Big Data como fenómeno. Justificar la Estadística Multivariante aplicada a Big Data. Clasificar y calificar las técnicas multivariantes clásicas que se pueden aplicar.Presentar la GISciencia como el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data.
La geografía y la estadística. dos necesidades para entender big data
1. LA GEOGRAFÍA Y LA ESTADÍSTICA.
DOS NECESIDADES PARA ENTENDER BIG DATA.
PEDRO JUANES NOTARIO
Máster AADM 2013-2014
2. Objetivos
Específicos
• Definir de manera concreta y concisa Big Data como fenómeno.
• Justificar la Estadística Multivariante aplicada a Big Data.
• Clasificar y calificar las técnicas multivariantes clásicas que se
pueden aplicar.
• Presentar la GISciencia como el vehículo curricular adecuado para
el tratamiento académico, conceptual y de desarrollo analítico
final del Big Data.
General
La definición del estado actual del Big Data a través de una profunda
revisión bibliográfica de las dos disciplinas que han de interaccionar
para su correcto análisis: la Geografía Cuantitativa y la Estadística
Multivariante.
3. Es el producto de la última fase de desarrollo de las TIC y del Open Data.
Consecuencia de las mejoras exponenciales que han sufrido el hardware y el
software desde finales de los 60, complementada por un cambio de mentalidad en
la tenencia de los datos.
Big Data
Desarrollo
TIC
Open
Data
¿Pero qué es Big Data? (I)
4. ¿Pero qué es Big Data? (y II)
¿Un problema?
Define una situación en la que el conjunto de datos existente ha llegado a tener un tamaño
tan grande, una heterogeneidad tan diversa y un crecimiento tan exponencial que las TIC
convencionales no pueden manejarlo de manera efectiva y aún resulta más difícil generar
información a partir del mismo.
¿Una solución?
Conjunto de herramientas, procesos y aptitudes que van a permitir la gestión de enormes
cantidades de datos para mejorar los resultados.
5. Características de Big Data
Registros
Transacciones
Peta-Terabytes
Procesos
Tiempo Real
Streaming
Datos
Estructurados
Desestructurados
Origen
Autenticidad
Confiabilidad
Conocimiento
Hipótesis
Correlaciones
5 Vs
6. Un ejemplo de la dimensión de Big Data
• Volumen: equivalente a 70 veces el contenido de la librería del Congreso de los EEUU.
• Variedad: mensajes de texto, fotos, videos, plataformas sociales, etc.
• Velocidad: en tiempo real.
El primer día en la vida de un niño
8. Justificando la Estadística Multivariante en Big Data
• Volumen y Velocidad Procesamiento de datos complejos en streaming.
• La ‘nube’.
• ‘Machine Learning’.
• Veracidad y Variedad Desarrollo de métodos estadísticos más robustos.
• Análisis de diversas fuentes de datos (internas, externas, estructuradas o
no).
• Análisis de diversos formatos de datos (textos, imágenes, videos, etc.)
• Importancia de los ’outliers’.
• Valor Generando Conocimiento.
• Desarrollo de técnicas analíticas que transformen los datos brutos en
información útil.
• Mejora en las técnicas de visualización.
9. Clasificando las técnicas multivariantes clásicas en Big Data
• Técnicas de Reducción de la Dimensión: Simplificar los datos resumiendo la
información de los mismos a través de un número pequeño de componentes
que presenten la información más relevante.
• ‘Análisis de Componentes Principales ‘.*
• ‘Análisis Factorial’.
• ‘Análisis de Coordenadas Principales’.
• ‘Multidimensional Scaling’. **
• ‘Análisis de Correspondencias’.
• Técnicas de Clasificación: Agrupar y clasificar los datos mediante la división
adecuada de éstos y la aplicación de estas normas a nuevos conjuntos de
registros.
• ‘Análisis de Cluster’. *
• ‘Análisis Discriminante’. **
• ‘Análisis de Correlación Canónica’.
10. Calificando las técnicas multivariantes clásicas en Big Data
NECESIDAD DE ADAPTACION DE LAS TÉCNICAS A NUEVOS REQUERIMIENTOS:
• Aplicamos estadística ‘one-shot’ cuando necesitamos combinar muchas
técnicas estadísticas para un mismo problema.
• Se requieren modelos complejos y heterogéneos.
• Cómo reducir la dimensión eficazmente.
• Cómo encontrar relaciones y patrones: clasificar.
• ‘Statistical Learning’ clave para el futuro.
• Conocer y trabajar en ‘Cloud Computing’.
CAMPOS DE APLICACIÓN:
• Computación.
• Genómica.
• Marketing.
• Y un Big Etcétera.
11. GISciencia‘IoT’ ‘IoE’
La
‘nube’
• La ‘nube’ es un espacio antrópico.
• Internet of Things (‘IoT’) crea registros espaciales. La ‘Computación
Ubicua’ define la integración masiva de la informática en nuestro entorno.
• Internet of Everything (‘IoE’) causa la necesidad al crear Big Data
Cómo se genera espacio y los fenómenos espaciales en Internet
12. • Cuando se trabaja con datos espaciales es imprescindible conocer la posición
donde se producen los fenómenos: Georreferenciación.
• Un GIS gestiona cada una de las partes de la realidad a través de capas que
contienen los datos de un aspecto de ésta, lo que permite relacionar varias capas
entre sí para mostrar aspectos que la complejidad de la realidad impide percibir
directamente.
• La GISciencia constituye un fundamento conceptual y teórico más profundo que
los GIS, resultado de su evolución como campo unificado que estudia estos
Sistemas de Información y la Estadística Espacial.
• Es el vehículo curricular adecuado para el tratamiento académico, conceptual y
de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.
La GISciencia
13. DATO
Recolección.
Validación.
OBSERVACIÓN
Del dato al conocimiento en Big Data
MUNDO REAL ÁMBITO CIENTÍFICO
ACCIÓN
INFORMACIÓN
Análisis.
Investigación.
CONOCIMIENTO
Comprensión.
Decisión.
Volumen
Velocidad
Variedad
3Vs
Veracidad
4Vs
5Vs
14. Conclusiones (I)
1. Big Data es un fenómeno que surge en los tres últimos años como producto de
la última fase de desarrollo de las ‘TIC’ y del impulso al ‘Open Data’,
conformando una realidad y una revolución que en la actualidad afecta a todos
los ámbitos de nuestra sociedad.
2. Cinco características lo definen y la ciencia Estadística ha de dar respuesta a
cada una estas dimensiones:
• ‘Veracidad’: implantando soluciones que extraigan del conjunto de datos
aquellos registros que verdaderamente aporten valor. Importancia de los
‘outliers’.
• ‘Velocidad’: desarrollando algoritmos que permitan el procesamiento en
‘streaming’.
• ‘Volumen’: mediante técnicas que permitan reducir la dimensión original de
los datos y conseguir su clasificación.
• ‘Variedad’: adoptando métodos que sean capaces de tratar con registros de
diversa naturaleza.
• ‘Valor’: utilizando desarrollos que posibiliten predecir comportamientos y
tomar decisiones sobre los datos.
15. Conclusiones (II)
3. Es evidente que la Estadística Univariante no puede hacer frente a las
necesidades del Big Data y que además, tal y como hemos comprobado en la
bibliografía consultada, las técnicas multivariantes clásicas son utilizadas pero
con importantes limitaciones.
4. Confusión en la bibliografía científica entre Big Data y grandes matrices de
datos.
5. Las soluciones se están aportando mayormente desde el ámbito empresarial
donde ya existen desarrollos para gestionar, almacenar y procesar los registros
de Big Data. La clave es ‘cómo analizamos la misma’ y la necesidad de una
profunda alianza entre el ámbito académico y el empresarial (incremento
exponencial en I+D+i).
16. 6. Big Data está provocando una revolución en el ámbito científico (Big Ciencia).
La explosión de datos es una realidad y para dar respuesta a los fenómenos
que analizan están adoptando herramientas antes auxiliares (Informática y
Estadística), que se han transformado en su principal factor de evolución hacia
disciplinas científicas ‘más maduras’.
7. Un ejemplo claro se da en la Geografía. Además de lo antes señalado, la
localización como atributo para los registros en Big Data (IoT), provoca la
aparición de nuevas oportunidades y la necesidad de determinar nuevos
objetivos que requieren el desarrollo de un nuevo cuerpo disciplinar: la
GISciencia.
Conclusiones (III)
17. 8. La dispersión al acometer el estudio de Big Data desde cada de las disciplinas
científicas supone un gran error. Es necesario avanzar en el estudio de las
interrelaciones resultantes de la investigación estadística dentro del ámbito
científico general con el objeto de crear teorías, herramientas y métodos que
sean útiles en múltiples dominios de la investigación.
9. Big Data requiere desarrollar herramientas y habilidades analíticas para
convertir sus datos en conocimiento. Las organizaciones (independientemente
de su naturaleza) y los individuos (independientemente de su formación) están
‘obligados’ a desarrollar este conocimiento.
Conclusiones (y IV)
18. ¡¡¡Big Data es el ACONTECIMIENTO del siglo XXI
y está ‘reservado’ a los Estadísticos!!!
PERO CUIDADO
Notas del editor
Presentación personal:
Nombre.
Licenciado en Geografía y Doctorado en Estadística.
Título: “La Geografía y la Estadística. Dos necesidades para entender Big Data”.
Motivación de la realización del trabajo: Integrar las dos áreas de conocimiento para el estudio del Big Data.
Para saber si la Estadística y la Geografía pueden ‘ayudarnos’ en ese análisis, nos planteamos unas preguntas que se convirtieron en los objetivos del TFM. Dentro de los cuales podemos distinguir:
1 Objetivo General:
La definición del estado actual del Big Data en el ámbito científico a través de una profunda revisión bibliográfica de las dos disciplinas que han de interaccionar para su correcto análisis (siempre) dentro el ámbito de las Ciencias Sociales: la Geografía Cuantitativa y la Estadística Multivariante (desde un punto de vista amplio).
4 Objetivos Específicos:
Definir de manera concreta y concisa Big Data como fenómeno.
Justificar la Estadística Multivariante aplicada a Big Data.
Clasificar y calificar las técnicas multivariantes clásicas que se pueden aplicar para estos volúmenes de información.
Presentar la GISciencia como el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.
¿Pero qué es Big Data? (I)
Todo el mundo habla de este fenómeno (las noticias son continuas), Big Data es el producto de la última fase de desarrollo de las TIC (Tecnologías de la Información y la Comunicación) y del Open Data. Es decir, es la consecuencia de las mejoras exponenciales que han sufrido tanto el hardware como el software desde finales de los años 60, y (muy importante) complementada por un cambio de mentalidad consistente en la apertura en la tenencia de los datos.
(DESPUÉS DE MOSTRAR EL GRÁFICO) Pero este fenómeno no sería posible, ni se podría entender sin la existencia de Internet, que es el espacio virtual en el cual ‘reside’ y en el cual se ‘desarrolla’, constituyendo (de manera conjunta) un auténtico ecosistema. Es evidente que Internet ha revolucionado la informática y las comunicaciones, pero aún es más cierto que ha cambiado nuestra concepción del mundo social: su acceso ‘libre’ y ‘abierto’ ha transformado radicalmente la forma en la cual las personas las empresas y los gobiernos nos comunicamos y colaboramos (en definitiva interactuamos).
Y nos volvemos a preguntar ¿Pero qué es Big Data? (y II)
¿Un problema? (para muchos lo es)“Define una situación en la que el conjunto de datos existente ha llegado a tener un tamaño tan grande, una heterogeneidad tan diversa y un crecimiento tan exponencial que las TIC convencionales no pueden manejarlo de manera efectiva y aún resulta más difícil generar información a partir del mismo.
¿Una solución? (a veces) es definido como un conjunto de herramientas, procesos y aptitudes que van a permitir la gestión de enormes cantidades de información para mejorar los resultados.
CHISTE: “¿Esto cuenta como Big Data?” Para el niño es un problema y a la vez es una solución (será buen analista de datos).
Características del Big Data
Algunos de los autores consultados llegan a caracterizar, en principio, 3 dimensiones en Big Data (’las 3Vs’): ‘Volumen’, ‘Variedad’ y ‘Velocidad’, para en los últimos artículos y documentación consultada, algunos añadan una 4ª y hasta una 5ª V: la ‘Veracidad’ y el ‘Valor’. Estos dos últimos atributos se han incorporado cuando Big Data ha trascendido a otras áreas distintas a la informática (en contraste con los ‘3Vs’ originales, no están referidas a sus características intrínsecas y ahora lo explicaremos). En definitiva, la convergencia de todas estas dimensiones (se habla de ‘las 5Vs’) ayuda tanto a definir, como a diferenciar, esta realidad:
Volumen: Existencia de cantidades masivas de datos, pero lo que es más importante es que sea lo que se considere, en este preciso momento, como un ‘volumen grande’, mañana lo será más. Es la característica que se asocia con mayor frecuencia a este Big Data.
Variedad: Se refiere a los distintos tipos y las diversas fuentes de los datos. La cuestión es: cómo se han de integrar, gestionar y analizar datos estructurados, semiestructurados y no estructurados. Y es que con la irrupción de sensores, dispositivos inteligentes y tecnologías de colaboración social, los registros que se generan presentan innumerables formas: archivos de texto, Bases de Datos, geolocalizaciones, URL´s, tuits, registros de sensores, audios, vídeos, secuencias de clic del ratón, archivos de registro y un largo etcétera cuya variedad sigue aumentando cada día.
Velocidad: Hace referencia a cómo de rápido se crean y se procesan los datos. Esta velocidad está aumentando continuamente, lo que hace que los sistemas tradicionales no sean eficaces en su captación, almacenamiento y análisis. Para los procesos en los que el tiempo resulta fundamental, ciertos tipos de datos deben analizarse en tiempo real (‘streaming’) para que resulten útiles para el objetivo.
Veracidad: la incertidumbre de los datos. La calidad que es necesaria para hacerlo útil en su aplicación práctica Esforzarse por conseguir inicialmente unos datos de alta calidad es un requisito importante y un reto fundamental. No puede haber datos que cumplan los 3 criterios originales, pero sean inaplicables en la práctica debido a su mala calidad o a una baja credibilidad de sus fuentes. Pero, al mismo tiempo (lo interesante), es que las 3 primeras Vs hacen que esta 4ª (la ‘Veracidad’) sea más fácil de lograr ya que cuando hay gran un número de mediciones independientes los errores de medición ordinarios se convierten en un problema menor, ya que éstos tienden a estabilizarse y podemos gestionar su correcto tratamiento utilizando para ello técnicas estadísticas que aumenten la robustez de los datos. Por lo tanto, la clave para lograr la veracidad en Big Data no conlleva garantizar la medición perfecta, sino, más bien, requiere evitar los errores sistemáticos y controlar la confiabilidad de sus fuentes y aquí la Estadística Multivariante juega un papel fundamental.
Valor: Representa el resultado económico y social del desarrollo y la implantación de Big Data. Es decir ¿Qué es lo que obtenemos después de procesar Big Data?
Un ejemplo de la dimensión de Big Data
El primer día en la vida de un niño: (Aquí vemos a toda la familia y amigos… haciendo fotos, enviando mensajes, escribiendo en el Facebook, en el Twiter, etc.)
Veamos esas 3 Vs originales en el ejemplo:
Volumen: Equivalente a 70 veces el contenido de la librería del Congreso de los EEUU.
Variedad: (como decíamos antes: Mensajes de texto, fotos, videos, plataformas sociales, etc.
Velocidad: todo ‘en tiempo real’.
“HEMOS TENIDO UN BIG BABY”
¿Cómo podemos transformar un problema en solución? Del ‘Big Problem’ al ‘Big Value’. Un problema es, por definición, algo susceptible de ser resuelto.
¿Cómo? Conociendo cada una de las características de ese problema (que ya analizábamos en la transparencia anterior) y planteando métodos lógicos que gestionen adecuadamente cada una de ellas.
(MOSTRAR GRÁFICO Y EXPLICAR BREVEMENTE)
¿Qué métodos podemos utilizar? La Estadística.
Justificando la Estadística Multivariante en Big Data
Volumen y Velocidad: Procesamiento de datos complejos en streaming (en tiempo real): Además de los (obvios) problemas de procesamiento y almacenamiento, deben resolverse los involucrados al manejo de cantidades masivas de datos en tiempo real (decidir qué calcular y qué almacenar en cada momento). Dos frentes abiertos:
La ‘nube’ puede ser la respuesta ya que los servidores virtuales permiten escalar tanto los recursos como los costes disponibles, lo que resulta esencial para poder procesar grandes volúmenes de datos con rapidez a través de distintas máquinas clusters.
‘ML’: Desarrollo de sistemas que permitan automatizar la toma de decisiones basadas directamente en los datos.
Veracidad y Variedad: Desarrollo de métodos estadísticos más robustos. Técnicas más tolerantes al estado y ‘confiabilidad’ de los datos y también los ‘outliers’. De esta manera:
Análisis de las diversas fuentes de datos: la mayoría de las Bases de Datos de acceso público más interesantes (internas, externas, estructuradas o no), se encuentran mal organizadas, ‘cargadas de ruido’ y son normalmente de difícil acceso a través de los estándares actuales de programación.
La importancia de los ’outliers’: en marketing, por ejemplo, (una de las disciplinas con más necesidad de implantar soluciones para Big Data) por ejemplo, no se deben descartar estos registros, ya que coinciden, a menudo, con las cuentas/clientes de mayor (o menor) valor de toda la población.
Análisis de diversos formatos de datos: textos, imágenes, videos, etc.
El desarrollo del ‘Natural Language Processing’ (‘NLP’): un objetivo muy importante es transformar los contenidos textuales generados por los usuarios en información valiosa a través de procesos estadísticos computacionalmente sencillos.
Valor: Generando Conocimiento. No hay beneficio en la recogida y almacenamiento de toda la información si las herramientas que utilizamos no son capaces de encontrar patrones y conocimiento útil en los datos .
Desarrollo de técnicas analíticas que transformen directamente los datos brutos en información útil. Utilizando desarrollos que posibiliten predecir comportamientos y tomar decisiones sobre los datos (obtención de conocimiento).
Mejora en las técnicas de visualización: La representación gráfica facilita la comunicación y el entendimiento de los datos, transformándolos directamente en información.
Clasificando las técnicas multivariantes clásicas en Big Data
En relación a las necesidades planteadas por los analistas de Big Data podemos realizar la división de las técnicas multivariantes clásicas en dos grandes grupos:
Técnicas de Reducción de la Dimensión: cuyo objetivo es simplificar los datos resumiendo la información de los mismos a través de un número pequeño de componentes que presenten la información más relevante. El más relevante el ‘Análisis de Componentes Principales ‘ seguido del ‘Multidimensional Scaling’.
Técnicas de Clasificación: cuya finalidad es agrupar y clasificar los datos mediante la división adecuada de éstos y la aplicación de estas normas a nuevos conjuntos de registros. El más relevante el ‘Análisis de Cluster‘ seguido del ‘Análisis Discriminante’.
Las sucesivas búsquedas bibliográficas realizadas con el objetivo de conocer qué técnicas estadísticas se utilizan en Big Data nos han permitido concluir los siguientes dos aspectos:
ADAPTACION DE LAS TÉCNICAS CLASICAS A LOS NUEVOS REQUERIMIENTOS: Son muchas las aportaciones científicas que implantan soluciones multivariantes en Big Data (y que parecen las más lógicas para su análisis), pero para casi todas ellas parten de la premisa de la necesidad de adaptarlas a la nueva realidad y las necesidades que impone este fenómeno.
Por lo general, aplicamos estadística ‘one-shot’ cuando vamos a tener que combinar muchas herramientas estadísticas para un mismo problema.
Se requieren modelos complejos y heterogéneos (dinámicos, multivariantes, no paramétricos).
Cómo reducir la dimensión eficazmente (disminuir el volumen).
Cómo encontrar relaciones y patrones, clasificar (es clave hacer grupos de observaciones).
‘Statistical Learning’ clave para el futuro. Elementos: Data Mining, Inferencia y Predicción.
Conocer y trabajar en ‘Cloud Computing’ (aspectos tecnológicos): Y es que las características propias del fenómeno Big Data necesitan la adecuada infraestructura tecnológica para la gestión total y efectiva de los datos contenidos.
CAMPOS DE APLICACIÓN:
Computación.
Genómica.
Marketing.
Y un Big Etcétera.
Cómo se genera espacio y fenómenos espaciales en Internet:
La ‘nube’ es un espacio antrópico.
Internet of Things (‘IoT’) crea registros espaciales. el mundo físico se está convirtiendo en un verdadero sistema de información gracias a su desarrollo. La ‘Computación Ubicua’ define la integración masiva de la informática (hardware y software), en nuestro entorno desapareciendo de la vista y formando parte integral de nuestra vida diaria. multitud de objetos cotidianos estarán dotados de sensores que harán las veces de nuestros sentidos y les permitirán generar continuamente información tanto del medio que les rodea y supone que el futuro-presente de Internet está definido por su inevitable encuentro con el mundo físico y real. Esta enorme cantidad de nueva información formará una piel digital que cubrirá el mundo físico. La información que se obtenga de manera continua a partir del IoT estará georreferenciada desde su origen (se estima que en más de un 80%) y será necesario desarrollar métodos específicos de análisis estadístico implementados en tecnología propia de la GISciencia para atender a las necesidades propias de este fenómeno y su evolución.
Internet of Everything (‘IoE’) genera la necesidad al crear Big Data. Pero como estamos señalando a lo largo de todo el TFM, los datos en bruto no son suficientes para ello, todos esos bits deben ser ‘tamizados’ para encontrar información útil y luego ser transformados en conocimiento, para finalmente traducirlos a sabiduría ¿Cómo? A través de la GISciencia.
Comprender el mundo a través de los datos masivos antrópicamente generados: no hay nada más geográfico que esta cuestión.
La GISciencia:
Cuando se trabaja con datos espaciales es imprescindible conocer la posición donde se producen los fenómenos: Georreferenciación.
Un GIS gestiona cada una de las partes de la realidad georreferenciada a través de capas que contienen los datos de un aspecto de ésta, Esta idea es básica para la solución analítica de Big Data: permite relacionar varias capas entre sí para mostrar aspectos que la complejidad de la realidad impide percibir directamente.
La GISciencia constituye un fundamento conceptual y teórico más profundo que los GIS, resultado de su evolución como campo unificado que estudia estos Sistemas de Información y la Estadística Espacial.
Y constituye el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.
Del dato al conocimiento en Big Data
Observamos un fenómeno del ‘Mundo Real’: ‘3Vs’ del Big Data (‘Volumen’, ‘Velocidad’ y ‘Variedad’).
Entramos en el ‘Ámbito Científico’:
De la ‘OBSERVACIÓN’ recogemos ‘Datos’, los cuales deben ser validados para generar la ‘4V’: la ‘Veracidad’.
Del ‘Dato’ cierto conseguido a través del análisis y la investigación, obtenemos ‘Información’.
De la ‘Información’ mediante la interpretación y la comprensión, estamos en disposición de ‘tomar decisiones’. Aparece el ‘Conocimiento’. Ya tenemos las ‘5Vs’ (aparece el ‘Valor’).
Volvemos al ‘Mundo Real’: y el ‘Conocimiento’ nos permite ‘ACTUAR’ sobre ese fenómeno con rigor científico.
Para finalizar la exposición paso a describir las conclusiones a las que hemos llegado durante el desarrollo del Trabajo de Fin de Máster:
CONCLUSIONES (I)
Big Data es un fenómeno que surge en los tres últimos años como producto de la última fase de desarrollo de las ‘TIC’ y del impulso al ‘Open Data’, conformando una realidad y una revolución que en la actualidad afecta a todos los ámbitos de nuestra sociedad.
Cinco características lo definen y la ciencia Estadística ha de dar respuesta a cada una estas dimensiones:
‘Veracidad’: implantando soluciones que extraigan del conjunto de datos aquellos registros que verdaderamente aporten valor. Importancia de los ‘outliers’.
‘Velocidad’: desarrollando algoritmos que permitan el procesamiento en ‘streaming’.
‘Volumen’: mediante técnicas que permitan reducir la dimensión original de los datos y conseguir su clasificación.
‘Variedad’: adoptando métodos que sean capaces de tratar con registros de diversa naturaleza.
‘Valor’: utilizando desarrollos que posibiliten predecir comportamientos y tomar decisiones sobre los datos (conocimiento).
CONCLUSIONES (II)
Es evidente que la Estadística Univariante no puede hacer frente a las necesidades del Big Data y que además, tal y como hemos comprobado en la bibliografía consultada, las técnicas multivariantes clásicas son utilizadas pero con importantes limitaciones.
Confusión en la bibliografía científica entre Big Data y grandes matrices de datos (los denominados ‘Large Data Sheet’).
Las soluciones se están aportando mayormente desde el ámbito empresarial donde ya existen desarrollos que se encargan de gestionar, almacenar y procesar los registros de Big Data. La clave es ‘cómo analizamos la misma’ (aquí aparece la interesante dicotomía correlación-causalidad que exponemos en el TFM) y para ello la necesidad de una profunda alianza entre el ámbito académico y el empresarial (que va a generar un incremento exponencial en I+D+i Investigación + desarrollo`+ innovación).
Conclusiones (III)
Big Data está provocando una revolución en el ámbito científico (la denominada ‘Big Ciencia’ empieza a trascender a muchos ámbitos científicos). La explosión de datos que manejan es una realidad y para dar respuesta a los fenómenos que analizan, están adoptando como suyas herramientas antes auxiliares (Informática y Estadística), que comienzan a integrarse como parte fundamental de su núcleo teorético (estudio del conocimiento, que se dirige al conocimiento, no a la acción ni a la práctica), postulándose como su principal factor de evolución a disciplinas científicas ‘más maduras’.
Un ejemplo claro es la Geografía. La localización como atributo para los registros en Big Data (‘IoT’), provoca la aparición de nuevas oportunidades y la necesidad de determinar nuevos objetivos para esta ciencia que requieren el desarrollo de un cuerpo disciplinar capaz de amoldarse al Big Data: la GISciencia.
Conclusiones (y IV)
Resulta necesario crear un cuerpo académico que dé respuesta a esta realidad. La dispersión al acometer el estudio de Big Data desde cada de las disciplinas científicas supone un gran error (y es lo que se está haciendo). Es necesario avanzar en el estudio de las interrelaciones resultantes de la investigación estadística dentro del ámbito científico general con el objeto de crear teorías, herramientas y métodos que sean útiles en múltiples dominios de la investigación.
Big Data requiere desarrollar herramientas y habilidades analíticas para convertir sus datos en conocimiento. Las organizaciones (independientemente de su naturaleza) y los individuos (independientemente de su formación) están obligados a desarrollar este conocimiento.
Si yo fuera estadístico, estaría dando saltos de alegría: Big Data cambiará la concepción perceptual del propio mundo.
Pero cuidado! (chiste): La necesaria adopción y adecuación de una realidad denominada Big Data dentro del estudio geográfico y del análisis científico en general, presupone cambiar radicalmente la manera de hacer ciencia, asumiendo su desarrollo dentro de un proceso abductivo donde la correlación entre los datos señala la causa y el efecto. Así, manejando de manera correcta esta gran cantidad de datos, con un objetivo concreto, permitirá concluir a los analistas y científicos que cuando un fenómeno se produce se da otro hecho o conjunto de hechos, pero el riesgo aparece porque podemos comenzar a ignorar la causa (cómo se produce). Saber tanto, por lo tanto, puede cobrarse su precio: ignorar cómo lo sabemos o cómo se produce exactamente el fenómeno descubierto, sencillamente lo sabemos, y se diluye el vínculo causal en pro del correlacional (pautas y correlaciones por encima de causalidades). Y es que hasta ahora, las investigaciones científicas que perseguían la causalidad eran complejas y costosas, por lo tanto la gran alternativa a esta metodología son los datos masivos pero sin olvidar el análisis del porqué y su modelización: de ahí lo necesario de la GISciencia.