La geografía y la estadística. dos necesidades para entender big data

LA GEOGRAFÍA Y LA ESTADÍSTICA.
DOS NECESIDADES PARA ENTENDER BIG DATA.
PEDRO JUANES NOTARIO
Máster AADM 2013-2014

Objetivos
Específicos
• Definir de manera concreta y concisa Big Data como fenómeno.
• Justificar la Estadística Multivariante aplicada a Big Data.
• Clasificar y calificar las técnicas multivariantes clásicas que se
pueden aplicar.
• Presentar la GISciencia como el vehículo curricular adecuado para
el tratamiento académico, conceptual y de desarrollo analítico
final del Big Data.
General
La definición del estado actual del Big Data a través de una profunda
revisión bibliográfica de las dos disciplinas que han de interaccionar
para su correcto análisis: la Geografía Cuantitativa y la Estadística
Multivariante.

Es el producto de la última fase de desarrollo de las TIC y del Open Data.
Consecuencia de las mejoras exponenciales que han sufrido el hardware y el
software desde finales de los 60, complementada por un cambio de mentalidad en
la tenencia de los datos.
Big Data
Desarrollo
TIC
Open
Data
¿Pero qué es Big Data? (I)

¿Pero qué es Big Data? (y II)
¿Un problema?
Define una situación en la que el conjunto de datos existente ha llegado a tener un tamaño
tan grande, una heterogeneidad tan diversa y un crecimiento tan exponencial que las TIC
convencionales no pueden manejarlo de manera efectiva y aún resulta más difícil generar
información a partir del mismo.
¿Una solución?
Conjunto de herramientas, procesos y aptitudes que van a permitir la gestión de enormes
cantidades de datos para mejorar los resultados.

Características de Big Data
Registros
Transacciones
Peta-Terabytes
Procesos
Tiempo Real
Streaming
Datos
Estructurados
Desestructurados
Origen
Autenticidad
Confiabilidad
Conocimiento
Hipótesis
Correlaciones
5 Vs

Un ejemplo de la dimensión de Big Data
• Volumen: equivalente a 70 veces el contenido de la librería del Congreso de los EEUU.
• Variedad: mensajes de texto, fotos, videos, plataformas sociales, etc.
• Velocidad: en tiempo real.
El primer día en la vida de un niño

Transformemos el problema en solución
¿Utilizando la Estadística?

Justificando la Estadística Multivariante en Big Data
• Volumen y Velocidad  Procesamiento de datos complejos en streaming.
• La ‘nube’.
• ‘Machine Learning’.
• Veracidad y Variedad  Desarrollo de métodos estadísticos más robustos.
• Análisis de diversas fuentes de datos (internas, externas, estructuradas o
no).
• Análisis de diversos formatos de datos (textos, imágenes, videos, etc.)
• Importancia de los ’outliers’.
• Valor  Generando Conocimiento.
• Desarrollo de técnicas analíticas que transformen los datos brutos en
información útil.
• Mejora en las técnicas de visualización.

Clasificando las técnicas multivariantes clásicas en Big Data
• Técnicas de Reducción de la Dimensión: Simplificar los datos resumiendo la
información de los mismos a través de un número pequeño de componentes
que presenten la información más relevante.
• ‘Análisis de Componentes Principales ‘.*
• ‘Análisis Factorial’.
• ‘Análisis de Coordenadas Principales’.
• ‘Multidimensional Scaling’. **
• ‘Análisis de Correspondencias’.
• Técnicas de Clasificación: Agrupar y clasificar los datos mediante la división
adecuada de éstos y la aplicación de estas normas a nuevos conjuntos de
registros.
• ‘Análisis de Cluster’. *
• ‘Análisis Discriminante’. **
• ‘Análisis de Correlación Canónica’.

Calificando las técnicas multivariantes clásicas en Big Data
NECESIDAD DE ADAPTACION DE LAS TÉCNICAS A NUEVOS REQUERIMIENTOS:
• Aplicamos estadística ‘one-shot’ cuando necesitamos combinar muchas
técnicas estadísticas para un mismo problema.
• Se requieren modelos complejos y heterogéneos.
• Cómo reducir la dimensión eficazmente.
• Cómo encontrar relaciones y patrones: clasificar.
• ‘Statistical Learning’ clave para el futuro.
• Conocer y trabajar en ‘Cloud Computing’.
CAMPOS DE APLICACIÓN:
• Computación.
• Genómica.
• Marketing.
• Y un Big Etcétera.

GISciencia‘IoT’ ‘IoE’
La
‘nube’
• La ‘nube’ es un espacio antrópico.
• Internet of Things (‘IoT’) crea registros espaciales. La ‘Computación
Ubicua’ define la integración masiva de la informática en nuestro entorno.
• Internet of Everything (‘IoE’) causa la necesidad al crear Big Data
Cómo se genera espacio y los fenómenos espaciales en Internet

• Cuando se trabaja con datos espaciales es imprescindible conocer la posición
donde se producen los fenómenos: Georreferenciación.
• Un GIS gestiona cada una de las partes de la realidad a través de capas que
contienen los datos de un aspecto de ésta, lo que permite relacionar varias capas
entre sí para mostrar aspectos que la complejidad de la realidad impide percibir
directamente.
• La GISciencia constituye un fundamento conceptual y teórico más profundo que
los GIS, resultado de su evolución como campo unificado que estudia estos
Sistemas de Información y la Estadística Espacial.
• Es el vehículo curricular adecuado para el tratamiento académico, conceptual y
de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.
La GISciencia

DATO
Recolección.
Validación.
OBSERVACIÓN
Del dato al conocimiento en Big Data
MUNDO REAL ÁMBITO CIENTÍFICO
ACCIÓN
INFORMACIÓN
Análisis.
Investigación.
CONOCIMIENTO
Comprensión.
Decisión.
Volumen
Velocidad
Variedad
3Vs
Veracidad
4Vs
5Vs

Conclusiones (I)
1. Big Data es un fenómeno que surge en los tres últimos años como producto de
la última fase de desarrollo de las ‘TIC’ y del impulso al ‘Open Data’,
conformando una realidad y una revolución que en la actualidad afecta a todos
los ámbitos de nuestra sociedad.
2. Cinco características lo definen y la ciencia Estadística ha de dar respuesta a
cada una estas dimensiones:
• ‘Veracidad’: implantando soluciones que extraigan del conjunto de datos
aquellos registros que verdaderamente aporten valor. Importancia de los
‘outliers’.
• ‘Velocidad’: desarrollando algoritmos que permitan el procesamiento en
‘streaming’.
• ‘Volumen’: mediante técnicas que permitan reducir la dimensión original de
los datos y conseguir su clasificación.
• ‘Variedad’: adoptando métodos que sean capaces de tratar con registros de
diversa naturaleza.
• ‘Valor’: utilizando desarrollos que posibiliten predecir comportamientos y
tomar decisiones sobre los datos.

Conclusiones (II)
3. Es evidente que la Estadística Univariante no puede hacer frente a las
necesidades del Big Data y que además, tal y como hemos comprobado en la
bibliografía consultada, las técnicas multivariantes clásicas son utilizadas pero
con importantes limitaciones.
4. Confusión en la bibliografía científica entre Big Data y grandes matrices de
datos.
5. Las soluciones se están aportando mayormente desde el ámbito empresarial
donde ya existen desarrollos para gestionar, almacenar y procesar los registros
de Big Data. La clave es ‘cómo analizamos la misma’ y la necesidad de una
profunda alianza entre el ámbito académico y el empresarial (incremento
exponencial en I+D+i).

6. Big Data está provocando una revolución en el ámbito científico (Big Ciencia).
La explosión de datos es una realidad y para dar respuesta a los fenómenos
que analizan están adoptando herramientas antes auxiliares (Informática y
Estadística), que se han transformado en su principal factor de evolución hacia
disciplinas científicas ‘más maduras’.
7. Un ejemplo claro se da en la Geografía. Además de lo antes señalado, la
localización como atributo para los registros en Big Data (IoT), provoca la
aparición de nuevas oportunidades y la necesidad de determinar nuevos
objetivos que requieren el desarrollo de un nuevo cuerpo disciplinar: la
GISciencia.
Conclusiones (III)

8. La dispersión al acometer el estudio de Big Data desde cada de las disciplinas
científicas supone un gran error. Es necesario avanzar en el estudio de las
interrelaciones resultantes de la investigación estadística dentro del ámbito
científico general con el objeto de crear teorías, herramientas y métodos que
sean útiles en múltiples dominios de la investigación.
9. Big Data requiere desarrollar herramientas y habilidades analíticas para
convertir sus datos en conocimiento. Las organizaciones (independientemente
de su naturaleza) y los individuos (independientemente de su formación) están
‘obligados’ a desarrollar este conocimiento.
Conclusiones (y IV)

¡¡¡Big Data es el ACONTECIMIENTO del siglo XXI
y está ‘reservado’ a los Estadísticos!!!
PERO CUIDADO

La geografía y la estadística. dos necesidades para entender big data

La geografía y la estadística. dos necesidades para entender big data

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a La geografía y la estadística. dos necesidades para entender big data

Similar a La geografía y la estadística. dos necesidades para entender big data (20)

Último

Último (20)

La geografía y la estadística. dos necesidades para entender big data

Notas del editor