SlideShare una empresa de Scribd logo
LA GEOGRAFÍA Y LA ESTADÍSTICA.
DOS NECESIDADES PARA ENTENDER BIG DATA.
PEDRO JUANES NOTARIO
Máster AADM 2013-2014
Objetivos
Específicos
• Definir de manera concreta y concisa Big Data como fenómeno.
• Justificar la Estadística Multivariante aplicada a Big Data.
• Clasificar y calificar las técnicas multivariantes clásicas que se
pueden aplicar.
• Presentar la GISciencia como el vehículo curricular adecuado para
el tratamiento académico, conceptual y de desarrollo analítico
final del Big Data.
General
La definición del estado actual del Big Data a través de una profunda
revisión bibliográfica de las dos disciplinas que han de interaccionar
para su correcto análisis: la Geografía Cuantitativa y la Estadística
Multivariante.
Es el producto de la última fase de desarrollo de las TIC y del Open Data.
Consecuencia de las mejoras exponenciales que han sufrido el hardware y el
software desde finales de los 60, complementada por un cambio de mentalidad en
la tenencia de los datos.
Big Data
Desarrollo
TIC
Open
Data
¿Pero qué es Big Data? (I)
¿Pero qué es Big Data? (y II)
¿Un problema?
Define una situación en la que el conjunto de datos existente ha llegado a tener un tamaño
tan grande, una heterogeneidad tan diversa y un crecimiento tan exponencial que las TIC
convencionales no pueden manejarlo de manera efectiva y aún resulta más difícil generar
información a partir del mismo.
¿Una solución?
Conjunto de herramientas, procesos y aptitudes que van a permitir la gestión de enormes
cantidades de datos para mejorar los resultados.
Características de Big Data
Registros
Transacciones
Peta-Terabytes
Procesos
Tiempo Real
Streaming
Datos
Estructurados
Desestructurados
Origen
Autenticidad
Confiabilidad
Conocimiento
Hipótesis
Correlaciones
5 Vs
Un ejemplo de la dimensión de Big Data
• Volumen: equivalente a 70 veces el contenido de la librería del Congreso de los EEUU.
• Variedad: mensajes de texto, fotos, videos, plataformas sociales, etc.
• Velocidad: en tiempo real.
El primer día en la vida de un niño
Transformemos el problema en solución
¿Utilizando la Estadística?
Justificando la Estadística Multivariante en Big Data
• Volumen y Velocidad  Procesamiento de datos complejos en streaming.
• La ‘nube’.
• ‘Machine Learning’.
• Veracidad y Variedad  Desarrollo de métodos estadísticos más robustos.
• Análisis de diversas fuentes de datos (internas, externas, estructuradas o
no).
• Análisis de diversos formatos de datos (textos, imágenes, videos, etc.)
• Importancia de los ’outliers’.
• Valor  Generando Conocimiento.
• Desarrollo de técnicas analíticas que transformen los datos brutos en
información útil.
• Mejora en las técnicas de visualización.
Clasificando las técnicas multivariantes clásicas en Big Data
• Técnicas de Reducción de la Dimensión: Simplificar los datos resumiendo la
información de los mismos a través de un número pequeño de componentes
que presenten la información más relevante.
• ‘Análisis de Componentes Principales ‘.*
• ‘Análisis Factorial’.
• ‘Análisis de Coordenadas Principales’.
• ‘Multidimensional Scaling’. **
• ‘Análisis de Correspondencias’.
• Técnicas de Clasificación: Agrupar y clasificar los datos mediante la división
adecuada de éstos y la aplicación de estas normas a nuevos conjuntos de
registros.
• ‘Análisis de Cluster’. *
• ‘Análisis Discriminante’. **
• ‘Análisis de Correlación Canónica’.
Calificando las técnicas multivariantes clásicas en Big Data
NECESIDAD DE ADAPTACION DE LAS TÉCNICAS A NUEVOS REQUERIMIENTOS:
• Aplicamos estadística ‘one-shot’ cuando necesitamos combinar muchas
técnicas estadísticas para un mismo problema.
• Se requieren modelos complejos y heterogéneos.
• Cómo reducir la dimensión eficazmente.
• Cómo encontrar relaciones y patrones: clasificar.
• ‘Statistical Learning’ clave para el futuro.
• Conocer y trabajar en ‘Cloud Computing’.
CAMPOS DE APLICACIÓN:
• Computación.
• Genómica.
• Marketing.
• Y un Big Etcétera.
GISciencia‘IoT’ ‘IoE’
La
‘nube’
• La ‘nube’ es un espacio antrópico.
• Internet of Things (‘IoT’) crea registros espaciales. La ‘Computación
Ubicua’ define la integración masiva de la informática en nuestro entorno.
• Internet of Everything (‘IoE’) causa la necesidad al crear Big Data
Cómo se genera espacio y los fenómenos espaciales en Internet
• Cuando se trabaja con datos espaciales es imprescindible conocer la posición
donde se producen los fenómenos: Georreferenciación.
• Un GIS gestiona cada una de las partes de la realidad a través de capas que
contienen los datos de un aspecto de ésta, lo que permite relacionar varias capas
entre sí para mostrar aspectos que la complejidad de la realidad impide percibir
directamente.
• La GISciencia constituye un fundamento conceptual y teórico más profundo que
los GIS, resultado de su evolución como campo unificado que estudia estos
Sistemas de Información y la Estadística Espacial.
• Es el vehículo curricular adecuado para el tratamiento académico, conceptual y
de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.
La GISciencia
DATO
Recolección.
Validación.
OBSERVACIÓN
Del dato al conocimiento en Big Data
MUNDO REAL ÁMBITO CIENTÍFICO
ACCIÓN
INFORMACIÓN
Análisis.
Investigación.
CONOCIMIENTO
Comprensión.
Decisión.
Volumen
Velocidad
Variedad
3Vs
Veracidad
4Vs
5Vs
Conclusiones (I)
1. Big Data es un fenómeno que surge en los tres últimos años como producto de
la última fase de desarrollo de las ‘TIC’ y del impulso al ‘Open Data’,
conformando una realidad y una revolución que en la actualidad afecta a todos
los ámbitos de nuestra sociedad.
2. Cinco características lo definen y la ciencia Estadística ha de dar respuesta a
cada una estas dimensiones:
• ‘Veracidad’: implantando soluciones que extraigan del conjunto de datos
aquellos registros que verdaderamente aporten valor. Importancia de los
‘outliers’.
• ‘Velocidad’: desarrollando algoritmos que permitan el procesamiento en
‘streaming’.
• ‘Volumen’: mediante técnicas que permitan reducir la dimensión original de
los datos y conseguir su clasificación.
• ‘Variedad’: adoptando métodos que sean capaces de tratar con registros de
diversa naturaleza.
• ‘Valor’: utilizando desarrollos que posibiliten predecir comportamientos y
tomar decisiones sobre los datos.
Conclusiones (II)
3. Es evidente que la Estadística Univariante no puede hacer frente a las
necesidades del Big Data y que además, tal y como hemos comprobado en la
bibliografía consultada, las técnicas multivariantes clásicas son utilizadas pero
con importantes limitaciones.
4. Confusión en la bibliografía científica entre Big Data y grandes matrices de
datos.
5. Las soluciones se están aportando mayormente desde el ámbito empresarial
donde ya existen desarrollos para gestionar, almacenar y procesar los registros
de Big Data. La clave es ‘cómo analizamos la misma’ y la necesidad de una
profunda alianza entre el ámbito académico y el empresarial (incremento
exponencial en I+D+i).
6. Big Data está provocando una revolución en el ámbito científico (Big Ciencia).
La explosión de datos es una realidad y para dar respuesta a los fenómenos
que analizan están adoptando herramientas antes auxiliares (Informática y
Estadística), que se han transformado en su principal factor de evolución hacia
disciplinas científicas ‘más maduras’.
7. Un ejemplo claro se da en la Geografía. Además de lo antes señalado, la
localización como atributo para los registros en Big Data (IoT), provoca la
aparición de nuevas oportunidades y la necesidad de determinar nuevos
objetivos que requieren el desarrollo de un nuevo cuerpo disciplinar: la
GISciencia.
Conclusiones (III)
8. La dispersión al acometer el estudio de Big Data desde cada de las disciplinas
científicas supone un gran error. Es necesario avanzar en el estudio de las
interrelaciones resultantes de la investigación estadística dentro del ámbito
científico general con el objeto de crear teorías, herramientas y métodos que
sean útiles en múltiples dominios de la investigación.
9. Big Data requiere desarrollar herramientas y habilidades analíticas para
convertir sus datos en conocimiento. Las organizaciones (independientemente
de su naturaleza) y los individuos (independientemente de su formación) están
‘obligados’ a desarrollar este conocimiento.
Conclusiones (y IV)
¡¡¡Big Data es el ACONTECIMIENTO del siglo XXI
y está ‘reservado’ a los Estadísticos!!!
PERO CUIDADO
La geografía y la estadística. dos necesidades para entender big data

Más contenido relacionado

La actualidad más candente

Auditoría informatica.
Auditoría informatica.Auditoría informatica.
Auditoría informatica.
Carlos Avendaño Barria
 
tendencias de los sistemas de informacion
tendencias de los sistemas de informaciontendencias de los sistemas de informacion
tendencias de los sistemas de informacion
Yesenia Gomez
 
Sistemas de información Gerencial
Sistemas de información GerencialSistemas de información Gerencial
Sistemas de información Gerencial
heidy madrid
 
Norma ISO 38500
Norma ISO 38500Norma ISO 38500
Norma ISO 38500
arnoldvq16
 
Sistemas de informacion administrativa
Sistemas de informacion administrativaSistemas de informacion administrativa
Sistemas de informacion administrativa
Aime Rodriguez
 
Cloud Computing y MapReduce
Cloud Computing y MapReduceCloud Computing y MapReduce
Cloud Computing y MapReduce
Jose Emilio Labra Gayo
 
Modelos de madurez en analisis de negocio v3
Modelos de madurez en analisis de negocio v3Modelos de madurez en analisis de negocio v3
Modelos de madurez en analisis de negocio v3
SEAN Mexico
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
Carlos Toxtli
 
La importancia-de-la-cadena-de-suministro
La importancia-de-la-cadena-de-suministroLa importancia-de-la-cadena-de-suministro
La importancia-de-la-cadena-de-suministro
Maria Alarcon
 
Data mining
Data mining Data mining
Data mining
Jose Sanchez
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion
Ris Fernandez
 
Características de un sistema de información administrativo
Características de un sistema de información administrativoCaracterísticas de un sistema de información administrativo
Características de un sistema de información administrativo
Jacquelina Simosa
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
Jose Hernandez Landa
 
Características Del Tomador De Decisiones
Características Del  Tomador De  DecisionesCaracterísticas Del  Tomador De  Decisiones
Características Del Tomador De Decisiones
Javier Mejia
 
Introduccion big data
Introduccion  big dataIntroduccion  big data
Introduccion big data
Fabian David Palmera Cantillo
 
Big Data
Big DataBig Data
Big Data
Fernando Parra
 
Ciclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negociosCiclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negocios
Erick Paul Lozada Peñarreta
 
Proyecto final de auditoría
Proyecto final de auditoríaProyecto final de auditoría
Proyecto final de auditoría
Juan Jose Flores
 
Inteligencia Artificial en negocios
Inteligencia Artificial en negociosInteligencia Artificial en negocios
Inteligencia Artificial en negocios
Juan Alvarado
 
BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
Tomás Fernández Pena
 

La actualidad más candente (20)

Auditoría informatica.
Auditoría informatica.Auditoría informatica.
Auditoría informatica.
 
tendencias de los sistemas de informacion
tendencias de los sistemas de informaciontendencias de los sistemas de informacion
tendencias de los sistemas de informacion
 
Sistemas de información Gerencial
Sistemas de información GerencialSistemas de información Gerencial
Sistemas de información Gerencial
 
Norma ISO 38500
Norma ISO 38500Norma ISO 38500
Norma ISO 38500
 
Sistemas de informacion administrativa
Sistemas de informacion administrativaSistemas de informacion administrativa
Sistemas de informacion administrativa
 
Cloud Computing y MapReduce
Cloud Computing y MapReduceCloud Computing y MapReduce
Cloud Computing y MapReduce
 
Modelos de madurez en analisis de negocio v3
Modelos de madurez en analisis de negocio v3Modelos de madurez en analisis de negocio v3
Modelos de madurez en analisis de negocio v3
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
La importancia-de-la-cadena-de-suministro
La importancia-de-la-cadena-de-suministroLa importancia-de-la-cadena-de-suministro
La importancia-de-la-cadena-de-suministro
 
Data mining
Data mining Data mining
Data mining
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion
 
Características de un sistema de información administrativo
Características de un sistema de información administrativoCaracterísticas de un sistema de información administrativo
Características de un sistema de información administrativo
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
Características Del Tomador De Decisiones
Características Del  Tomador De  DecisionesCaracterísticas Del  Tomador De  Decisiones
Características Del Tomador De Decisiones
 
Introduccion big data
Introduccion  big dataIntroduccion  big data
Introduccion big data
 
Big Data
Big DataBig Data
Big Data
 
Ciclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negociosCiclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negocios
 
Proyecto final de auditoría
Proyecto final de auditoríaProyecto final de auditoría
Proyecto final de auditoría
 
Inteligencia Artificial en negocios
Inteligencia Artificial en negociosInteligencia Artificial en negocios
Inteligencia Artificial en negocios
 
BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
 

Destacado

Big data retos y oportunidades para el turismo
Big data retos y oportunidades para el turismoBig data retos y oportunidades para el turismo
Big data retos y oportunidades para el turismo
Lia Arce
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
David Alayón
 
Que es big data
Que es big dataQue es big data
Que es big data
Sergio Sanchez
 
Presentación TFM - Big Data en la predicción del estado del tráfico. Difusión...
Presentación TFM - Big Data en la predicción del estado del tráfico. Difusión...Presentación TFM - Big Data en la predicción del estado del tráfico. Difusión...
Presentación TFM - Big Data en la predicción del estado del tráfico. Difusión...
Antonio Fernández Ares
 
Las Islas de Felicidad No Son Suficiente (Conferencia Agile-Spain 2.013)
Las Islas de Felicidad No Son Suficiente (Conferencia Agile-Spain 2.013)Las Islas de Felicidad No Son Suficiente (Conferencia Agile-Spain 2.013)
Las Islas de Felicidad No Son Suficiente (Conferencia Agile-Spain 2.013)
Deiser
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
sandradaza92
 
Manuel Machado - Big data, de la investigación científica a la gestión empres...
Manuel Machado - Big data, de la investigación científica a la gestión empres...Manuel Machado - Big data, de la investigación científica a la gestión empres...
Manuel Machado - Big data, de la investigación científica a la gestión empres...
Fundación Ramón Areces
 
Workshop UOC Empresa sobre gamificación
Workshop UOC Empresa sobre gamificaciónWorkshop UOC Empresa sobre gamificación
Workshop UOC Empresa sobre gamificación
UOC Sede de Madrid
 
Evolución a Big Data en la empresa no tecnológica
Evolución a Big Data en la empresa no tecnológicaEvolución a Big Data en la empresa no tecnológica
Evolución a Big Data en la empresa no tecnológica
UOC Sede de Madrid
 
Bases de datos avanzado NOSQL
Bases de datos avanzado NOSQLBases de datos avanzado NOSQL
Bases de datos avanzado NOSQL
josecuartas
 
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
pmluque
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1 Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Abel Alejandro Coronado Iruegas
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
Julio C Baracaldo
 
Big Data: the Management Revolution
Big Data: the Management RevolutionBig Data: the Management Revolution
Big Data: the Management Revolution
Alex Rayón Jerez
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data Introducción
bd4s
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
Stratebi
 
Lecture12 (is353-business strategy)
Lecture12 (is353-business strategy)Lecture12 (is353-business strategy)
NoSQL databases and managing big data
NoSQL databases and managing big dataNoSQL databases and managing big data
NoSQL databases and managing big data
Steven Francia
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
sgcuadrado
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negocios
Celestino Güemes Seoane
 

Destacado (20)

Big data retos y oportunidades para el turismo
Big data retos y oportunidades para el turismoBig data retos y oportunidades para el turismo
Big data retos y oportunidades para el turismo
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Presentación TFM - Big Data en la predicción del estado del tráfico. Difusión...
Presentación TFM - Big Data en la predicción del estado del tráfico. Difusión...Presentación TFM - Big Data en la predicción del estado del tráfico. Difusión...
Presentación TFM - Big Data en la predicción del estado del tráfico. Difusión...
 
Las Islas de Felicidad No Son Suficiente (Conferencia Agile-Spain 2.013)
Las Islas de Felicidad No Son Suficiente (Conferencia Agile-Spain 2.013)Las Islas de Felicidad No Son Suficiente (Conferencia Agile-Spain 2.013)
Las Islas de Felicidad No Son Suficiente (Conferencia Agile-Spain 2.013)
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
 
Manuel Machado - Big data, de la investigación científica a la gestión empres...
Manuel Machado - Big data, de la investigación científica a la gestión empres...Manuel Machado - Big data, de la investigación científica a la gestión empres...
Manuel Machado - Big data, de la investigación científica a la gestión empres...
 
Workshop UOC Empresa sobre gamificación
Workshop UOC Empresa sobre gamificaciónWorkshop UOC Empresa sobre gamificación
Workshop UOC Empresa sobre gamificación
 
Evolución a Big Data en la empresa no tecnológica
Evolución a Big Data en la empresa no tecnológicaEvolución a Big Data en la empresa no tecnológica
Evolución a Big Data en la empresa no tecnológica
 
Bases de datos avanzado NOSQL
Bases de datos avanzado NOSQLBases de datos avanzado NOSQL
Bases de datos avanzado NOSQL
 
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1 Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
Big Data: the Management Revolution
Big Data: the Management RevolutionBig Data: the Management Revolution
Big Data: the Management Revolution
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data Introducción
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Lecture12 (is353-business strategy)
Lecture12 (is353-business strategy)Lecture12 (is353-business strategy)
Lecture12 (is353-business strategy)
 
NoSQL databases and managing big data
NoSQL databases and managing big dataNoSQL databases and managing big data
NoSQL databases and managing big data
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negocios
 

Similar a La geografía y la estadística. dos necesidades para entender big data

Conociendo big data
Conociendo big dataConociendo big data
Conociendo big data
Adrian Barrientos
 
Data science como motor de la innovación
Data science como motor de la innovaciónData science como motor de la innovación
Data science como motor de la innovación
Roberto Muñoz
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
Luis Fernando Aguas Bucheli
 
Tema1
Tema1Tema1
Tema1
1311480063
 
Conociendo el bigdata por Camargo y Joyanes
Conociendo el bigdata por Camargo y JoyanesConociendo el bigdata por Camargo y Joyanes
Conociendo el bigdata por Camargo y Joyanes
jacristancho
 
El Big Data como fenómeno y herramienta para el e‐research en CSyH Digitales
El Big Data como fenómeno y herramienta para el e‐research en CSyH DigitalesEl Big Data como fenómeno y herramienta para el e‐research en CSyH Digitales
El Big Data como fenómeno y herramienta para el e‐research en CSyH Digitales
María Sánchez González (@cibermarikiya)
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
Daniel Jiménez
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de Datos
LuisAzofeifa6
 
Big Data Analytics: Oportunidades, Retos y Tendencias
Big Data Analytics: Oportunidades, Retos y TendenciasBig Data Analytics: Oportunidades, Retos y Tendencias
Big Data Analytics: Oportunidades, Retos y Tendencias
Luis Felipe Tabares Pérez
 
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.
Roman Herrera
 
Big data o datos masivos en investigación en odontología
Big data o datos masivos en investigación en odontologíaBig data o datos masivos en investigación en odontología
Big data o datos masivos en investigación en odontología
Juan Carlos Munévar
 
Business intelligence y Big Data en la ciudad
Business intelligence y Big Data en la ciudadBusiness intelligence y Big Data en la ciudad
Business intelligence y Big Data en la ciudad
UOC Estudios de Informática, Multimedia y Telecomunicación
 
"Educación y datos masivos (Big Data)" - Fernando Santamaria
"Educación y datos masivos (Big Data)" - Fernando Santamaria"Educación y datos masivos (Big Data)" - Fernando Santamaria
"Educación y datos masivos (Big Data)" - Fernando Santamaria
Nivel 7
 
Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)
Fernando Santamaría
 
"Educación y datos masivos (Big Data)" - Fernando Santamaria
"Educación y datos masivos (Big Data)" - Fernando Santamaria"Educación y datos masivos (Big Data)" - Fernando Santamaria
"Educación y datos masivos (Big Data)" - Fernando Santamaria
Nivel 7
 
De tic big data
De tic big dataDe tic big data
De tic big data
dandiosa2
 
De tic big data
De tic big dataDe tic big data
De tic big data
dandiosa2
 
Big data
Big dataBig data
Profesión: Big Data
Profesión: Big DataProfesión: Big Data
Profesión: Big Data
Alfredo Vela Zancada
 
La importancia del Big Data
La importancia del Big DataLa importancia del Big Data
La importancia del Big Data
José Antonio Zavaleta López
 

Similar a La geografía y la estadística. dos necesidades para entender big data (20)

Conociendo big data
Conociendo big dataConociendo big data
Conociendo big data
 
Data science como motor de la innovación
Data science como motor de la innovaciónData science como motor de la innovación
Data science como motor de la innovación
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
 
Tema1
Tema1Tema1
Tema1
 
Conociendo el bigdata por Camargo y Joyanes
Conociendo el bigdata por Camargo y JoyanesConociendo el bigdata por Camargo y Joyanes
Conociendo el bigdata por Camargo y Joyanes
 
El Big Data como fenómeno y herramienta para el e‐research en CSyH Digitales
El Big Data como fenómeno y herramienta para el e‐research en CSyH DigitalesEl Big Data como fenómeno y herramienta para el e‐research en CSyH Digitales
El Big Data como fenómeno y herramienta para el e‐research en CSyH Digitales
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de Datos
 
Big Data Analytics: Oportunidades, Retos y Tendencias
Big Data Analytics: Oportunidades, Retos y TendenciasBig Data Analytics: Oportunidades, Retos y Tendencias
Big Data Analytics: Oportunidades, Retos y Tendencias
 
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.
 
Big data o datos masivos en investigación en odontología
Big data o datos masivos en investigación en odontologíaBig data o datos masivos en investigación en odontología
Big data o datos masivos en investigación en odontología
 
Business intelligence y Big Data en la ciudad
Business intelligence y Big Data en la ciudadBusiness intelligence y Big Data en la ciudad
Business intelligence y Big Data en la ciudad
 
"Educación y datos masivos (Big Data)" - Fernando Santamaria
"Educación y datos masivos (Big Data)" - Fernando Santamaria"Educación y datos masivos (Big Data)" - Fernando Santamaria
"Educación y datos masivos (Big Data)" - Fernando Santamaria
 
Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)
 
"Educación y datos masivos (Big Data)" - Fernando Santamaria
"Educación y datos masivos (Big Data)" - Fernando Santamaria"Educación y datos masivos (Big Data)" - Fernando Santamaria
"Educación y datos masivos (Big Data)" - Fernando Santamaria
 
De tic big data
De tic big dataDe tic big data
De tic big data
 
De tic big data
De tic big dataDe tic big data
De tic big data
 
Big data
Big dataBig data
Big data
 
Profesión: Big Data
Profesión: Big DataProfesión: Big Data
Profesión: Big Data
 
La importancia del Big Data
La importancia del Big DataLa importancia del Big Data
La importancia del Big Data
 

Último

geología de Venezuela, TEMA PALEOZOICO.pdf
geología de Venezuela, TEMA PALEOZOICO.pdfgeología de Venezuela, TEMA PALEOZOICO.pdf
geología de Venezuela, TEMA PALEOZOICO.pdf
DanielaAlvarez728528
 
reflejos neuropediatria en fisioterapia.pptx
reflejos neuropediatria en fisioterapia.pptxreflejos neuropediatria en fisioterapia.pptx
reflejos neuropediatria en fisioterapia.pptx
victorblake7
 
Clase de Teoria - N° 4. Oxígeno. Dr. Andonaire
Clase de Teoria - N° 4. Oxígeno. Dr. AndonaireClase de Teoria - N° 4. Oxígeno. Dr. Andonaire
Clase de Teoria - N° 4. Oxígeno. Dr. Andonaire
DiegoCiroCamarenaCan
 
0.1 SEMIOLOGIA neurologica.ppjjjjjjjjjjk
0.1 SEMIOLOGIA neurologica.ppjjjjjjjjjjk0.1 SEMIOLOGIA neurologica.ppjjjjjjjjjjk
0.1 SEMIOLOGIA neurologica.ppjjjjjjjjjjk
AugustoBrizola
 
TEORIAS DE LA EVOLUCION LAMARCK Y DARWIN
TEORIAS DE LA EVOLUCION LAMARCK Y DARWINTEORIAS DE LA EVOLUCION LAMARCK Y DARWIN
TEORIAS DE LA EVOLUCION LAMARCK Y DARWIN
DesignDreams1
 
oso panda vida reproducción hábitat y hábitos
oso panda vida reproducción hábitat y hábitososo panda vida reproducción hábitat y hábitos
oso panda vida reproducción hábitat y hábitos
olswaldso62
 
Gnosis lakhsmi Guia practica para la Mujer.pdf
Gnosis lakhsmi Guia practica para la Mujer.pdfGnosis lakhsmi Guia practica para la Mujer.pdf
Gnosis lakhsmi Guia practica para la Mujer.pdf
rodolfonoel
 
Priones, definiciones y la enfermedad de las vacas locas
Priones, definiciones y la enfermedad de las vacas locasPriones, definiciones y la enfermedad de las vacas locas
Priones, definiciones y la enfermedad de las vacas locas
alexandrajunchaya3
 
imagen de la planta para colorear primer año basico
imagen de la planta para colorear primer año basicoimagen de la planta para colorear primer año basico
imagen de la planta para colorear primer año basico
ssuser31d2941
 
7mo básico Magnitudes y unidades de medida 2024.pptx
7mo básico Magnitudes y unidades de medida 2024.pptx7mo básico Magnitudes y unidades de medida 2024.pptx
7mo básico Magnitudes y unidades de medida 2024.pptx
JocelynCristinaSaldi
 
Heterociclos; pequeñas y maravillosas estructuras-Química
Heterociclos; pequeñas y maravillosas estructuras-QuímicaHeterociclos; pequeñas y maravillosas estructuras-Química
Heterociclos; pequeñas y maravillosas estructuras-Química
PriyaQuijano
 
LAS HERIDAS - PPT PROCEDIMIENTOS BASICOS
LAS HERIDAS - PPT PROCEDIMIENTOS BASICOSLAS HERIDAS - PPT PROCEDIMIENTOS BASICOS
LAS HERIDAS - PPT PROCEDIMIENTOS BASICOS
DanielaCotillo
 
Cardiología.pptx/Presentación sobre la introducción a la cardiología
Cardiología.pptx/Presentación sobre la introducción a la cardiologíaCardiología.pptx/Presentación sobre la introducción a la cardiología
Cardiología.pptx/Presentación sobre la introducción a la cardiología
Jtriv22
 
Reacciones Químicas en el cuerpo humano.pptx
Reacciones Químicas en el cuerpo humano.pptxReacciones Químicas en el cuerpo humano.pptx
Reacciones Químicas en el cuerpo humano.pptx
PamelaKim10
 
S07 TEORIA HERIDAS Y LAVADO DE MANOS GRABADA 2021 1.pptx
S07 TEORIA HERIDAS Y LAVADO DE MANOS GRABADA 2021  1.pptxS07 TEORIA HERIDAS Y LAVADO DE MANOS GRABADA 2021  1.pptx
S07 TEORIA HERIDAS Y LAVADO DE MANOS GRABADA 2021 1.pptx
MarceloDelaCruz11
 
ANTRAX.pdf historia natural del antrax epidemiologia
ANTRAX.pdf historia natural del antrax epidemiologiaANTRAX.pdf historia natural del antrax epidemiologia
ANTRAX.pdf historia natural del antrax epidemiologia
Daniellaticona
 
35 WAIS III Manual de administracion y puntuacion 1.pdf
35 WAIS III Manual de administracion y puntuacion 1.pdf35 WAIS III Manual de administracion y puntuacion 1.pdf
35 WAIS III Manual de administracion y puntuacion 1.pdf
JessicaNuez61
 
Teoría del prión y enfermedades relacionadas
Teoría del prión y  enfermedades relacionadasTeoría del prión y  enfermedades relacionadas
Teoría del prión y enfermedades relacionadas
alexandrajunchaya3
 
García, Francisco. - Las Navas de Tolosa [2024].pdf
García, Francisco. - Las Navas de Tolosa [2024].pdfGarcía, Francisco. - Las Navas de Tolosa [2024].pdf
García, Francisco. - Las Navas de Tolosa [2024].pdf
frank0071
 
Bianchi-2005-Historia-social-del-mundo-occidental.pdf
Bianchi-2005-Historia-social-del-mundo-occidental.pdfBianchi-2005-Historia-social-del-mundo-occidental.pdf
Bianchi-2005-Historia-social-del-mundo-occidental.pdf
perezcandela938
 

Último (20)

geología de Venezuela, TEMA PALEOZOICO.pdf
geología de Venezuela, TEMA PALEOZOICO.pdfgeología de Venezuela, TEMA PALEOZOICO.pdf
geología de Venezuela, TEMA PALEOZOICO.pdf
 
reflejos neuropediatria en fisioterapia.pptx
reflejos neuropediatria en fisioterapia.pptxreflejos neuropediatria en fisioterapia.pptx
reflejos neuropediatria en fisioterapia.pptx
 
Clase de Teoria - N° 4. Oxígeno. Dr. Andonaire
Clase de Teoria - N° 4. Oxígeno. Dr. AndonaireClase de Teoria - N° 4. Oxígeno. Dr. Andonaire
Clase de Teoria - N° 4. Oxígeno. Dr. Andonaire
 
0.1 SEMIOLOGIA neurologica.ppjjjjjjjjjjk
0.1 SEMIOLOGIA neurologica.ppjjjjjjjjjjk0.1 SEMIOLOGIA neurologica.ppjjjjjjjjjjk
0.1 SEMIOLOGIA neurologica.ppjjjjjjjjjjk
 
TEORIAS DE LA EVOLUCION LAMARCK Y DARWIN
TEORIAS DE LA EVOLUCION LAMARCK Y DARWINTEORIAS DE LA EVOLUCION LAMARCK Y DARWIN
TEORIAS DE LA EVOLUCION LAMARCK Y DARWIN
 
oso panda vida reproducción hábitat y hábitos
oso panda vida reproducción hábitat y hábitososo panda vida reproducción hábitat y hábitos
oso panda vida reproducción hábitat y hábitos
 
Gnosis lakhsmi Guia practica para la Mujer.pdf
Gnosis lakhsmi Guia practica para la Mujer.pdfGnosis lakhsmi Guia practica para la Mujer.pdf
Gnosis lakhsmi Guia practica para la Mujer.pdf
 
Priones, definiciones y la enfermedad de las vacas locas
Priones, definiciones y la enfermedad de las vacas locasPriones, definiciones y la enfermedad de las vacas locas
Priones, definiciones y la enfermedad de las vacas locas
 
imagen de la planta para colorear primer año basico
imagen de la planta para colorear primer año basicoimagen de la planta para colorear primer año basico
imagen de la planta para colorear primer año basico
 
7mo básico Magnitudes y unidades de medida 2024.pptx
7mo básico Magnitudes y unidades de medida 2024.pptx7mo básico Magnitudes y unidades de medida 2024.pptx
7mo básico Magnitudes y unidades de medida 2024.pptx
 
Heterociclos; pequeñas y maravillosas estructuras-Química
Heterociclos; pequeñas y maravillosas estructuras-QuímicaHeterociclos; pequeñas y maravillosas estructuras-Química
Heterociclos; pequeñas y maravillosas estructuras-Química
 
LAS HERIDAS - PPT PROCEDIMIENTOS BASICOS
LAS HERIDAS - PPT PROCEDIMIENTOS BASICOSLAS HERIDAS - PPT PROCEDIMIENTOS BASICOS
LAS HERIDAS - PPT PROCEDIMIENTOS BASICOS
 
Cardiología.pptx/Presentación sobre la introducción a la cardiología
Cardiología.pptx/Presentación sobre la introducción a la cardiologíaCardiología.pptx/Presentación sobre la introducción a la cardiología
Cardiología.pptx/Presentación sobre la introducción a la cardiología
 
Reacciones Químicas en el cuerpo humano.pptx
Reacciones Químicas en el cuerpo humano.pptxReacciones Químicas en el cuerpo humano.pptx
Reacciones Químicas en el cuerpo humano.pptx
 
S07 TEORIA HERIDAS Y LAVADO DE MANOS GRABADA 2021 1.pptx
S07 TEORIA HERIDAS Y LAVADO DE MANOS GRABADA 2021  1.pptxS07 TEORIA HERIDAS Y LAVADO DE MANOS GRABADA 2021  1.pptx
S07 TEORIA HERIDAS Y LAVADO DE MANOS GRABADA 2021 1.pptx
 
ANTRAX.pdf historia natural del antrax epidemiologia
ANTRAX.pdf historia natural del antrax epidemiologiaANTRAX.pdf historia natural del antrax epidemiologia
ANTRAX.pdf historia natural del antrax epidemiologia
 
35 WAIS III Manual de administracion y puntuacion 1.pdf
35 WAIS III Manual de administracion y puntuacion 1.pdf35 WAIS III Manual de administracion y puntuacion 1.pdf
35 WAIS III Manual de administracion y puntuacion 1.pdf
 
Teoría del prión y enfermedades relacionadas
Teoría del prión y  enfermedades relacionadasTeoría del prión y  enfermedades relacionadas
Teoría del prión y enfermedades relacionadas
 
García, Francisco. - Las Navas de Tolosa [2024].pdf
García, Francisco. - Las Navas de Tolosa [2024].pdfGarcía, Francisco. - Las Navas de Tolosa [2024].pdf
García, Francisco. - Las Navas de Tolosa [2024].pdf
 
Bianchi-2005-Historia-social-del-mundo-occidental.pdf
Bianchi-2005-Historia-social-del-mundo-occidental.pdfBianchi-2005-Historia-social-del-mundo-occidental.pdf
Bianchi-2005-Historia-social-del-mundo-occidental.pdf
 

La geografía y la estadística. dos necesidades para entender big data

  • 1. LA GEOGRAFÍA Y LA ESTADÍSTICA. DOS NECESIDADES PARA ENTENDER BIG DATA. PEDRO JUANES NOTARIO Máster AADM 2013-2014
  • 2. Objetivos Específicos • Definir de manera concreta y concisa Big Data como fenómeno. • Justificar la Estadística Multivariante aplicada a Big Data. • Clasificar y calificar las técnicas multivariantes clásicas que se pueden aplicar. • Presentar la GISciencia como el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data. General La definición del estado actual del Big Data a través de una profunda revisión bibliográfica de las dos disciplinas que han de interaccionar para su correcto análisis: la Geografía Cuantitativa y la Estadística Multivariante.
  • 3. Es el producto de la última fase de desarrollo de las TIC y del Open Data. Consecuencia de las mejoras exponenciales que han sufrido el hardware y el software desde finales de los 60, complementada por un cambio de mentalidad en la tenencia de los datos. Big Data Desarrollo TIC Open Data ¿Pero qué es Big Data? (I)
  • 4. ¿Pero qué es Big Data? (y II) ¿Un problema? Define una situación en la que el conjunto de datos existente ha llegado a tener un tamaño tan grande, una heterogeneidad tan diversa y un crecimiento tan exponencial que las TIC convencionales no pueden manejarlo de manera efectiva y aún resulta más difícil generar información a partir del mismo. ¿Una solución? Conjunto de herramientas, procesos y aptitudes que van a permitir la gestión de enormes cantidades de datos para mejorar los resultados.
  • 5. Características de Big Data Registros Transacciones Peta-Terabytes Procesos Tiempo Real Streaming Datos Estructurados Desestructurados Origen Autenticidad Confiabilidad Conocimiento Hipótesis Correlaciones 5 Vs
  • 6. Un ejemplo de la dimensión de Big Data • Volumen: equivalente a 70 veces el contenido de la librería del Congreso de los EEUU. • Variedad: mensajes de texto, fotos, videos, plataformas sociales, etc. • Velocidad: en tiempo real. El primer día en la vida de un niño
  • 7. Transformemos el problema en solución ¿Utilizando la Estadística?
  • 8. Justificando la Estadística Multivariante en Big Data • Volumen y Velocidad  Procesamiento de datos complejos en streaming. • La ‘nube’. • ‘Machine Learning’. • Veracidad y Variedad  Desarrollo de métodos estadísticos más robustos. • Análisis de diversas fuentes de datos (internas, externas, estructuradas o no). • Análisis de diversos formatos de datos (textos, imágenes, videos, etc.) • Importancia de los ’outliers’. • Valor  Generando Conocimiento. • Desarrollo de técnicas analíticas que transformen los datos brutos en información útil. • Mejora en las técnicas de visualización.
  • 9. Clasificando las técnicas multivariantes clásicas en Big Data • Técnicas de Reducción de la Dimensión: Simplificar los datos resumiendo la información de los mismos a través de un número pequeño de componentes que presenten la información más relevante. • ‘Análisis de Componentes Principales ‘.* • ‘Análisis Factorial’. • ‘Análisis de Coordenadas Principales’. • ‘Multidimensional Scaling’. ** • ‘Análisis de Correspondencias’. • Técnicas de Clasificación: Agrupar y clasificar los datos mediante la división adecuada de éstos y la aplicación de estas normas a nuevos conjuntos de registros. • ‘Análisis de Cluster’. * • ‘Análisis Discriminante’. ** • ‘Análisis de Correlación Canónica’.
  • 10. Calificando las técnicas multivariantes clásicas en Big Data NECESIDAD DE ADAPTACION DE LAS TÉCNICAS A NUEVOS REQUERIMIENTOS: • Aplicamos estadística ‘one-shot’ cuando necesitamos combinar muchas técnicas estadísticas para un mismo problema. • Se requieren modelos complejos y heterogéneos. • Cómo reducir la dimensión eficazmente. • Cómo encontrar relaciones y patrones: clasificar. • ‘Statistical Learning’ clave para el futuro. • Conocer y trabajar en ‘Cloud Computing’. CAMPOS DE APLICACIÓN: • Computación. • Genómica. • Marketing. • Y un Big Etcétera.
  • 11. GISciencia‘IoT’ ‘IoE’ La ‘nube’ • La ‘nube’ es un espacio antrópico. • Internet of Things (‘IoT’) crea registros espaciales. La ‘Computación Ubicua’ define la integración masiva de la informática en nuestro entorno. • Internet of Everything (‘IoE’) causa la necesidad al crear Big Data Cómo se genera espacio y los fenómenos espaciales en Internet
  • 12. • Cuando se trabaja con datos espaciales es imprescindible conocer la posición donde se producen los fenómenos: Georreferenciación. • Un GIS gestiona cada una de las partes de la realidad a través de capas que contienen los datos de un aspecto de ésta, lo que permite relacionar varias capas entre sí para mostrar aspectos que la complejidad de la realidad impide percibir directamente. • La GISciencia constituye un fundamento conceptual y teórico más profundo que los GIS, resultado de su evolución como campo unificado que estudia estos Sistemas de Información y la Estadística Espacial. • Es el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales. La GISciencia
  • 13. DATO Recolección. Validación. OBSERVACIÓN Del dato al conocimiento en Big Data MUNDO REAL ÁMBITO CIENTÍFICO ACCIÓN INFORMACIÓN Análisis. Investigación. CONOCIMIENTO Comprensión. Decisión. Volumen Velocidad Variedad 3Vs Veracidad 4Vs 5Vs
  • 14. Conclusiones (I) 1. Big Data es un fenómeno que surge en los tres últimos años como producto de la última fase de desarrollo de las ‘TIC’ y del impulso al ‘Open Data’, conformando una realidad y una revolución que en la actualidad afecta a todos los ámbitos de nuestra sociedad. 2. Cinco características lo definen y la ciencia Estadística ha de dar respuesta a cada una estas dimensiones: • ‘Veracidad’: implantando soluciones que extraigan del conjunto de datos aquellos registros que verdaderamente aporten valor. Importancia de los ‘outliers’. • ‘Velocidad’: desarrollando algoritmos que permitan el procesamiento en ‘streaming’. • ‘Volumen’: mediante técnicas que permitan reducir la dimensión original de los datos y conseguir su clasificación. • ‘Variedad’: adoptando métodos que sean capaces de tratar con registros de diversa naturaleza. • ‘Valor’: utilizando desarrollos que posibiliten predecir comportamientos y tomar decisiones sobre los datos.
  • 15. Conclusiones (II) 3. Es evidente que la Estadística Univariante no puede hacer frente a las necesidades del Big Data y que además, tal y como hemos comprobado en la bibliografía consultada, las técnicas multivariantes clásicas son utilizadas pero con importantes limitaciones. 4. Confusión en la bibliografía científica entre Big Data y grandes matrices de datos. 5. Las soluciones se están aportando mayormente desde el ámbito empresarial donde ya existen desarrollos para gestionar, almacenar y procesar los registros de Big Data. La clave es ‘cómo analizamos la misma’ y la necesidad de una profunda alianza entre el ámbito académico y el empresarial (incremento exponencial en I+D+i).
  • 16. 6. Big Data está provocando una revolución en el ámbito científico (Big Ciencia). La explosión de datos es una realidad y para dar respuesta a los fenómenos que analizan están adoptando herramientas antes auxiliares (Informática y Estadística), que se han transformado en su principal factor de evolución hacia disciplinas científicas ‘más maduras’. 7. Un ejemplo claro se da en la Geografía. Además de lo antes señalado, la localización como atributo para los registros en Big Data (IoT), provoca la aparición de nuevas oportunidades y la necesidad de determinar nuevos objetivos que requieren el desarrollo de un nuevo cuerpo disciplinar: la GISciencia. Conclusiones (III)
  • 17. 8. La dispersión al acometer el estudio de Big Data desde cada de las disciplinas científicas supone un gran error. Es necesario avanzar en el estudio de las interrelaciones resultantes de la investigación estadística dentro del ámbito científico general con el objeto de crear teorías, herramientas y métodos que sean útiles en múltiples dominios de la investigación. 9. Big Data requiere desarrollar herramientas y habilidades analíticas para convertir sus datos en conocimiento. Las organizaciones (independientemente de su naturaleza) y los individuos (independientemente de su formación) están ‘obligados’ a desarrollar este conocimiento. Conclusiones (y IV)
  • 18. ¡¡¡Big Data es el ACONTECIMIENTO del siglo XXI y está ‘reservado’ a los Estadísticos!!! PERO CUIDADO

Notas del editor

  1. Presentación personal: Nombre. Licenciado en Geografía y Doctorado en Estadística. Título: “La Geografía y la Estadística. Dos necesidades para entender Big Data”. Motivación de la realización del trabajo: Integrar las dos áreas de conocimiento para el estudio del Big Data.
  2. Para saber si la Estadística y la Geografía pueden ‘ayudarnos’ en ese análisis, nos planteamos unas preguntas que se convirtieron en los objetivos del TFM. Dentro de los cuales podemos distinguir: 1 Objetivo General: La definición del estado actual del Big Data en el ámbito científico a través de una profunda revisión bibliográfica de las dos disciplinas que han de interaccionar para su correcto análisis (siempre) dentro el ámbito de las Ciencias Sociales: la Geografía Cuantitativa y la Estadística Multivariante (desde un punto de vista amplio). 4 Objetivos Específicos: Definir de manera concreta y concisa Big Data como fenómeno. Justificar la Estadística Multivariante aplicada a Big Data. Clasificar y calificar las técnicas multivariantes clásicas que se pueden aplicar para estos volúmenes de información. Presentar la GISciencia como el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.
  3. ¿Pero qué es Big Data? (I) Todo el mundo habla de este fenómeno (las noticias son continuas), Big Data es el producto de la última fase de desarrollo de las TIC (Tecnologías de la Información y la Comunicación) y del Open Data. Es decir, es la consecuencia de las mejoras exponenciales que han sufrido tanto el hardware como el software desde finales de los años 60, y (muy importante) complementada por un cambio de mentalidad consistente en la apertura en la tenencia de los datos. (DESPUÉS DE MOSTRAR EL GRÁFICO) Pero este fenómeno no sería posible, ni se podría entender sin la existencia de Internet, que es el espacio virtual en el cual ‘reside’ y en el cual se ‘desarrolla’, constituyendo (de manera conjunta) un auténtico ecosistema. Es evidente que Internet ha revolucionado la informática y las comunicaciones, pero aún es más cierto que ha cambiado nuestra concepción del mundo social: su acceso ‘libre’ y ‘abierto’ ha transformado radicalmente la forma en la cual las personas las empresas y los gobiernos nos comunicamos y colaboramos (en definitiva interactuamos).
  4. Y nos volvemos a preguntar ¿Pero qué es Big Data? (y II) ¿Un problema? (para muchos lo es)“Define una situación en la que el conjunto de datos existente ha llegado a tener un tamaño tan grande, una heterogeneidad tan diversa y un crecimiento tan exponencial que las TIC convencionales no pueden manejarlo de manera efectiva y aún resulta más difícil generar información a partir del mismo. ¿Una solución? (a veces) es definido como un conjunto de herramientas, procesos y aptitudes que van a permitir la gestión de enormes cantidades de información para mejorar los resultados. CHISTE: “¿Esto cuenta como Big Data?” Para el niño es un problema y a la vez es una solución (será buen analista de datos).
  5. Características del Big Data Algunos de los autores consultados llegan a caracterizar, en principio, 3 dimensiones en Big Data (’las 3Vs’): ‘Volumen’, ‘Variedad’ y ‘Velocidad’, para en los últimos artículos y documentación consultada, algunos añadan una 4ª y hasta una 5ª V: la ‘Veracidad’ y el ‘Valor’. Estos dos últimos atributos se han incorporado cuando Big Data ha trascendido a otras áreas distintas a la informática (en contraste con los ‘3Vs’ originales, no están referidas a sus características intrínsecas y ahora lo explicaremos). En definitiva, la convergencia de todas estas dimensiones (se habla de ‘las 5Vs’) ayuda tanto a definir, como a diferenciar, esta realidad: Volumen: Existencia de cantidades masivas de datos, pero lo que es más importante es que sea lo que se considere, en este preciso momento, como un ‘volumen grande’, mañana lo será más. Es la característica que se asocia con mayor frecuencia a este Big Data. Variedad: Se refiere a los distintos tipos y las diversas fuentes de los datos. La cuestión es: cómo se han de integrar, gestionar y analizar datos estructurados, semiestructurados y no estructurados. Y es que con la irrupción de sensores, dispositivos inteligentes y tecnologías de colaboración social, los registros que se generan presentan innumerables formas: archivos de texto, Bases de Datos, geolocalizaciones, URL´s, tuits, registros de sensores, audios, vídeos, secuencias de clic del ratón, archivos de registro y un largo etcétera cuya variedad sigue aumentando cada día. Velocidad: Hace referencia a cómo de rápido se crean y se procesan los datos. Esta velocidad está aumentando continuamente, lo que hace que los sistemas tradicionales no sean eficaces en su captación, almacenamiento y análisis. Para los procesos en los que el tiempo resulta fundamental, ciertos tipos de datos deben analizarse en tiempo real (‘streaming’) para que resulten útiles para el objetivo. Veracidad: la incertidumbre de los datos. La calidad que es necesaria para hacerlo útil en su aplicación práctica Esforzarse por conseguir inicialmente unos datos de alta calidad es un requisito importante y un reto fundamental. No puede haber datos que cumplan los 3 criterios originales, pero sean inaplicables en la práctica debido a su mala calidad o a una baja credibilidad de sus fuentes. Pero, al mismo tiempo (lo interesante), es que las 3 primeras Vs hacen que esta 4ª (la ‘Veracidad’) sea más fácil de lograr ya que cuando hay gran un número de mediciones independientes los errores de medición ordinarios se convierten en un problema menor, ya que éstos tienden a estabilizarse y podemos gestionar su correcto tratamiento utilizando para ello técnicas estadísticas que aumenten la robustez de los datos. Por lo tanto, la clave para lograr la veracidad en Big Data no conlleva garantizar la medición perfecta, sino, más bien, requiere evitar los errores sistemáticos y controlar la confiabilidad de sus fuentes y aquí la Estadística Multivariante juega un papel fundamental. Valor: Representa el resultado económico y social del desarrollo y la implantación de Big Data. Es decir ¿Qué es lo que obtenemos después de procesar Big Data?
  6. Un ejemplo de la dimensión de Big Data El primer día en la vida de un niño: (Aquí vemos a toda la familia y amigos… haciendo fotos, enviando mensajes, escribiendo en el Facebook, en el Twiter, etc.) Veamos esas 3 Vs originales en el ejemplo: Volumen: Equivalente a 70 veces el contenido de la librería del Congreso de los EEUU. Variedad: (como decíamos antes: Mensajes de texto, fotos, videos, plataformas sociales, etc. Velocidad: todo ‘en tiempo real’. “HEMOS TENIDO UN BIG BABY”
  7. ¿Cómo podemos transformar un problema en solución? Del ‘Big Problem’ al ‘Big Value’. Un problema es, por definición, algo susceptible de ser resuelto. ¿Cómo? Conociendo cada una de las características de ese problema (que ya analizábamos en la transparencia anterior) y planteando métodos lógicos que gestionen adecuadamente cada una de ellas. (MOSTRAR GRÁFICO Y EXPLICAR BREVEMENTE) ¿Qué métodos podemos utilizar? La Estadística.
  8. Justificando la Estadística Multivariante en Big Data Volumen y Velocidad: Procesamiento de datos complejos en streaming (en tiempo real): Además de los (obvios) problemas de procesamiento y almacenamiento, deben resolverse los involucrados al manejo de cantidades masivas de datos en tiempo real (decidir qué calcular y qué almacenar en cada momento). Dos frentes abiertos: La ‘nube’ puede ser la respuesta ya que los servidores virtuales permiten escalar tanto los recursos como los costes disponibles, lo que resulta esencial para poder procesar grandes volúmenes de datos con rapidez a través de distintas máquinas clusters. ‘ML’: Desarrollo de sistemas que permitan automatizar la toma de decisiones basadas directamente en los datos. Veracidad y Variedad: Desarrollo de métodos estadísticos más robustos. Técnicas más tolerantes al estado y ‘confiabilidad’ de los datos y también los ‘outliers’. De esta manera: Análisis de las diversas fuentes de datos: la mayoría de las Bases de Datos de acceso público más interesantes (internas, externas, estructuradas o no), se encuentran mal organizadas, ‘cargadas de ruido’ y son normalmente de difícil acceso a través de los estándares actuales de programación. La importancia de los ’outliers’: en marketing, por ejemplo, (una de las disciplinas con más necesidad de implantar soluciones para Big Data) por ejemplo, no se deben descartar estos registros, ya que coinciden, a menudo, con las cuentas/clientes de mayor (o menor) valor de toda la población. Análisis de diversos formatos de datos: textos, imágenes, videos, etc. El desarrollo del ‘Natural Language Processing’ (‘NLP’): un objetivo muy importante es transformar los contenidos textuales generados por los usuarios en información valiosa a través de procesos estadísticos computacionalmente sencillos. Valor: Generando Conocimiento. No hay beneficio en la recogida y almacenamiento de toda la información si las herramientas que utilizamos no son capaces de encontrar patrones y conocimiento útil en los datos . Desarrollo de técnicas analíticas que transformen directamente los datos brutos en información útil. Utilizando desarrollos que posibiliten predecir comportamientos y tomar decisiones sobre los datos (obtención de conocimiento). Mejora en las técnicas de visualización: La representación gráfica facilita la comunicación y el entendimiento de los datos, transformándolos directamente en información.
  9. Clasificando las técnicas multivariantes clásicas en Big Data En relación a las necesidades planteadas por los analistas de Big Data podemos realizar la división de las técnicas multivariantes clásicas en dos grandes grupos: Técnicas de Reducción de la Dimensión: cuyo objetivo es simplificar los datos resumiendo la información de los mismos a través de un número pequeño de componentes que presenten la información más relevante. El más relevante el ‘Análisis de Componentes Principales ‘ seguido del ‘Multidimensional Scaling’. Técnicas de Clasificación: cuya finalidad es agrupar y clasificar los datos mediante la división adecuada de éstos y la aplicación de estas normas a nuevos conjuntos de registros. El más relevante el ‘Análisis de Cluster‘ seguido del ‘Análisis Discriminante’.
  10. Las sucesivas búsquedas bibliográficas realizadas con el objetivo de conocer qué técnicas estadísticas se utilizan en Big Data nos han permitido concluir los siguientes dos aspectos: ADAPTACION DE LAS TÉCNICAS CLASICAS A LOS NUEVOS REQUERIMIENTOS: Son muchas las aportaciones científicas que implantan soluciones multivariantes en Big Data (y que parecen las más lógicas para su análisis), pero para casi todas ellas parten de la premisa de la necesidad de adaptarlas a la nueva realidad y las necesidades que impone este fenómeno. Por lo general, aplicamos estadística ‘one-shot’ cuando vamos a tener que combinar muchas herramientas estadísticas para un mismo problema. Se requieren modelos complejos y heterogéneos (dinámicos, multivariantes, no paramétricos). Cómo reducir la dimensión eficazmente (disminuir el volumen). Cómo encontrar relaciones y patrones, clasificar (es clave hacer grupos de observaciones). ‘Statistical Learning’ clave para el futuro. Elementos: Data Mining, Inferencia y Predicción. Conocer y trabajar en ‘Cloud Computing’ (aspectos tecnológicos): Y es que las características propias del fenómeno Big Data necesitan la adecuada infraestructura tecnológica para la gestión total y efectiva de los datos contenidos. CAMPOS DE APLICACIÓN: Computación. Genómica. Marketing. Y un Big Etcétera.
  11. Cómo se genera espacio y fenómenos espaciales en Internet: La ‘nube’ es un espacio antrópico. Internet of Things (‘IoT’) crea registros espaciales. el mundo físico se está convirtiendo en un verdadero sistema de información gracias a su desarrollo. La ‘Computación Ubicua’ define la integración masiva de la informática (hardware y software), en nuestro entorno desapareciendo de la vista y formando parte integral de nuestra vida diaria. multitud de objetos cotidianos estarán dotados de sensores que harán las veces de nuestros sentidos y les permitirán generar continuamente información tanto del medio que les rodea y supone que el futuro-presente de Internet está definido por su inevitable encuentro con el mundo físico y real. Esta enorme cantidad de nueva información formará una piel digital que cubrirá el mundo físico. La información que se obtenga de manera continua a partir del IoT estará georreferenciada desde su origen (se estima que en más de un 80%) y será necesario desarrollar métodos específicos de análisis estadístico implementados en tecnología propia de la GISciencia para atender a las necesidades propias de este fenómeno y su evolución. Internet of Everything (‘IoE’) genera la necesidad al crear Big Data. Pero como estamos señalando a lo largo de todo el TFM, los datos en bruto no son suficientes para ello, todos esos bits deben ser ‘tamizados’ para encontrar información útil y luego ser transformados en conocimiento, para finalmente traducirlos a sabiduría ¿Cómo? A través de la GISciencia. Comprender el mundo a través de los datos masivos antrópicamente generados: no hay nada más geográfico que esta cuestión.
  12. La GISciencia: Cuando se trabaja con datos espaciales es imprescindible conocer la posición donde se producen los fenómenos: Georreferenciación. Un GIS gestiona cada una de las partes de la realidad georreferenciada a través de capas que contienen los datos de un aspecto de ésta, Esta idea es básica para la solución analítica de Big Data: permite relacionar varias capas entre sí para mostrar aspectos que la complejidad de la realidad impide percibir directamente. La GISciencia constituye un fundamento conceptual y teórico más profundo que los GIS, resultado de su evolución como campo unificado que estudia estos Sistemas de Información y la Estadística Espacial. Y constituye el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.
  13. Del dato al conocimiento en Big Data Observamos un fenómeno del ‘Mundo Real’: ‘3Vs’ del Big Data (‘Volumen’, ‘Velocidad’ y ‘Variedad’). Entramos en el ‘Ámbito Científico’: De la ‘OBSERVACIÓN’ recogemos ‘Datos’, los cuales deben ser validados para generar la ‘4V’: la ‘Veracidad’. Del ‘Dato’ cierto conseguido a través del análisis y la investigación, obtenemos ‘Información’. De la ‘Información’ mediante la interpretación y la comprensión, estamos en disposición de ‘tomar decisiones’. Aparece el ‘Conocimiento’. Ya tenemos las ‘5Vs’ (aparece el ‘Valor’). Volvemos al ‘Mundo Real’: y el ‘Conocimiento’ nos permite ‘ACTUAR’ sobre ese fenómeno con rigor científico.
  14. Para finalizar la exposición paso a describir las conclusiones a las que hemos llegado durante el desarrollo del Trabajo de Fin de Máster: CONCLUSIONES (I) Big Data es un fenómeno que surge en los tres últimos años como producto de la última fase de desarrollo de las ‘TIC’ y del impulso al ‘Open Data’, conformando una realidad y una revolución que en la actualidad afecta a todos los ámbitos de nuestra sociedad. Cinco características lo definen y la ciencia Estadística ha de dar respuesta a cada una estas dimensiones: ‘Veracidad’: implantando soluciones que extraigan del conjunto de datos aquellos registros que verdaderamente aporten valor. Importancia de los ‘outliers’. ‘Velocidad’: desarrollando algoritmos que permitan el procesamiento en ‘streaming’. ‘Volumen’: mediante técnicas que permitan reducir la dimensión original de los datos y conseguir su clasificación. ‘Variedad’: adoptando métodos que sean capaces de tratar con registros de diversa naturaleza. ‘Valor’: utilizando desarrollos que posibiliten predecir comportamientos y tomar decisiones sobre los datos (conocimiento).
  15. CONCLUSIONES (II) Es evidente que la Estadística Univariante no puede hacer frente a las necesidades del Big Data y que además, tal y como hemos comprobado en la bibliografía consultada, las técnicas multivariantes clásicas son utilizadas pero con importantes limitaciones. Confusión en la bibliografía científica entre Big Data y grandes matrices de datos (los denominados ‘Large Data Sheet’). Las soluciones se están aportando mayormente desde el ámbito empresarial donde ya existen desarrollos que se encargan de gestionar, almacenar y procesar los registros de Big Data. La clave es ‘cómo analizamos la misma’ (aquí aparece la interesante dicotomía correlación-causalidad que exponemos en el TFM) y para ello la necesidad de una profunda alianza entre el ámbito académico y el empresarial (que va a generar un incremento exponencial en I+D+i Investigación + desarrollo`+ innovación).
  16. Conclusiones (III) Big Data está provocando una revolución en el ámbito científico (la denominada ‘Big Ciencia’ empieza a trascender a muchos ámbitos científicos). La explosión de datos que manejan es una realidad y para dar respuesta a los fenómenos que analizan, están adoptando como suyas herramientas antes auxiliares (Informática y Estadística), que comienzan a integrarse como parte fundamental de su núcleo teorético (estudio del conocimiento, que se dirige al conocimiento, no a la acción ni a la práctica), postulándose como su principal factor de evolución a disciplinas científicas ‘más maduras’. Un ejemplo claro es la Geografía. La localización como atributo para los registros en Big Data (‘IoT’), provoca la aparición de nuevas oportunidades y la necesidad de determinar nuevos objetivos para esta ciencia que requieren el desarrollo de un cuerpo disciplinar capaz de amoldarse al Big Data: la GISciencia.
  17. Conclusiones (y IV) Resulta necesario crear un cuerpo académico que dé respuesta a esta realidad. La dispersión al acometer el estudio de Big Data desde cada de las disciplinas científicas supone un gran error (y es lo que se está haciendo). Es necesario avanzar en el estudio de las interrelaciones resultantes de la investigación estadística dentro del ámbito científico general con el objeto de crear teorías, herramientas y métodos que sean útiles en múltiples dominios de la investigación. Big Data requiere desarrollar herramientas y habilidades analíticas para convertir sus datos en conocimiento. Las organizaciones (independientemente de su naturaleza) y los individuos (independientemente de su formación) están obligados a desarrollar este conocimiento.
  18. Si yo fuera estadístico, estaría dando saltos de alegría: Big Data cambiará la concepción perceptual del propio mundo. Pero cuidado! (chiste): La necesaria adopción y adecuación de una realidad denominada Big Data dentro del estudio geográfico y del análisis científico en general, presupone cambiar radicalmente la manera de hacer ciencia, asumiendo su desarrollo dentro de un proceso abductivo donde la correlación entre los datos señala la causa y el efecto. Así, manejando de manera correcta esta gran cantidad de datos, con un objetivo concreto, permitirá concluir a los analistas y científicos que cuando un fenómeno se produce se da otro hecho o conjunto de hechos, pero el riesgo aparece porque podemos comenzar a ignorar la causa (cómo se produce). Saber tanto, por lo tanto, puede cobrarse su precio: ignorar cómo lo sabemos o cómo se produce exactamente el fenómeno descubierto, sencillamente lo sabemos, y se diluye el vínculo causal en pro del correlacional (pautas y correlaciones por encima de causalidades). Y es que hasta ahora, las investigaciones científicas que perseguían la causalidad eran complejas y costosas, por lo tanto la gran alternativa a esta metodología son los datos masivos pero sin olvidar el análisis del porqué y su modelización: de ahí lo necesario de la GISciencia.
  19. MUCHAS GRACIAS A TODOS POR VUESTRA ATENCIÓN