SlideShare una empresa de Scribd logo
1 de 19
LA GEOGRAFÍA Y LA ESTADÍSTICA.
DOS NECESIDADES PARA ENTENDER BIG DATA.
PEDRO JUANES NOTARIO
Máster AADM 2013-2014
Objetivos
Específicos
• Definir de manera concreta y concisa Big Data como fenómeno.
• Justificar la Estadística Multivariante aplicada a Big Data.
• Clasificar y calificar las técnicas multivariantes clásicas que se
pueden aplicar.
• Presentar la GISciencia como el vehículo curricular adecuado para
el tratamiento académico, conceptual y de desarrollo analítico
final del Big Data.
General
La definición del estado actual del Big Data a través de una profunda
revisión bibliográfica de las dos disciplinas que han de interaccionar
para su correcto análisis: la Geografía Cuantitativa y la Estadística
Multivariante.
Es el producto de la última fase de desarrollo de las TIC y del Open Data.
Consecuencia de las mejoras exponenciales que han sufrido el hardware y el
software desde finales de los 60, complementada por un cambio de mentalidad en
la tenencia de los datos.
Big Data
Desarrollo
TIC
Open
Data
¿Pero qué es Big Data? (I)
¿Pero qué es Big Data? (y II)
¿Un problema?
Define una situación en la que el conjunto de datos existente ha llegado a tener un tamaño
tan grande, una heterogeneidad tan diversa y un crecimiento tan exponencial que las TIC
convencionales no pueden manejarlo de manera efectiva y aún resulta más difícil generar
información a partir del mismo.
¿Una solución?
Conjunto de herramientas, procesos y aptitudes que van a permitir la gestión de enormes
cantidades de datos para mejorar los resultados.
Características de Big Data
Registros
Transacciones
Peta-Terabytes
Procesos
Tiempo Real
Streaming
Datos
Estructurados
Desestructurados
Origen
Autenticidad
Confiabilidad
Conocimiento
Hipótesis
Correlaciones
5 Vs
Un ejemplo de la dimensión de Big Data
• Volumen: equivalente a 70 veces el contenido de la librería del Congreso de los EEUU.
• Variedad: mensajes de texto, fotos, videos, plataformas sociales, etc.
• Velocidad: en tiempo real.
El primer día en la vida de un niño
Transformemos el problema en solución
¿Utilizando la Estadística?
Justificando la Estadística Multivariante en Big Data
• Volumen y Velocidad  Procesamiento de datos complejos en streaming.
• La ‘nube’.
• ‘Machine Learning’.
• Veracidad y Variedad  Desarrollo de métodos estadísticos más robustos.
• Análisis de diversas fuentes de datos (internas, externas, estructuradas o
no).
• Análisis de diversos formatos de datos (textos, imágenes, videos, etc.)
• Importancia de los ’outliers’.
• Valor  Generando Conocimiento.
• Desarrollo de técnicas analíticas que transformen los datos brutos en
información útil.
• Mejora en las técnicas de visualización.
Clasificando las técnicas multivariantes clásicas en Big Data
• Técnicas de Reducción de la Dimensión: Simplificar los datos resumiendo la
información de los mismos a través de un número pequeño de componentes
que presenten la información más relevante.
• ‘Análisis de Componentes Principales ‘.*
• ‘Análisis Factorial’.
• ‘Análisis de Coordenadas Principales’.
• ‘Multidimensional Scaling’. **
• ‘Análisis de Correspondencias’.
• Técnicas de Clasificación: Agrupar y clasificar los datos mediante la división
adecuada de éstos y la aplicación de estas normas a nuevos conjuntos de
registros.
• ‘Análisis de Cluster’. *
• ‘Análisis Discriminante’. **
• ‘Análisis de Correlación Canónica’.
Calificando las técnicas multivariantes clásicas en Big Data
NECESIDAD DE ADAPTACION DE LAS TÉCNICAS A NUEVOS REQUERIMIENTOS:
• Aplicamos estadística ‘one-shot’ cuando necesitamos combinar muchas
técnicas estadísticas para un mismo problema.
• Se requieren modelos complejos y heterogéneos.
• Cómo reducir la dimensión eficazmente.
• Cómo encontrar relaciones y patrones: clasificar.
• ‘Statistical Learning’ clave para el futuro.
• Conocer y trabajar en ‘Cloud Computing’.
CAMPOS DE APLICACIÓN:
• Computación.
• Genómica.
• Marketing.
• Y un Big Etcétera.
GISciencia‘IoT’ ‘IoE’
La
‘nube’
• La ‘nube’ es un espacio antrópico.
• Internet of Things (‘IoT’) crea registros espaciales. La ‘Computación
Ubicua’ define la integración masiva de la informática en nuestro entorno.
• Internet of Everything (‘IoE’) causa la necesidad al crear Big Data
Cómo se genera espacio y los fenómenos espaciales en Internet
• Cuando se trabaja con datos espaciales es imprescindible conocer la posición
donde se producen los fenómenos: Georreferenciación.
• Un GIS gestiona cada una de las partes de la realidad a través de capas que
contienen los datos de un aspecto de ésta, lo que permite relacionar varias capas
entre sí para mostrar aspectos que la complejidad de la realidad impide percibir
directamente.
• La GISciencia constituye un fundamento conceptual y teórico más profundo que
los GIS, resultado de su evolución como campo unificado que estudia estos
Sistemas de Información y la Estadística Espacial.
• Es el vehículo curricular adecuado para el tratamiento académico, conceptual y
de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.
La GISciencia
DATO
Recolección.
Validación.
OBSERVACIÓN
Del dato al conocimiento en Big Data
MUNDO REAL ÁMBITO CIENTÍFICO
ACCIÓN
INFORMACIÓN
Análisis.
Investigación.
CONOCIMIENTO
Comprensión.
Decisión.
Volumen
Velocidad
Variedad
3Vs
Veracidad
4Vs
5Vs
Conclusiones (I)
1. Big Data es un fenómeno que surge en los tres últimos años como producto de
la última fase de desarrollo de las ‘TIC’ y del impulso al ‘Open Data’,
conformando una realidad y una revolución que en la actualidad afecta a todos
los ámbitos de nuestra sociedad.
2. Cinco características lo definen y la ciencia Estadística ha de dar respuesta a
cada una estas dimensiones:
• ‘Veracidad’: implantando soluciones que extraigan del conjunto de datos
aquellos registros que verdaderamente aporten valor. Importancia de los
‘outliers’.
• ‘Velocidad’: desarrollando algoritmos que permitan el procesamiento en
‘streaming’.
• ‘Volumen’: mediante técnicas que permitan reducir la dimensión original de
los datos y conseguir su clasificación.
• ‘Variedad’: adoptando métodos que sean capaces de tratar con registros de
diversa naturaleza.
• ‘Valor’: utilizando desarrollos que posibiliten predecir comportamientos y
tomar decisiones sobre los datos.
Conclusiones (II)
3. Es evidente que la Estadística Univariante no puede hacer frente a las
necesidades del Big Data y que además, tal y como hemos comprobado en la
bibliografía consultada, las técnicas multivariantes clásicas son utilizadas pero
con importantes limitaciones.
4. Confusión en la bibliografía científica entre Big Data y grandes matrices de
datos.
5. Las soluciones se están aportando mayormente desde el ámbito empresarial
donde ya existen desarrollos para gestionar, almacenar y procesar los registros
de Big Data. La clave es ‘cómo analizamos la misma’ y la necesidad de una
profunda alianza entre el ámbito académico y el empresarial (incremento
exponencial en I+D+i).
6. Big Data está provocando una revolución en el ámbito científico (Big Ciencia).
La explosión de datos es una realidad y para dar respuesta a los fenómenos
que analizan están adoptando herramientas antes auxiliares (Informática y
Estadística), que se han transformado en su principal factor de evolución hacia
disciplinas científicas ‘más maduras’.
7. Un ejemplo claro se da en la Geografía. Además de lo antes señalado, la
localización como atributo para los registros en Big Data (IoT), provoca la
aparición de nuevas oportunidades y la necesidad de determinar nuevos
objetivos que requieren el desarrollo de un nuevo cuerpo disciplinar: la
GISciencia.
Conclusiones (III)
8. La dispersión al acometer el estudio de Big Data desde cada de las disciplinas
científicas supone un gran error. Es necesario avanzar en el estudio de las
interrelaciones resultantes de la investigación estadística dentro del ámbito
científico general con el objeto de crear teorías, herramientas y métodos que
sean útiles en múltiples dominios de la investigación.
9. Big Data requiere desarrollar herramientas y habilidades analíticas para
convertir sus datos en conocimiento. Las organizaciones (independientemente
de su naturaleza) y los individuos (independientemente de su formación) están
‘obligados’ a desarrollar este conocimiento.
Conclusiones (y IV)
¡¡¡Big Data es el ACONTECIMIENTO del siglo XXI
y está ‘reservado’ a los Estadísticos!!!
PERO CUIDADO
La geografía y la estadística. dos necesidades para entender big data

Más contenido relacionado

La actualidad más candente

Analisis de la tienda virtual
Analisis de la tienda virtualAnalisis de la tienda virtual
Analisis de la tienda virtual
Jorge Tun
 
Plandemarketingdecocacola 121220102252-phpapp02
Plandemarketingdecocacola 121220102252-phpapp02Plandemarketingdecocacola 121220102252-phpapp02
Plandemarketingdecocacola 121220102252-phpapp02
Brox Technology
 

La actualidad más candente (20)

Metodologia Identidad Corporativa
Metodologia Identidad CorporativaMetodologia Identidad Corporativa
Metodologia Identidad Corporativa
 
MODELO RACI, METAS Y OBJETIVOS DE LA ESTRATEGIA SERVICIO DE TI.
MODELO RACI, METAS Y OBJETIVOS DE LA ESTRATEGIA SERVICIO DE TI.MODELO RACI, METAS Y OBJETIVOS DE LA ESTRATEGIA SERVICIO DE TI.
MODELO RACI, METAS Y OBJETIVOS DE LA ESTRATEGIA SERVICIO DE TI.
 
Inteligencia Artificial en negocios
Inteligencia Artificial en negociosInteligencia Artificial en negocios
Inteligencia Artificial en negocios
 
Arquitectura de Empresa TOGAF
Arquitectura de Empresa TOGAFArquitectura de Empresa TOGAF
Arquitectura de Empresa TOGAF
 
Analisis de la tienda virtual
Analisis de la tienda virtualAnalisis de la tienda virtual
Analisis de la tienda virtual
 
#CASO Accenture#
#CASO Accenture##CASO Accenture#
#CASO Accenture#
 
Modelo de madurez de business intelligence
Modelo de madurez de business intelligenceModelo de madurez de business intelligence
Modelo de madurez de business intelligence
 
Arquitectura Empresarial 11.0
Arquitectura Empresarial 11.0Arquitectura Empresarial 11.0
Arquitectura Empresarial 11.0
 
BIG DATA COMPLETO ISBN.pdf
BIG DATA COMPLETO ISBN.pdfBIG DATA COMPLETO ISBN.pdf
BIG DATA COMPLETO ISBN.pdf
 
Plandemarketingdecocacola 121220102252-phpapp02
Plandemarketingdecocacola 121220102252-phpapp02Plandemarketingdecocacola 121220102252-phpapp02
Plandemarketingdecocacola 121220102252-phpapp02
 
Modelos de Costes para la Gestión de Servicios TI
Modelos de Costes para la Gestión de Servicios TIModelos de Costes para la Gestión de Servicios TI
Modelos de Costes para la Gestión de Servicios TI
 
2021 Mes de la ciberseguridad
  2021 Mes de la ciberseguridad  2021 Mes de la ciberseguridad
2021 Mes de la ciberseguridad
 
Gobierno Corporativo de TI - ISO 38500
Gobierno Corporativo de TI - ISO 38500Gobierno Corporativo de TI - ISO 38500
Gobierno Corporativo de TI - ISO 38500
 
Data mart
Data martData mart
Data mart
 
Telefonica experience in itsm sep 2010
Telefonica experience in itsm sep 2010Telefonica experience in itsm sep 2010
Telefonica experience in itsm sep 2010
 
INTELIGENCIA DE NEGOCIOS (BUSINESS INTELLIGENCE)
INTELIGENCIA DE NEGOCIOS  (BUSINESS INTELLIGENCE)INTELIGENCIA DE NEGOCIOS  (BUSINESS INTELLIGENCE)
INTELIGENCIA DE NEGOCIOS (BUSINESS INTELLIGENCE)
 
Buenas Prácticas de Comercio Electrónico
Buenas Prácticas de Comercio ElectrónicoBuenas Prácticas de Comercio Electrónico
Buenas Prácticas de Comercio Electrónico
 
1 big data y redes sociales
1 big data y redes sociales1 big data y redes sociales
1 big data y redes sociales
 
Inteligencia de Negocios
Inteligencia de NegociosInteligencia de Negocios
Inteligencia de Negocios
 
Planificación estratégica de tecnología de información
Planificación estratégica de tecnología de informaciónPlanificación estratégica de tecnología de información
Planificación estratégica de tecnología de información
 

Destacado

Big data retos y oportunidades para el turismo
Big data retos y oportunidades para el turismoBig data retos y oportunidades para el turismo
Big data retos y oportunidades para el turismo
Lia Arce
 

Destacado (20)

Big data retos y oportunidades para el turismo
Big data retos y oportunidades para el turismoBig data retos y oportunidades para el turismo
Big data retos y oportunidades para el turismo
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Presentación TFM - Big Data en la predicción del estado del tráfico. Difusión...
Presentación TFM - Big Data en la predicción del estado del tráfico. Difusión...Presentación TFM - Big Data en la predicción del estado del tráfico. Difusión...
Presentación TFM - Big Data en la predicción del estado del tráfico. Difusión...
 
Las Islas de Felicidad No Son Suficiente (Conferencia Agile-Spain 2.013)
Las Islas de Felicidad No Son Suficiente (Conferencia Agile-Spain 2.013)Las Islas de Felicidad No Son Suficiente (Conferencia Agile-Spain 2.013)
Las Islas de Felicidad No Son Suficiente (Conferencia Agile-Spain 2.013)
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
 
Manuel Machado - Big data, de la investigación científica a la gestión empres...
Manuel Machado - Big data, de la investigación científica a la gestión empres...Manuel Machado - Big data, de la investigación científica a la gestión empres...
Manuel Machado - Big data, de la investigación científica a la gestión empres...
 
Workshop UOC Empresa sobre gamificación
Workshop UOC Empresa sobre gamificaciónWorkshop UOC Empresa sobre gamificación
Workshop UOC Empresa sobre gamificación
 
Evolución a Big Data en la empresa no tecnológica
Evolución a Big Data en la empresa no tecnológicaEvolución a Big Data en la empresa no tecnológica
Evolución a Big Data en la empresa no tecnológica
 
Bases de datos avanzado NOSQL
Bases de datos avanzado NOSQLBases de datos avanzado NOSQL
Bases de datos avanzado NOSQL
 
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1 Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
Big Data: the Management Revolution
Big Data: the Management RevolutionBig Data: the Management Revolution
Big Data: the Management Revolution
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data Introducción
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Lecture12 (is353-business strategy)
Lecture12 (is353-business strategy)Lecture12 (is353-business strategy)
Lecture12 (is353-business strategy)
 
NoSQL databases and managing big data
NoSQL databases and managing big dataNoSQL databases and managing big data
NoSQL databases and managing big data
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
 

Similar a La geografía y la estadística. dos necesidades para entender big data

Similar a La geografía y la estadística. dos necesidades para entender big data (20)

Conociendo big data
Conociendo big dataConociendo big data
Conociendo big data
 
Data science como motor de la innovación
Data science como motor de la innovaciónData science como motor de la innovación
Data science como motor de la innovación
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
 
Tema1
Tema1Tema1
Tema1
 
Conociendo el bigdata por Camargo y Joyanes
Conociendo el bigdata por Camargo y JoyanesConociendo el bigdata por Camargo y Joyanes
Conociendo el bigdata por Camargo y Joyanes
 
El Big Data como fenómeno y herramienta para el e‐research en CSyH Digitales
El Big Data como fenómeno y herramienta para el e‐research en CSyH DigitalesEl Big Data como fenómeno y herramienta para el e‐research en CSyH Digitales
El Big Data como fenómeno y herramienta para el e‐research en CSyH Digitales
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de Datos
 
Big Data Analytics: Oportunidades, Retos y Tendencias
Big Data Analytics: Oportunidades, Retos y TendenciasBig Data Analytics: Oportunidades, Retos y Tendencias
Big Data Analytics: Oportunidades, Retos y Tendencias
 
Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.Big data, NoSQL y tendencias en Bases de Datos 2018.
Big data, NoSQL y tendencias en Bases de Datos 2018.
 
Big data o datos masivos en investigación en odontología
Big data o datos masivos en investigación en odontologíaBig data o datos masivos en investigación en odontología
Big data o datos masivos en investigación en odontología
 
Business intelligence y Big Data en la ciudad
Business intelligence y Big Data en la ciudadBusiness intelligence y Big Data en la ciudad
Business intelligence y Big Data en la ciudad
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion
 
"Educación y datos masivos (Big Data)" - Fernando Santamaria
"Educación y datos masivos (Big Data)" - Fernando Santamaria"Educación y datos masivos (Big Data)" - Fernando Santamaria
"Educación y datos masivos (Big Data)" - Fernando Santamaria
 
"Educación y datos masivos (Big Data)" - Fernando Santamaria
"Educación y datos masivos (Big Data)" - Fernando Santamaria"Educación y datos masivos (Big Data)" - Fernando Santamaria
"Educación y datos masivos (Big Data)" - Fernando Santamaria
 
Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)
 
De tic big data
De tic big dataDe tic big data
De tic big data
 
Big data
Big dataBig data
Big data
 
De tic big data
De tic big dataDe tic big data
De tic big data
 
Profesión: Big Data
Profesión: Big DataProfesión: Big Data
Profesión: Big Data
 

Último

IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, eppIAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
CatalinaSezCrdenas
 
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
frank0071
 
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdfGribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
frank0071
 
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
llacza2004
 
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdfHobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
frank0071
 

Último (20)

CUADRO SINOPTICO IV PARCIAL/ TORAX . PDF
CUADRO SINOPTICO IV PARCIAL/ TORAX . PDFCUADRO SINOPTICO IV PARCIAL/ TORAX . PDF
CUADRO SINOPTICO IV PARCIAL/ TORAX . PDF
 
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, eppIAAS-  EPIDEMIOLOGIA. antisepcsia, desinfección, epp
IAAS- EPIDEMIOLOGIA. antisepcsia, desinfección, epp
 
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
Flores Galindo, A. - La ciudad sumergida. Aristocracia y plebe en Lima, 1760-...
 
La biodiversidad de Guanajuato (resumen)
La biodiversidad de Guanajuato (resumen)La biodiversidad de Guanajuato (resumen)
La biodiversidad de Guanajuato (resumen)
 
Matemáticas Aplicadas usando Python
Matemáticas Aplicadas   usando    PythonMatemáticas Aplicadas   usando    Python
Matemáticas Aplicadas usando Python
 
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
1890 –7 de junio - Henry Marmaduke Harris obtuvo una patente británica (Nº 88...
 
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdfGribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
Gribbin, John. - Historia de la ciencia, 1543-2001 [EPL-FS] [2019].pdf
 
Glaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdfGlaeser, E. - El triunfo de las ciudades [2011].pdf
Glaeser, E. - El triunfo de las ciudades [2011].pdf
 
Schuster, Nicole. - La metrópolis y la arquitectura del poder ayer hoy y mana...
Schuster, Nicole. - La metrópolis y la arquitectura del poder ayer hoy y mana...Schuster, Nicole. - La metrópolis y la arquitectura del poder ayer hoy y mana...
Schuster, Nicole. - La metrópolis y la arquitectura del poder ayer hoy y mana...
 
SEGUNDAS VANGUARDIAS ARTÍSTICAS DEL SIGLO XX.pdf
SEGUNDAS VANGUARDIAS ARTÍSTICAS DEL SIGLO XX.pdfSEGUNDAS VANGUARDIAS ARTÍSTICAS DEL SIGLO XX.pdf
SEGUNDAS VANGUARDIAS ARTÍSTICAS DEL SIGLO XX.pdf
 
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docxPRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
PRUEBA CALIFICADA 4º sec biomoleculas y bioelementos .docx
 
Fresas y sistemas de pulido en odontología
Fresas y sistemas de pulido en odontologíaFresas y sistemas de pulido en odontología
Fresas y sistemas de pulido en odontología
 
CASO CLÍNICO INFECCIONES Y TUMORES.pptx
CASO CLÍNICO INFECCIONES Y TUMORES.pptxCASO CLÍNICO INFECCIONES Y TUMORES.pptx
CASO CLÍNICO INFECCIONES Y TUMORES.pptx
 
Diario experiencias Quehacer Científico y tecnológico vf.docx
Diario experiencias Quehacer Científico y tecnológico vf.docxDiario experiencias Quehacer Científico y tecnológico vf.docx
Diario experiencias Quehacer Científico y tecnológico vf.docx
 
Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)
Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)
Ensayo ENRICH (sesión clínica, Servicio de Neurología HUCA)
 
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
5.2 DERIVADAS PARCIALES (64RG45G45G45G).pptx
 
Pelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibrasPelos y fibras. Criminalistica pelos y fibras
Pelos y fibras. Criminalistica pelos y fibras
 
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptxMapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
Mapa-conceptual-de-la-Seguridad-y-Salud-en-el-Trabajo-3.pptx
 
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdfHobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
Hobson, John A. - Estudio del imperialismo [ocr] [1902] [1981].pdf
 
La Célula, unidad fundamental de la vida
La Célula, unidad fundamental de la vidaLa Célula, unidad fundamental de la vida
La Célula, unidad fundamental de la vida
 

La geografía y la estadística. dos necesidades para entender big data

  • 1. LA GEOGRAFÍA Y LA ESTADÍSTICA. DOS NECESIDADES PARA ENTENDER BIG DATA. PEDRO JUANES NOTARIO Máster AADM 2013-2014
  • 2. Objetivos Específicos • Definir de manera concreta y concisa Big Data como fenómeno. • Justificar la Estadística Multivariante aplicada a Big Data. • Clasificar y calificar las técnicas multivariantes clásicas que se pueden aplicar. • Presentar la GISciencia como el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data. General La definición del estado actual del Big Data a través de una profunda revisión bibliográfica de las dos disciplinas que han de interaccionar para su correcto análisis: la Geografía Cuantitativa y la Estadística Multivariante.
  • 3. Es el producto de la última fase de desarrollo de las TIC y del Open Data. Consecuencia de las mejoras exponenciales que han sufrido el hardware y el software desde finales de los 60, complementada por un cambio de mentalidad en la tenencia de los datos. Big Data Desarrollo TIC Open Data ¿Pero qué es Big Data? (I)
  • 4. ¿Pero qué es Big Data? (y II) ¿Un problema? Define una situación en la que el conjunto de datos existente ha llegado a tener un tamaño tan grande, una heterogeneidad tan diversa y un crecimiento tan exponencial que las TIC convencionales no pueden manejarlo de manera efectiva y aún resulta más difícil generar información a partir del mismo. ¿Una solución? Conjunto de herramientas, procesos y aptitudes que van a permitir la gestión de enormes cantidades de datos para mejorar los resultados.
  • 5. Características de Big Data Registros Transacciones Peta-Terabytes Procesos Tiempo Real Streaming Datos Estructurados Desestructurados Origen Autenticidad Confiabilidad Conocimiento Hipótesis Correlaciones 5 Vs
  • 6. Un ejemplo de la dimensión de Big Data • Volumen: equivalente a 70 veces el contenido de la librería del Congreso de los EEUU. • Variedad: mensajes de texto, fotos, videos, plataformas sociales, etc. • Velocidad: en tiempo real. El primer día en la vida de un niño
  • 7. Transformemos el problema en solución ¿Utilizando la Estadística?
  • 8. Justificando la Estadística Multivariante en Big Data • Volumen y Velocidad  Procesamiento de datos complejos en streaming. • La ‘nube’. • ‘Machine Learning’. • Veracidad y Variedad  Desarrollo de métodos estadísticos más robustos. • Análisis de diversas fuentes de datos (internas, externas, estructuradas o no). • Análisis de diversos formatos de datos (textos, imágenes, videos, etc.) • Importancia de los ’outliers’. • Valor  Generando Conocimiento. • Desarrollo de técnicas analíticas que transformen los datos brutos en información útil. • Mejora en las técnicas de visualización.
  • 9. Clasificando las técnicas multivariantes clásicas en Big Data • Técnicas de Reducción de la Dimensión: Simplificar los datos resumiendo la información de los mismos a través de un número pequeño de componentes que presenten la información más relevante. • ‘Análisis de Componentes Principales ‘.* • ‘Análisis Factorial’. • ‘Análisis de Coordenadas Principales’. • ‘Multidimensional Scaling’. ** • ‘Análisis de Correspondencias’. • Técnicas de Clasificación: Agrupar y clasificar los datos mediante la división adecuada de éstos y la aplicación de estas normas a nuevos conjuntos de registros. • ‘Análisis de Cluster’. * • ‘Análisis Discriminante’. ** • ‘Análisis de Correlación Canónica’.
  • 10. Calificando las técnicas multivariantes clásicas en Big Data NECESIDAD DE ADAPTACION DE LAS TÉCNICAS A NUEVOS REQUERIMIENTOS: • Aplicamos estadística ‘one-shot’ cuando necesitamos combinar muchas técnicas estadísticas para un mismo problema. • Se requieren modelos complejos y heterogéneos. • Cómo reducir la dimensión eficazmente. • Cómo encontrar relaciones y patrones: clasificar. • ‘Statistical Learning’ clave para el futuro. • Conocer y trabajar en ‘Cloud Computing’. CAMPOS DE APLICACIÓN: • Computación. • Genómica. • Marketing. • Y un Big Etcétera.
  • 11. GISciencia‘IoT’ ‘IoE’ La ‘nube’ • La ‘nube’ es un espacio antrópico. • Internet of Things (‘IoT’) crea registros espaciales. La ‘Computación Ubicua’ define la integración masiva de la informática en nuestro entorno. • Internet of Everything (‘IoE’) causa la necesidad al crear Big Data Cómo se genera espacio y los fenómenos espaciales en Internet
  • 12. • Cuando se trabaja con datos espaciales es imprescindible conocer la posición donde se producen los fenómenos: Georreferenciación. • Un GIS gestiona cada una de las partes de la realidad a través de capas que contienen los datos de un aspecto de ésta, lo que permite relacionar varias capas entre sí para mostrar aspectos que la complejidad de la realidad impide percibir directamente. • La GISciencia constituye un fundamento conceptual y teórico más profundo que los GIS, resultado de su evolución como campo unificado que estudia estos Sistemas de Información y la Estadística Espacial. • Es el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales. La GISciencia
  • 13. DATO Recolección. Validación. OBSERVACIÓN Del dato al conocimiento en Big Data MUNDO REAL ÁMBITO CIENTÍFICO ACCIÓN INFORMACIÓN Análisis. Investigación. CONOCIMIENTO Comprensión. Decisión. Volumen Velocidad Variedad 3Vs Veracidad 4Vs 5Vs
  • 14. Conclusiones (I) 1. Big Data es un fenómeno que surge en los tres últimos años como producto de la última fase de desarrollo de las ‘TIC’ y del impulso al ‘Open Data’, conformando una realidad y una revolución que en la actualidad afecta a todos los ámbitos de nuestra sociedad. 2. Cinco características lo definen y la ciencia Estadística ha de dar respuesta a cada una estas dimensiones: • ‘Veracidad’: implantando soluciones que extraigan del conjunto de datos aquellos registros que verdaderamente aporten valor. Importancia de los ‘outliers’. • ‘Velocidad’: desarrollando algoritmos que permitan el procesamiento en ‘streaming’. • ‘Volumen’: mediante técnicas que permitan reducir la dimensión original de los datos y conseguir su clasificación. • ‘Variedad’: adoptando métodos que sean capaces de tratar con registros de diversa naturaleza. • ‘Valor’: utilizando desarrollos que posibiliten predecir comportamientos y tomar decisiones sobre los datos.
  • 15. Conclusiones (II) 3. Es evidente que la Estadística Univariante no puede hacer frente a las necesidades del Big Data y que además, tal y como hemos comprobado en la bibliografía consultada, las técnicas multivariantes clásicas son utilizadas pero con importantes limitaciones. 4. Confusión en la bibliografía científica entre Big Data y grandes matrices de datos. 5. Las soluciones se están aportando mayormente desde el ámbito empresarial donde ya existen desarrollos para gestionar, almacenar y procesar los registros de Big Data. La clave es ‘cómo analizamos la misma’ y la necesidad de una profunda alianza entre el ámbito académico y el empresarial (incremento exponencial en I+D+i).
  • 16. 6. Big Data está provocando una revolución en el ámbito científico (Big Ciencia). La explosión de datos es una realidad y para dar respuesta a los fenómenos que analizan están adoptando herramientas antes auxiliares (Informática y Estadística), que se han transformado en su principal factor de evolución hacia disciplinas científicas ‘más maduras’. 7. Un ejemplo claro se da en la Geografía. Además de lo antes señalado, la localización como atributo para los registros en Big Data (IoT), provoca la aparición de nuevas oportunidades y la necesidad de determinar nuevos objetivos que requieren el desarrollo de un nuevo cuerpo disciplinar: la GISciencia. Conclusiones (III)
  • 17. 8. La dispersión al acometer el estudio de Big Data desde cada de las disciplinas científicas supone un gran error. Es necesario avanzar en el estudio de las interrelaciones resultantes de la investigación estadística dentro del ámbito científico general con el objeto de crear teorías, herramientas y métodos que sean útiles en múltiples dominios de la investigación. 9. Big Data requiere desarrollar herramientas y habilidades analíticas para convertir sus datos en conocimiento. Las organizaciones (independientemente de su naturaleza) y los individuos (independientemente de su formación) están ‘obligados’ a desarrollar este conocimiento. Conclusiones (y IV)
  • 18. ¡¡¡Big Data es el ACONTECIMIENTO del siglo XXI y está ‘reservado’ a los Estadísticos!!! PERO CUIDADO

Notas del editor

  1. Presentación personal: Nombre. Licenciado en Geografía y Doctorado en Estadística. Título: “La Geografía y la Estadística. Dos necesidades para entender Big Data”. Motivación de la realización del trabajo: Integrar las dos áreas de conocimiento para el estudio del Big Data.
  2. Para saber si la Estadística y la Geografía pueden ‘ayudarnos’ en ese análisis, nos planteamos unas preguntas que se convirtieron en los objetivos del TFM. Dentro de los cuales podemos distinguir: 1 Objetivo General: La definición del estado actual del Big Data en el ámbito científico a través de una profunda revisión bibliográfica de las dos disciplinas que han de interaccionar para su correcto análisis (siempre) dentro el ámbito de las Ciencias Sociales: la Geografía Cuantitativa y la Estadística Multivariante (desde un punto de vista amplio). 4 Objetivos Específicos: Definir de manera concreta y concisa Big Data como fenómeno. Justificar la Estadística Multivariante aplicada a Big Data. Clasificar y calificar las técnicas multivariantes clásicas que se pueden aplicar para estos volúmenes de información. Presentar la GISciencia como el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.
  3. ¿Pero qué es Big Data? (I) Todo el mundo habla de este fenómeno (las noticias son continuas), Big Data es el producto de la última fase de desarrollo de las TIC (Tecnologías de la Información y la Comunicación) y del Open Data. Es decir, es la consecuencia de las mejoras exponenciales que han sufrido tanto el hardware como el software desde finales de los años 60, y (muy importante) complementada por un cambio de mentalidad consistente en la apertura en la tenencia de los datos. (DESPUÉS DE MOSTRAR EL GRÁFICO) Pero este fenómeno no sería posible, ni se podría entender sin la existencia de Internet, que es el espacio virtual en el cual ‘reside’ y en el cual se ‘desarrolla’, constituyendo (de manera conjunta) un auténtico ecosistema. Es evidente que Internet ha revolucionado la informática y las comunicaciones, pero aún es más cierto que ha cambiado nuestra concepción del mundo social: su acceso ‘libre’ y ‘abierto’ ha transformado radicalmente la forma en la cual las personas las empresas y los gobiernos nos comunicamos y colaboramos (en definitiva interactuamos).
  4. Y nos volvemos a preguntar ¿Pero qué es Big Data? (y II) ¿Un problema? (para muchos lo es)“Define una situación en la que el conjunto de datos existente ha llegado a tener un tamaño tan grande, una heterogeneidad tan diversa y un crecimiento tan exponencial que las TIC convencionales no pueden manejarlo de manera efectiva y aún resulta más difícil generar información a partir del mismo. ¿Una solución? (a veces) es definido como un conjunto de herramientas, procesos y aptitudes que van a permitir la gestión de enormes cantidades de información para mejorar los resultados. CHISTE: “¿Esto cuenta como Big Data?” Para el niño es un problema y a la vez es una solución (será buen analista de datos).
  5. Características del Big Data Algunos de los autores consultados llegan a caracterizar, en principio, 3 dimensiones en Big Data (’las 3Vs’): ‘Volumen’, ‘Variedad’ y ‘Velocidad’, para en los últimos artículos y documentación consultada, algunos añadan una 4ª y hasta una 5ª V: la ‘Veracidad’ y el ‘Valor’. Estos dos últimos atributos se han incorporado cuando Big Data ha trascendido a otras áreas distintas a la informática (en contraste con los ‘3Vs’ originales, no están referidas a sus características intrínsecas y ahora lo explicaremos). En definitiva, la convergencia de todas estas dimensiones (se habla de ‘las 5Vs’) ayuda tanto a definir, como a diferenciar, esta realidad: Volumen: Existencia de cantidades masivas de datos, pero lo que es más importante es que sea lo que se considere, en este preciso momento, como un ‘volumen grande’, mañana lo será más. Es la característica que se asocia con mayor frecuencia a este Big Data. Variedad: Se refiere a los distintos tipos y las diversas fuentes de los datos. La cuestión es: cómo se han de integrar, gestionar y analizar datos estructurados, semiestructurados y no estructurados. Y es que con la irrupción de sensores, dispositivos inteligentes y tecnologías de colaboración social, los registros que se generan presentan innumerables formas: archivos de texto, Bases de Datos, geolocalizaciones, URL´s, tuits, registros de sensores, audios, vídeos, secuencias de clic del ratón, archivos de registro y un largo etcétera cuya variedad sigue aumentando cada día. Velocidad: Hace referencia a cómo de rápido se crean y se procesan los datos. Esta velocidad está aumentando continuamente, lo que hace que los sistemas tradicionales no sean eficaces en su captación, almacenamiento y análisis. Para los procesos en los que el tiempo resulta fundamental, ciertos tipos de datos deben analizarse en tiempo real (‘streaming’) para que resulten útiles para el objetivo. Veracidad: la incertidumbre de los datos. La calidad que es necesaria para hacerlo útil en su aplicación práctica Esforzarse por conseguir inicialmente unos datos de alta calidad es un requisito importante y un reto fundamental. No puede haber datos que cumplan los 3 criterios originales, pero sean inaplicables en la práctica debido a su mala calidad o a una baja credibilidad de sus fuentes. Pero, al mismo tiempo (lo interesante), es que las 3 primeras Vs hacen que esta 4ª (la ‘Veracidad’) sea más fácil de lograr ya que cuando hay gran un número de mediciones independientes los errores de medición ordinarios se convierten en un problema menor, ya que éstos tienden a estabilizarse y podemos gestionar su correcto tratamiento utilizando para ello técnicas estadísticas que aumenten la robustez de los datos. Por lo tanto, la clave para lograr la veracidad en Big Data no conlleva garantizar la medición perfecta, sino, más bien, requiere evitar los errores sistemáticos y controlar la confiabilidad de sus fuentes y aquí la Estadística Multivariante juega un papel fundamental. Valor: Representa el resultado económico y social del desarrollo y la implantación de Big Data. Es decir ¿Qué es lo que obtenemos después de procesar Big Data?
  6. Un ejemplo de la dimensión de Big Data El primer día en la vida de un niño: (Aquí vemos a toda la familia y amigos… haciendo fotos, enviando mensajes, escribiendo en el Facebook, en el Twiter, etc.) Veamos esas 3 Vs originales en el ejemplo: Volumen: Equivalente a 70 veces el contenido de la librería del Congreso de los EEUU. Variedad: (como decíamos antes: Mensajes de texto, fotos, videos, plataformas sociales, etc. Velocidad: todo ‘en tiempo real’. “HEMOS TENIDO UN BIG BABY”
  7. ¿Cómo podemos transformar un problema en solución? Del ‘Big Problem’ al ‘Big Value’. Un problema es, por definición, algo susceptible de ser resuelto. ¿Cómo? Conociendo cada una de las características de ese problema (que ya analizábamos en la transparencia anterior) y planteando métodos lógicos que gestionen adecuadamente cada una de ellas. (MOSTRAR GRÁFICO Y EXPLICAR BREVEMENTE) ¿Qué métodos podemos utilizar? La Estadística.
  8. Justificando la Estadística Multivariante en Big Data Volumen y Velocidad: Procesamiento de datos complejos en streaming (en tiempo real): Además de los (obvios) problemas de procesamiento y almacenamiento, deben resolverse los involucrados al manejo de cantidades masivas de datos en tiempo real (decidir qué calcular y qué almacenar en cada momento). Dos frentes abiertos: La ‘nube’ puede ser la respuesta ya que los servidores virtuales permiten escalar tanto los recursos como los costes disponibles, lo que resulta esencial para poder procesar grandes volúmenes de datos con rapidez a través de distintas máquinas clusters. ‘ML’: Desarrollo de sistemas que permitan automatizar la toma de decisiones basadas directamente en los datos. Veracidad y Variedad: Desarrollo de métodos estadísticos más robustos. Técnicas más tolerantes al estado y ‘confiabilidad’ de los datos y también los ‘outliers’. De esta manera: Análisis de las diversas fuentes de datos: la mayoría de las Bases de Datos de acceso público más interesantes (internas, externas, estructuradas o no), se encuentran mal organizadas, ‘cargadas de ruido’ y son normalmente de difícil acceso a través de los estándares actuales de programación. La importancia de los ’outliers’: en marketing, por ejemplo, (una de las disciplinas con más necesidad de implantar soluciones para Big Data) por ejemplo, no se deben descartar estos registros, ya que coinciden, a menudo, con las cuentas/clientes de mayor (o menor) valor de toda la población. Análisis de diversos formatos de datos: textos, imágenes, videos, etc. El desarrollo del ‘Natural Language Processing’ (‘NLP’): un objetivo muy importante es transformar los contenidos textuales generados por los usuarios en información valiosa a través de procesos estadísticos computacionalmente sencillos. Valor: Generando Conocimiento. No hay beneficio en la recogida y almacenamiento de toda la información si las herramientas que utilizamos no son capaces de encontrar patrones y conocimiento útil en los datos . Desarrollo de técnicas analíticas que transformen directamente los datos brutos en información útil. Utilizando desarrollos que posibiliten predecir comportamientos y tomar decisiones sobre los datos (obtención de conocimiento). Mejora en las técnicas de visualización: La representación gráfica facilita la comunicación y el entendimiento de los datos, transformándolos directamente en información.
  9. Clasificando las técnicas multivariantes clásicas en Big Data En relación a las necesidades planteadas por los analistas de Big Data podemos realizar la división de las técnicas multivariantes clásicas en dos grandes grupos: Técnicas de Reducción de la Dimensión: cuyo objetivo es simplificar los datos resumiendo la información de los mismos a través de un número pequeño de componentes que presenten la información más relevante. El más relevante el ‘Análisis de Componentes Principales ‘ seguido del ‘Multidimensional Scaling’. Técnicas de Clasificación: cuya finalidad es agrupar y clasificar los datos mediante la división adecuada de éstos y la aplicación de estas normas a nuevos conjuntos de registros. El más relevante el ‘Análisis de Cluster‘ seguido del ‘Análisis Discriminante’.
  10. Las sucesivas búsquedas bibliográficas realizadas con el objetivo de conocer qué técnicas estadísticas se utilizan en Big Data nos han permitido concluir los siguientes dos aspectos: ADAPTACION DE LAS TÉCNICAS CLASICAS A LOS NUEVOS REQUERIMIENTOS: Son muchas las aportaciones científicas que implantan soluciones multivariantes en Big Data (y que parecen las más lógicas para su análisis), pero para casi todas ellas parten de la premisa de la necesidad de adaptarlas a la nueva realidad y las necesidades que impone este fenómeno. Por lo general, aplicamos estadística ‘one-shot’ cuando vamos a tener que combinar muchas herramientas estadísticas para un mismo problema. Se requieren modelos complejos y heterogéneos (dinámicos, multivariantes, no paramétricos). Cómo reducir la dimensión eficazmente (disminuir el volumen). Cómo encontrar relaciones y patrones, clasificar (es clave hacer grupos de observaciones). ‘Statistical Learning’ clave para el futuro. Elementos: Data Mining, Inferencia y Predicción. Conocer y trabajar en ‘Cloud Computing’ (aspectos tecnológicos): Y es que las características propias del fenómeno Big Data necesitan la adecuada infraestructura tecnológica para la gestión total y efectiva de los datos contenidos. CAMPOS DE APLICACIÓN: Computación. Genómica. Marketing. Y un Big Etcétera.
  11. Cómo se genera espacio y fenómenos espaciales en Internet: La ‘nube’ es un espacio antrópico. Internet of Things (‘IoT’) crea registros espaciales. el mundo físico se está convirtiendo en un verdadero sistema de información gracias a su desarrollo. La ‘Computación Ubicua’ define la integración masiva de la informática (hardware y software), en nuestro entorno desapareciendo de la vista y formando parte integral de nuestra vida diaria. multitud de objetos cotidianos estarán dotados de sensores que harán las veces de nuestros sentidos y les permitirán generar continuamente información tanto del medio que les rodea y supone que el futuro-presente de Internet está definido por su inevitable encuentro con el mundo físico y real. Esta enorme cantidad de nueva información formará una piel digital que cubrirá el mundo físico. La información que se obtenga de manera continua a partir del IoT estará georreferenciada desde su origen (se estima que en más de un 80%) y será necesario desarrollar métodos específicos de análisis estadístico implementados en tecnología propia de la GISciencia para atender a las necesidades propias de este fenómeno y su evolución. Internet of Everything (‘IoE’) genera la necesidad al crear Big Data. Pero como estamos señalando a lo largo de todo el TFM, los datos en bruto no son suficientes para ello, todos esos bits deben ser ‘tamizados’ para encontrar información útil y luego ser transformados en conocimiento, para finalmente traducirlos a sabiduría ¿Cómo? A través de la GISciencia. Comprender el mundo a través de los datos masivos antrópicamente generados: no hay nada más geográfico que esta cuestión.
  12. La GISciencia: Cuando se trabaja con datos espaciales es imprescindible conocer la posición donde se producen los fenómenos: Georreferenciación. Un GIS gestiona cada una de las partes de la realidad georreferenciada a través de capas que contienen los datos de un aspecto de ésta, Esta idea es básica para la solución analítica de Big Data: permite relacionar varias capas entre sí para mostrar aspectos que la complejidad de la realidad impide percibir directamente. La GISciencia constituye un fundamento conceptual y teórico más profundo que los GIS, resultado de su evolución como campo unificado que estudia estos Sistemas de Información y la Estadística Espacial. Y constituye el vehículo curricular adecuado para el tratamiento académico, conceptual y de desarrollo analítico final del Big Data en el ámbito de las Ciencias Sociales.
  13. Del dato al conocimiento en Big Data Observamos un fenómeno del ‘Mundo Real’: ‘3Vs’ del Big Data (‘Volumen’, ‘Velocidad’ y ‘Variedad’). Entramos en el ‘Ámbito Científico’: De la ‘OBSERVACIÓN’ recogemos ‘Datos’, los cuales deben ser validados para generar la ‘4V’: la ‘Veracidad’. Del ‘Dato’ cierto conseguido a través del análisis y la investigación, obtenemos ‘Información’. De la ‘Información’ mediante la interpretación y la comprensión, estamos en disposición de ‘tomar decisiones’. Aparece el ‘Conocimiento’. Ya tenemos las ‘5Vs’ (aparece el ‘Valor’). Volvemos al ‘Mundo Real’: y el ‘Conocimiento’ nos permite ‘ACTUAR’ sobre ese fenómeno con rigor científico.
  14. Para finalizar la exposición paso a describir las conclusiones a las que hemos llegado durante el desarrollo del Trabajo de Fin de Máster: CONCLUSIONES (I) Big Data es un fenómeno que surge en los tres últimos años como producto de la última fase de desarrollo de las ‘TIC’ y del impulso al ‘Open Data’, conformando una realidad y una revolución que en la actualidad afecta a todos los ámbitos de nuestra sociedad. Cinco características lo definen y la ciencia Estadística ha de dar respuesta a cada una estas dimensiones: ‘Veracidad’: implantando soluciones que extraigan del conjunto de datos aquellos registros que verdaderamente aporten valor. Importancia de los ‘outliers’. ‘Velocidad’: desarrollando algoritmos que permitan el procesamiento en ‘streaming’. ‘Volumen’: mediante técnicas que permitan reducir la dimensión original de los datos y conseguir su clasificación. ‘Variedad’: adoptando métodos que sean capaces de tratar con registros de diversa naturaleza. ‘Valor’: utilizando desarrollos que posibiliten predecir comportamientos y tomar decisiones sobre los datos (conocimiento).
  15. CONCLUSIONES (II) Es evidente que la Estadística Univariante no puede hacer frente a las necesidades del Big Data y que además, tal y como hemos comprobado en la bibliografía consultada, las técnicas multivariantes clásicas son utilizadas pero con importantes limitaciones. Confusión en la bibliografía científica entre Big Data y grandes matrices de datos (los denominados ‘Large Data Sheet’). Las soluciones se están aportando mayormente desde el ámbito empresarial donde ya existen desarrollos que se encargan de gestionar, almacenar y procesar los registros de Big Data. La clave es ‘cómo analizamos la misma’ (aquí aparece la interesante dicotomía correlación-causalidad que exponemos en el TFM) y para ello la necesidad de una profunda alianza entre el ámbito académico y el empresarial (que va a generar un incremento exponencial en I+D+i Investigación + desarrollo`+ innovación).
  16. Conclusiones (III) Big Data está provocando una revolución en el ámbito científico (la denominada ‘Big Ciencia’ empieza a trascender a muchos ámbitos científicos). La explosión de datos que manejan es una realidad y para dar respuesta a los fenómenos que analizan, están adoptando como suyas herramientas antes auxiliares (Informática y Estadística), que comienzan a integrarse como parte fundamental de su núcleo teorético (estudio del conocimiento, que se dirige al conocimiento, no a la acción ni a la práctica), postulándose como su principal factor de evolución a disciplinas científicas ‘más maduras’. Un ejemplo claro es la Geografía. La localización como atributo para los registros en Big Data (‘IoT’), provoca la aparición de nuevas oportunidades y la necesidad de determinar nuevos objetivos para esta ciencia que requieren el desarrollo de un cuerpo disciplinar capaz de amoldarse al Big Data: la GISciencia.
  17. Conclusiones (y IV) Resulta necesario crear un cuerpo académico que dé respuesta a esta realidad. La dispersión al acometer el estudio de Big Data desde cada de las disciplinas científicas supone un gran error (y es lo que se está haciendo). Es necesario avanzar en el estudio de las interrelaciones resultantes de la investigación estadística dentro del ámbito científico general con el objeto de crear teorías, herramientas y métodos que sean útiles en múltiples dominios de la investigación. Big Data requiere desarrollar herramientas y habilidades analíticas para convertir sus datos en conocimiento. Las organizaciones (independientemente de su naturaleza) y los individuos (independientemente de su formación) están obligados a desarrollar este conocimiento.
  18. Si yo fuera estadístico, estaría dando saltos de alegría: Big Data cambiará la concepción perceptual del propio mundo. Pero cuidado! (chiste): La necesaria adopción y adecuación de una realidad denominada Big Data dentro del estudio geográfico y del análisis científico en general, presupone cambiar radicalmente la manera de hacer ciencia, asumiendo su desarrollo dentro de un proceso abductivo donde la correlación entre los datos señala la causa y el efecto. Así, manejando de manera correcta esta gran cantidad de datos, con un objetivo concreto, permitirá concluir a los analistas y científicos que cuando un fenómeno se produce se da otro hecho o conjunto de hechos, pero el riesgo aparece porque podemos comenzar a ignorar la causa (cómo se produce). Saber tanto, por lo tanto, puede cobrarse su precio: ignorar cómo lo sabemos o cómo se produce exactamente el fenómeno descubierto, sencillamente lo sabemos, y se diluye el vínculo causal en pro del correlacional (pautas y correlaciones por encima de causalidades). Y es que hasta ahora, las investigaciones científicas que perseguían la causalidad eran complejas y costosas, por lo tanto la gran alternativa a esta metodología son los datos masivos pero sin olvidar el análisis del porqué y su modelización: de ahí lo necesario de la GISciencia.
  19. MUCHAS GRACIAS A TODOS POR VUESTRA ATENCIÓN