Casos de uso de fuentes big data en las estadísticas económicas de Canarias
1. CASOS DE USO DE FUENTES
BIG DATA EN LAS
ESTADÍSTICAS ECONÓMICAS
DE CANARIAS
XIX JORNADAS ESTADÍSTICAS DE LAS COMUNIDADES AUTONOMAS (JECAS 2016)
2. Alberto González Yanes
Domingo Lorenzo Díaz
Carlos Sierra Fumero
CASOS DE USO DE FUENTES
BIG DATA EN LAS
ESTADÍSTICAS ECONÓMICAS
DE CANARIAS
XIX JORNADAS ESTADÍSTICAS DE LAS COMUNIDADES AUTONOMAS (JECAS 2016)
Madrid, 22 y 23 de septiembre de 2016
4. “Big Data son las fuentes de datos que generalmente
pueden ser descritas como de alto volumen, velocidad y
variedad, que requieren formas rentables e innovadoras
de procesamiento con el fin de mejorar los análisis y de
apoyar las tomas de decisiones”
Conference of European Statisticians. “What Does ‘Big Data’ Mean for Official
Statistics?” UNECE, March 10, 2013.
Fuentes Big Data en la estadística pública
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
5. Fuentes Big Data en la estadística pública
●
La propiedad sobre las fuentes de datos generalmente
no es pública, con los problemas derivados para el
acceso, uso y mantenimiento de las fuentes.
●
La fuentes de datos generalmente son muestras no
probabilísticas que no están pensadas para fines
estadísticos, con los problemas derivados de
conceptualización y sesgos.
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
6. Fuentes Big Data en la estadística pública
Cooperación público-privada
Klein, Thilo, Johannes Jütting, and Nicholas Robin. “Public-Private
Partnerships for Statistics: Lessons Learned, Future Steps.” OECD
Development Co-operation Working Papers, February 29, 2016.
Marco de calidad
UNECE Big Data Quality Task Team. “A Suggested Big Data Quality
Framework.” UNECE, December 2014.
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
8. ●
Sensorización de alojamientos turísticos
●
Datos de centrales de compra de pasajes
●
Datos de unidades económicas en fuente abiertas
●
Datos de precios en supermercados
Casos de uso en estudio dentro del ISTAC
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
12. FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Datos de compra de pasajes
13. FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Estadística de Movilidad Aérea de Canarias. Estudiar la movilidad aérea de los
residentes en Canarias en sus conexiones tanto interinsulares como con el resto
de España; permitiendo estudiar la evolución de los precios de compra de los
viajes según anticipación a la fechas de vuelo y las conectividades realizadas por
los residentes.
Estadística de Movilidad Marítima de Canarias. Estudiar la movilidad marítima
de los residentes en Canarias en sus conexiones interinsulares; permitiendo
estudiar la evolución de los precios de compra de los viajes según anticipación a
la fechas de travesía y las conectividades realizadas por los residentes.
Estadística de Movimientos Turísticos en Fronteras de Canarias (FRONTUR-
Canarias). Fuente auxiliar para la estimación de entra de turistas y para la
proyección a corto plazo de entra de turistas.
Objetivo
14. FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Datos de interés
Ficheros de microdatos basados en los PNR (Passenger Name Record)
que contiene información relevante del transporte de cada viajero
aéreo. El Passenger Name Record (PNR), (español Registro de Nombre
de Pasajero), es el nombre comúnmente utilizado para designar la
información relativo a reservas hechas en sistemas de reservas (CRS).
Clave de viaje - Residente (Sí / No) - Fecha de nacimiento – Sexo - Municipio de compra (con
codificación INE) - Fecha de compra - Código de vuelo - Identificador de aerolínea - Aeropuerto de
origen - Aeropuerto de destino - Fecha del vuelo - Compra ida y vuelta (Sí / No) - Clave de viaje
asociado (si compra ida y vuelta) - Precio de compra - Descuento de residente – Tasas - Código de
vuelo n - Identificador de aerolínea n - Aeropuerto de origen n - Aeropuerto de destino n - Fecha de
vuelo n - Precio de compra n - Descuento de residente n - Tasas n - Clave de viaje en grupo n
45% de PNR de vuelos regulares
15. FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Directorios de establecimientos
19. Ejemplo de proceso de extracción
1) LLamada “Listado”
• aprox 40.000 ficheros
• aprox 400 Mb
• 21 campos
• máximo nº registros devuelve: 60
2) Llamada “Detalle”
• aprox 100.000 ficheros
• aprox 500 Mb
• 51 campos
3) Llamada “Fotos del sitio”
aprox 550.000 referencias
aprox 128 Mb
1 campo
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
20. Reconciliación de fuentes
Nombre
Identificador
Rating
Clasificación
Latitud/Longitud
Región/Área (según fuente)
Localidad
Código postal
Dirección
Imágenes
Comentarios principales
Celda
Publicador
URL del publicador
Nombre
Identificador
Rating
Clasificación
Latitud/Longitud
Región/Área (según fuente)
Localidad
Código postal
Dirección
Imágenes
Comentarios principales
Celda
Publicador
URL del publicador
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
21. Mapeo a tecnología semántica que utiliza vocabularios y clasificaciones
estandares, que además de ofrecer los datos se dan los metadatos de cada
definición bajo unas reglas públicas y publicadas.
En concreto se han utilizado los siguientes vocabularios:
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:geo="http://www.w3.org/2003/01/geo/wgs84_pos#"
xmlns:locn="http://www.w3.org/ns/locn#"
xmlns:schema="http://schema.org/"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:os="http://a9.com/-/spec/opensearch/1.1/"
xmlns:dcterms="http://purl.org/dc/terms/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:owl="http://www.w3.org/2002/07/owl#"
xmlns:locationOnt="http://data.linkedevents.org/def/location#"
xmlns:xhv="http://www.w3.org/1999/xhtml/vocab#"
xmlns:gPlacesKOS="http://data.linkedevents.org/kos/googleplaces/"
xmlns:api="http://purl.org/linked-data/api/vocab#"
xmlns:xsd="http://www.w3.org/2001/XMLSchema#">
Reconciliación de fuentes. Aplicación semántica
FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
23. FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
PVP on-line en supermercados
24. FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Objetivo PPA: Comparar niveles de precios entre territorios
· Canarias vs Resto de España
· Listado de productos utilizado por Eurostat para el cálculo de las PPA.
- Sólo datos de alimentación y bebidas
- Ponderaciones facilitadas por el INE
Metodología Eurostat-OCDE
http://ec.europa.eu/eurostat/web/purchasing-power-parities/methodology
Cálculo PPAij
Objetivo
25. FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Fuente de datos
26. FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
PERIODO
CADENA
SUPERMERCADOS
CODIGO
POSTAL
PRODUCTO PRECIO
Formato resumido: Productos, precios, grupos de códigos postales
PRODUCTOS
PERIODO
ID_PRODUCTO
NOMBRE_PRODUCTO
MARCA
CUANTIFICADOR
UNIDAD_DE_MEDIDA
(Otras variables de
identificación del
producto)
PRECIOS
PERIODO
ID_PRODUCTO
ID_GRUPO_CODIGOS_PO
STALES
PRECIO
(Otras variables)
CODIGOS_POSTALES
PERIODO
ID_GRUPO_CODIGOS_PO
STALES
CODIGO_POSTAL
CADENA_SUPERMERCAD
OS
Formato de los datos
27. FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Dimensión de los ficheros
PRODUCTOS: 123.000 registros, 27,6 Mb CODIGOS POSTALES: 13.500 registros, 530 Kb
PRECIOS
28. FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Calidad de los datos
Comparativas con precios recogidos off-line y análisis de la
variabilidad de precios
Problemas de fuente
●
Selección de artículos Soysuper y relación con el listado de productos PPA: Búsqueda
casi manual entre los literales
●
Problemas iniciales en la exportación de la información
●
Códigos coherentes a lo largo del tiempo
●
Problemas de integridad referencial
●
Errores en tipos de datos: “Pack de 3 latas de 80 gr.” en campo numérico
●
Líneas en blanco. Registros incompletos
●
Existencia de registros con precios iguales a 0
29. FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Calidad de los datos
Dificultad para encontrar productos relacionados con
carne fresca
Influencia muy elevada de un solo artículo en una posición elemental
completa (Posición elemental = Conjunto de productos)
No considerar carne fresca
30. FUENTES BIG DATA EN LAS ESTADÍSTICAS ECONÓMICAS DE CANARIAS
Resultados
PPA Canarias - Resto de España
(resultado provisional 2014)
109,56