Diaz, P., (2009). Análisis comparativo de los metadatos distribuidos por la IDEC, en: Treballs del Màster en Teledetecció i Sistemes d’Informació Geogràfica, 10ª edició. Universitat Autònoma de Barcelona y CREAF. Bellaterra, Septiembre 2009.
Análisis crítico de los metadatos distribuidos por la IDEC presentacion
1. Análisis crítico de los metadatos
distribuidos por la IDEC
Motivación: Actualmente existen muchas
voces críticas con la forma de
funcionamiento de los catálogos de
metadatos de las Infraestructuras de
Datos Espaciales.
Alumna: Paula Díaz
Coordinador del proyecto: Joan Masó
Datos Espaciales.
A pesar del esfuerzo de documentar los
metadatos de las capas, tal y como se
realiza actualmente, los resultados de los
buscadores basados en metadatos no
suelen ser muy acertados.
2. Estructura:
1. Introducción
2. Metadatos: generación de la base de datos de
los metadatos de la IDEC
3. Metadatos: Detección de errores en los
metadatos distribuidos por la IDEC
4. Metadatos; orígenes
2
4. Metadatos; orígenes
5. Metadatos: Errores y su origen
6. Datos: Detección de carencias
7. Búsquedas: Metadatos de la IDEC
8. Búsquedas: La web oculta
9. Conclusiones generales.
3. 1. Introducción
• IDEC: Infraestructura de Datos Espaciales de
Cataluña
3
Organismos registrados Documentos totales
Verano 2008 79 4880
Verano 2009 (10/06/2009) 112 27007
Utilizados en el estudio 111 14231
Se descartan los del ICC al ser muy voluminosos, semejantes
entre si y por no poder obtener la lista de sus UUID.
4. 2. Metadatos: Generación de la base de
datos de los metadatos de la IDEC
• El estándar ISO 19115 establece tres
categorías de elementos:• Obligatorios
• Condicionales
• Opcionales
Obtenidos los 14231 UUID, se
4
Obtenidos los 14231 UUID, se
descargan los documentos
XML y se construye una base
de datos:
14231 registros y 32 campos
5. 3. Metadatos: Detección de errores en los
metadatos distribuidos por la IDEC
• Errores referentes a elementos
• obligatorios:
• Títulos de códigos ininteligibles: 27%
• Fecha de creación del dato en blanco: 44%
• Fecha de creación del dato posterior a edición: 10%
• Categorías temáticas en idioma incorrecto: 11%
5
• Categorías temáticas en idioma incorrecto: 11%
• Idiomas de los datos en blanco: 26%
• condicionales y opcionales:
• Coordenadas no en ángulos: 5%
• Coordenada mínima mayor a la máxima: 3%
• Factor de escala incoherente: 3%
• Observaciones:
• Título demasiado largos: 2%
• Resumen que contiene el título: 4%
6. 3. Metadatos: Detección de errores
PRESENCIA DE LAS CATEGORIAS TEMÁTICAS (ISO 19115)
EN LOS DOCUMENTOS DE METADATOS
7476
Ejemplo 1/4CATEGORIAS TEMÁTICAS totales
imageryBaseMapsEarthCover 7073
boundaries 1057
biota 1015
Medi Ambient 792
location 760
structure 732
planningCadastre 537
Bases mapes imatges cobertura terra 403
elevation 343
(en blanco) 323
farming 273
society 182
economy 177
6
1060
1018
963
807
732
540
349
323
225
182
107
83
35
30
20
6
1
274
Basesmapas
Límites
Biologico
Medioambiente
Localización
Estructura
PlanificaciónCadastro
Elevación
(Enblanco)
Agricultura/Ganadería
Economía
Sociedad
Comunicaciónde
Información
Aguasinteriores
Transporte
Climatologia/Meteorol
Salud
Océanos
Inteligenciamilitar
mediana
Categorías temáticas
en lengua no inglesa.
economy 177
environment 171
Comunicació de serveis 99
geoscientificInformation 71
Economia 48
Localització 47
inlandWaters 33
transportation 30
climatologyMeteorologyAtmosphere 20
Informació geocientífica 12
utilitiesCommunication 8
Elevació 6
health 6
Biològic 3
Límits 3
Planejament/Cadastre 3
Aigües interiors 2
Agricultura/Ramaderia 1
oceans 1
Total general 14231 11%
7. 3. Metadatos: Detección de errores
FECHA EDICIÓN total
1988-01-01 15
1994-06-30 15
1996-02-29 30
2003-02-10 10
2006-05-08 128
XMIN>XMAX
• Coordenada mínima
mayor a la máxima.
Ejemplo 2/4
3%
7
2006-05-08 128
2006-05-10 213
2008-02-06 1
1988-01-01 6
1994-06-30 6
1996-02-29 12
2007-05-23 1
2007-09-12 29
2007-11-19 1
2008-02-06 1
Total general 468
YMIN>YMAX
TÍTULOS totales
Caracteres ininteligibles 3869 27%
Mayor a 100 caracteres 252 2%
Total general 4121
• Títulos de códigos
numéricos
ininteligibles.
27%
8. 3. Metadatos: Detección de errores
FACTORES DE ESCALAMÁS REPRESENTADOS
33000
1000 o 1:5000 10000
12
Resto de
escalas
50000
Ejemplo 3/4
FACTOR DE
ESCALA
total
1000 o 1:5000 136
(en blanco) 1183
100000 2966
50000 122
33000 314
25000 709
10000 109
5000 1514
8
100000
5000
(en blanco)
2000
25000
33000
500
1000
• Factores de escala mixtos
o demasiado pequeños
para tratarse de un mapa
5000 1514
2000 1026
1000 2824
500 2800
12 117
RESTO 411
Total general 14231
3%
9. 3. Metadatos: Detección de errores
SISTEMA DE REFERENCIA núm. Archivos
UTM_31N - ED50 (g) 12669
UTM_31N - ED50 (m) 742
UTM_30N - ED50 (m) 23
WGS84_33N (g) 20
WGS84_Mundo (g) 15
WGS84_31N (g) 1
Sin SRH (g) 761
Total general 14231
• Sistemas de referencia
en unidades no en
ángulos
Ejemplo 4/4
5%
9
12669
742
23 20 15 1
761
0
2000
4000
6000
8000
10000
12000
14000
Documentos
UTM_31N - ED50 (g)
UTM_31N - ED50 (m)
UTM_30N - ED50 (m)
WGS84_33N (g)
WGS84_Mundo (g)
WGS84_31N (g)
Sin SR (g)
SISTEMAS DE REFERENCIA
10. 4. Metadatos: Orígenes
• Comparación de los
geoportales de la
IDEC y del GOS:
Geospatial One-Stop.
(M.F.Goodchild,
P.Fu, P.Rich, de
IDEC GOS
Estándar ISO1911 / FGDC FGDC (CSDGM)
Palabra clave de
5 tipos
Palabra clave exacta
o aproximada
Fecha edición
"posterior a"
Fecha por período o
revisión reciente
Búsqueda Escala
Categoría temática
10
P.Fu, P.Rich, de
2007)
• Diferencias
esenciales
• Gazetteer
• 5 variantes de
publicación
Localización
coordenadas
Localización
(gazetteer)
Organismo
Búsqueda rápida
Formulario en línea
Transmisión directa
(XML)
Transmisión desde
un escritorio GIS
Recopilación
automática
Publicación
de
metadatos
MetaD
Correo electrónico
Categoría temática
Formato
11. 4. Metadatos: Orígenes
• ¿Como enviamos metadatos a la IDEC?
• MetaD (2002, versión actual 3.0.5)
• Aplicación de creación, edición y transmisión de
documentos de metadatos.
• Función de validación: “controla la obligatoriedad de
los metadatos”
11
los metadatos”
• Elementos obligatorios no validados: fechas de
creación, publicación y revisión.
• Correo electrónico
• Fuente potencial de publicación de documentos de
metadatos con errores.
12. 5. Metadatos: Errores y su origen
12
ERRORES DE LOS METADATOS Error (%)
¿Los permite el
MetaD?
Títulos de códigos ininteligibles 27% SI
Fecha de edición del metadato en blanco 2% NO
Fecha de creación del dato en blanco 44% SI
Fecha de creación del dato posterior a edición 10% SI
Fecha de creación por defecto: 1900-01-01 9% SI
Categorías temáticas en idioma incorrecto 11% NO
Categorías temáticas en blanco 2% NO
Información de contacto en blanco 0.1% NO
Coordenadas no en ángulos 5% SI
Mínima coordenada mayor a la máxima 3% NO
Idioma de los datos en blanco 26% SI
Idioma del metadato incorrecto 1.5% SI
Factores de escala incoherentes 3% SI
Promedio de error 11% 8/13
ADVERTENCIAS %
¿Los permite
el MetaD?
Título demasiado largo 2% SI
Resumen que contiene el título 4% SI
13. 5. Metadatos: Errores y su origen
• Conclusiones y propuestas de mejora del
MetaD
• Función de validación no evita errores de
comisión.
• Algunos errores no se pueden generar con el
programa MetaD.
• Función de validación a todos los documentos.
13
• Función de validación a todos los documentos.
• Considerar la extracción automática de
metadatos desde los propios datos.
• Recomendaciones:
• Incluir fecha e idioma del dato como elementos
obligatorios
• Revisión de la fecha de creación por defecto:01-01-1900.
• El editor utilice tesauros en la elección de la palabra
clave.
• Test de la descripción geométrica y de topología.
14. 6. Datos: Detección de carencias
• Ráster: Ámbito y densidad de datos.
• Rasterización de los 13747 ámbitos
• Contaje de capas en cada píxel de 0.03º x 0.03º
Leyenda
0: 65.514
13: 260.869
26: 456.225
Registros de metadatos de la IDEC en Julio de 2009
(ámbito de Cataluña)
N
14
26: 456.225
40: 666.607
53: 861.963
67: 1072.346
80: 1267.701
93: 1463.057
107: 1673.439
120: 1868.795
134: 2079.178
147: 2274.533
161: 2484.916
174: 2680.271
187: 2875.627
201: 3086.010
214: 3281.365
228: 3491.748
241: 3687.104
255: 3897.48620000 0 60000 m
15. 6. Datos: Estructura de los datos y
búsquedas
• Análisis visual en la selección de datos
geográficos.
“El análisis visual de los datos usa la visualización como
un canal de comunicación entre el ordenador y el
usuario”, (INVISIP, Albertoni, 2004)
Categorías temáticas y
escalas
Categorías temáticas y
años Medio ambiente
15
escalas
0
100
200
300
400
500
600
Economía
Medio
ambiente
Transporte
1/50000
1/10000
1/15000
1/5000
1/1000
años
0.00
20.00
40.00
60.00
80.00
100.00
120.00
140.00
160.00
Economía
Medio
ambiente
Transporte
2009
2008
2007
2006
2005
2004
consulta por atributos:
Categoría
temática=”Medio
Ambiente” y
Escala=[1,50000] y
Año de creación>=2004
Medio ambiente
0
10
20
30
40
50
60
70
5000 50000
2006
2007
2008
ESCALA (?):
N registres amb dades: 75
Moda: 5000
Mínim: 1000
Màxim: 50000
Rang: 49001
N valors diferents: 3
Llistat de freqüències
1: 1000
67: 5000
7: 50000
16. 7. Búsquedas: Evaluación del Motor de la
IDEC
• Modelo de información IDEC
• Servicio de registro Web (WRS): INdicio (2005).
• Gestión de catálogo de datos mediante
esquemas XML
• Perfil ebRIM de registro de información del
16
• Perfil ebRIM de registro de información del
OGC
• Catalogo de la IDEC oculto a Google pero
• Hemos usado Google Desktop
• Buscador genérico de documentos en local con
algoritmo Google (PageRank)
• Soporte para contenidos XML
17. 7. Búsquedas: Evaluación del Motor de la
IDEC
• Prueba piloto: comparación del buscador del
catálogo de datos de la IDEC y el motor de
búsqueda Google Desktop.
IDEC Google IDEC Google
BD
IDEC -
BD
Ideunivers * 5054 1.3 3898
Resultados Tiempo (seg.)
IDEC:
• Menos resultados.
• Elementos concretos.
17
Ideunivers * 5054 1.3 3898
España * 9361 1.2 1546
2003 1311 14528 29.2 1.6 1254 57
Comercio 26 2666 13.8 0.9 4 22
Biología 1032 1038 12.9 1.5 1015 17
Transporte 410 390 4.7 1.1 30 380
Escala 2000 1027 44 13.2 0.7 1026 1
Fecha edición 31/03/2009 1295 3 8.9 2.6 5 1290
DEPLAN 61 61 8.8 0.8 61 0
Ayuntamiento de
Cardedeu 4 6 9.7 1.5 4 0
Àrea
metropolitana de
Barcelona
2067 2895 9.8 2.2 2065
2
Modelos digitales
del terreno 312 344 6.2 1.1 320** -8
Topográfico 9402 4766 28.8 1.0 3867** 9082
SIG 142 9453 5.3 1.3 120** 22
**términos del título y título de la serie
palabras clave
Categorías
temáticas
* Búsqueda no realizable
Organismo
búsqueda
rápida
• Elementos concretos.
•Mayor precisión.
• Ordenación alfabética
Google Desktop:
• Mas rápidas.
• Busca en todo el
documento.
•Menos concretas.
• Ordenación PageRank.
18. 7. Búsquedas: Evaluación del Motor de la
IDEC
• Propuestas de mejora en las búsquedas
• Búsqueda más de un término (2 categorías
temáticas)
• Búsqueda por aproximación ortográfica y
semántica. Orchestra (Hilbring, 2008)
18
• La inclusión de los formatos o la topología.
• Fechas: anterioridad a una determinada fecha o
en un intervalo.
• Ampliar las opciones de la búsqueda por escala.
• Visualizar los resultados de una búsqueda en
una tabla.
19. 8. Búsquedas: Acceso i enlace a los
documentos de metadatos desde Internet
• La deep Web (Web oculta)
• “Información que, siendo accesible a través de
Internet, no puede encontrarse mediante los
buscadores tradicionales.”
(http://www.idg.es/computerworld/)
• Los metadatos de la IDEC son parte de la Web
19
• Los metadatos de la IDEC son parte de la Web
oculta
• Ejemplo:
• si buscamos en Google el registro:
{58964B84-24B9-44FF-8274-CAD378B657B4}
"Presència d'ambients d'interès per la conservació de
la biodiversitat - Ocells com a bioindicadors "
• No encontramos ningún resultado por tratarse de
información extraída de una consulta a una Base de
Datos.
20. Solución
• Realización de una página HTML de enlace a los XML
descargados e Indexación por Google.
• Realización de la búsqueda en Google:
20
• Realización de la búsqueda en Google:
• {58964B84-24B9-44FF-8274-CAD378B657B4}
"Presència d'ambients d'interès per la conservació de la
biodiversitat - Ocells com a bioindicadors "
• Catalogado desde: http://www.creaf.uab.es/tmp/
22. 9. Conclusiones generales.
• Metadatos: Presentan errores muy variados.
• Fuentes: El MetaD no permite alguno de los errores
detectados. ¿Correo electrónico?.
• Los errores dejan ocultos muchos documentos en las
búsquedas. El éxito de la búsqueda está relacionado
con la calidad del metadato
22
con la calidad del metadato
• Datos: Menor densidad de datos S y NO de
Cataluña.
• Búsquedas:
• La búsqueda mediante el catálogo de la IDEC está
limitada a 7 elementos concretos. Google no permite
filtro por elemento.
• El análisis visual permite analizar gran cantidad de
metadatos de un modo más ágil.
23. FIN
AGRADECIMIENTOS.
23
AGRADECIMIENTOS.
La autora agradece sinceramente a Víctor Pascual Ayats (IDEC) la información
ofrecida a lo largo del desarrollo del estudio; y en general a quienes han
formado parte ofreciendo sus conocimientos y propuestas.