Este documento resume los principales puntos de una presentación sobre datos abiertos en ciencias. Explora las definiciones de datos, datos abiertos y datos científicos. También discute los desafíos de gestionar y jerarquizar la gran cantidad de datos disponibles, así como la necesidad de cambiar las mentalidades sobre la propiedad y el secreto de los datos. Finalmente, propone algunas soluciones como mejorar las interfaces de visualización y enlazar los datos para proveer contexto.
cortes de luz abril 2024 en la provincia de tungurahua
Open Data in the world of Science” by Dr. Claudio Gutiérrez
1. Datos abiertos en ciencias
(4to. Taller LEARN, CEPAL, Santiago, 27 octubre 2016)
Claudio Guti´errez • DCC, Universidad de Chile / CIWS •
cgutierr@dcc.uchile.cl
2. . ”[...] la Compa˜n´ıa de Jes´us que no permite al profano el
acceso a sus colecciones, por lo que tantos problemas de la
historia quedar´an siempre desesperadamente oscuros, o el
Banco de Francia que no permite a los especialistas del primer
Imperio consultar sus registros [...] as´ı seguiremos, hasta que
las sociedades consientan organizar racionalmente, con su
memoria, el conocimiento de s´ı mismas. No lo lograr´an sino
luchando cuerpo a cuerpo con los dos principales
responsables del olvido y la ignorancia: la negligencia que
extrav´ıa documentos, y, m´as peligroso a´un, la pasi´on por
el secreto [...] Nuestra civilizaci´on habr´a hecho un inmenso
progreso el d´ıa en que el disimulo, erigido en m´etodo de
acci´on y casi en virtud burguesa, deje el lugar al gusto por
la informaci´on.
(MARC BLOCH, APOLOG´IA PARA LA HISTORIA, 1943)
3. M´as informaci´on, m´as comunicaci´on no elimina la fundamental
imprecisi´on del todo, mas bien la agrava. [...] La masa de
informaci´on no engendra ninguna verdad. Cuanta m´as
informaci´on se pone en marcha, tanto m´as intrincado se
hace el mundo. La hiperinformaci´on y la hipercomunicaci´on
no inyecta ninguna luz en la oscuridad. (BYUNG-CHUL HAN, LA
SOCIEDAD DE LA TRANSPARENCIA, 2012)
5. En esta charla: el desaf´ıo t´ecnico
I. Datos abiertos hoy
II. Entender los datos
A- Datos
B- Datos abiertos
C- Datos abiertos cient´ıficos
III. Desaf´ıos
23. • Portales de datos cient´ıficos
• APIs para datos cient´ıficos online
• Datasets y journals
• Visualizaciones y herramientas
• Marcos legales y regulaciones
• Iniciativas pro datos abiertos
• ... ¿qu´e m´as?... ¿c´omo jerarquizar?
26. ACLARACI ´ON NECESARIA
Datos = informaci´on; Datos = conocimiento
conocimiento = informaci´on + metainformaci´on
informaci´on = datos + metadatos
datos = ?
27. DATOS (DEFINICI ´ON DE BUR ´OCRATA)
hechos y estad´ısticas reunidas para referencia o an´alisis
COMPUTACI ´ON. cantidades, caracteres o s´ımbolos sobre
las que opera un computador, almacenadas y transmitidas
en forma de se˜nales el´ectricas y almacenadas en medios
magn´eticos, ´opticos o mec´anicos.
FILOSOF´IA. cosas conocidas o asumidas como hechos,
que forman la base de un razonamiento o c´alculo
28. DATOS (DEFINICI ´ON ENTRE NOS)
Datos
Mundo virtual
=
Atomos
Mundo material
O sin matem´aticas:
Ciencia de los datos = qu´ımica del mundo virtual
29. ¿QU ´E ES UN DATO? UN DATASET?
1. Definici´on extensional:
• Un archivo de datos
• Un conjunto (red) de archivos de datos
2. Definici´on intensional:
• Una URI (o una direcci´on o una API)
• La salida (el output) de un sensor
• Un concepto: “los jugadores de la Premier League”
30. GESTIONAR DATOS VERSI ´ON 1.0
(el enfoque tradicional)
1. Limpiar, organizar, clasificar
2. Sistema de curator´ıa y almacenamiento
3. Sistema de recuperaci´on (cat´alogos, lenguajes consulta,
etc.)
31. Ejemplo de enfoque tradicional: NATURE
SCIENTIFIC DATA JOURNAL:
“Scientific Data is a peer-reviewed, open-access journal for
descriptions of scientifically valuable datasets, and research
that advances the sharing and reuse of scientific data.”
32. GESTIONAR DATOS VERSI ´ON 2.0
JIM GRAY: No mover los datos...
La Web como unificador, como infraestrutura de datos
1. Repositorios locales de los propios productores y
organizaciones que los producen
2. Infraestructura para integrarlos (virtualmente) y enlazarlos
3. Sistema de archivo para efectos de seguridad
¿Y los bibliotecarios d´onde quedan?: dise˜no integraci´on,
est´andares de metadatos, sistemas de archivo.
33. ¿POR QU ´E HABLAMOS DE ESTO hoy?
1. Nuevas tecnolog´ıas de captura, transformaci´on y
almacenamiento de datos. Diluvio datos
2. Alcanzamos las fronteras de nuestro “hogar com´un”.
Empezamos a “toparnos” (Brundtland Report).
Interconectiviidad
3. Nueva forma de crear conocimiento. Otra “ciencia”.
35. PREGUNTA (NADA) INGENUA:
¿Qu´e son “datos cient´ıficos” (de “investigaci´on”)?
Los datos cient´ıficos se definen como informaci´on recolectada
usando m´etodos espec´ıficos para un prop´osito espec´ıfico de
estudio o an´alisis. Datos recolectados en un experimento de
laboratorio hecho bajo condiciones controladas es un ejemplo
de datos cient´ıficos.
“Datos generados en el ciclo de vida de una investigaci´on
como de sus resultados.” (Biblioteca CEPAL).
36. PREGUNTA (NADA) INGENUA:
¿Qu´e son “datos cient´ıficos”?
(OECD) “Research data” are defined as factual records
(numerical scores, textual records, images and sounds) used
as primary sources for scientific research, and that are
commonly accepted in the scientific community as necessary to
validate research findings. A research data set constitutes a
systematic, partial representation of the subject being
investigated.
37. PREGUNTA (NADA) INGENUA:
¿Qu´e son “datos cient´ıficos”?
1. Diferencia importante: datos “usados” versus datos
“recolectados” o “generados”
2. M´as amplio que datos que generan (o que dejan) los
proyectos cient´ıficos (e.g. para efectos de replicaci´on)
3. Verdadero desaf´ıo que viene: datos de sensores
4. Otros no menores: privacidad, seguridad (datos m´edicos)
42. Un dato es abierto si cualquiera es libre para
acceder a ´el, usarlo, modificarlo y compartirlo
bajo condiciones que, como mucho, preserven
su autor´ıa y su apertura.
(Handbook of Open Data)
45. OKF Principles
Access (whole, cost, form)
Redistribution & Reuse
Atribution & Integrity
No discrimination against persons or groups
No discrimination gaints fields of endeavor
Distribution of License
License must not be specific to package
License must not restrict distribution of other works
46. Cinco enfoques y argumentos para “open”:
1. Democracia: acceso est´a hoy desigualmente
distribu´ıdo
2. Econom´ıa: baja los costos y promueve la innovaci´on
3. T´ecnico: ventajas t´ecnicas de arquitecturas abiertas
4. Transparencia: datos deben ser accesibles a todo
p´ublico
5. Accountability: mejora la replicabilidad y la auditor´ıa
(tomado y modificado de Fecher & Friesike, 2014)
47. Open realmente open
At the end of the day, information outlives software and
transcends software and is more valuable than software. I
think any online service can call itself “Open” if it makes,
and lives up to, this commitment: Any data that you give
us, we’ll let you take away again, without withholding
anything, or encoding it in a proprietary format, or
claiming any intellectual-property rights whatsoever.
(Set My Data Free, Tim Bray, 2006)
49. ALGUNOS DESAF´IOS:
1. “Negligencia que extrav´ıa.” Hacer conciencia sobre el valor
de los datos.
2. “Pasi´on por el secreto” (y crisis del concepto de
propiedad para datos, informaci´on, conocimiento).
Cambiar mentalidad.
3. Modelos de incentivos y negocios adecuados. Entender
los commons del mundo virtual.
4. M´as desafiante que los anteriores: lidiar con la avalancha
de datos.
50.
51. “Some of the design flaws of current open data sites are pretty
obvious. The datasets that are more important, or could
potentially be more useful, are not brought into the surface of
these sites” (C´esar Hidalgo)
DESAF´IO 1: ¿C´omo calcular el valor de los datos? Ante
la avalancha de datos, ¿c´omo jerarquizar los datos?
52.
53. Cantidad de datos excede por mucho las capacidades
humanas de “I/O”.
DESAF´IO 2: Visualizaci´on, interfaces para m´aquinas,
recuperaci´on automatizada de datos
54. Mentalidad cl´asica: bases de datos, repositorios “finitos”,
accesos locales, enfoque centralizado.
DESAF´IO 3: Datos globales como extensi´on de los
locales o cualitativamente diferentes? (infinitos, globales,
decentralizados)
55. Los datos (´atomos) est´an naturalmente enlazados
DESAF´IO 4: La estructura de enlazamiento (de red) de
los datos Cu´anto replicar, c´omo (e.g. portales de datos
abiertos). El tema de las dificultades t´ecnicas.
56. Test de las cinco estrellas:
1. disponga sus datos en la Web (en cualquier formato) bajo
licencias abiertas
2. disp´ongalos como datos estructurados (e.g. use Excel en
vez de la imagen escaneadas de una tabla)
3. h´agalos disponibles en formatos abiertos no propietarios
(e.g. CSV en vez de Excel)
4. use URIs para denotar cosas, de forma que las personas
puedan apuntar a, o referenciar vuestros datos
5. enlace sus datos a otros datos para proveer contexto