Datos abiertos en ciencias
(4to. Taller LEARN, CEPAL, Santiago, 27 octubre 2016)
Claudio Guti´errez • DCC, Universidad de Chile / CIWS •
cgutierr@dcc.uchile.cl
. ”[...] la Compa˜n´ıa de Jes´us que no permite al profano el
acceso a sus colecciones, por lo que tantos problemas de la
historia quedar´an siempre desesperadamente oscuros, o el
Banco de Francia que no permite a los especialistas del primer
Imperio consultar sus registros [...] as´ı seguiremos, hasta que
las sociedades consientan organizar racionalmente, con su
memoria, el conocimiento de s´ı mismas. No lo lograr´an sino
luchando cuerpo a cuerpo con los dos principales
responsables del olvido y la ignorancia: la negligencia que
extrav´ıa documentos, y, m´as peligroso a´un, la pasi´on por
el secreto [...] Nuestra civilizaci´on habr´a hecho un inmenso
progreso el d´ıa en que el disimulo, erigido en m´etodo de
acci´on y casi en virtud burguesa, deje el lugar al gusto por
la informaci´on.
(MARC BLOCH, APOLOG´IA PARA LA HISTORIA, 1943)
M´as informaci´on, m´as comunicaci´on no elimina la fundamental
imprecisi´on del todo, mas bien la agrava. [...] La masa de
informaci´on no engendra ninguna verdad. Cuanta m´as
informaci´on se pone en marcha, tanto m´as intrincado se
hace el mundo. La hiperinformaci´on y la hipercomunicaci´on
no inyecta ninguna luz en la oscuridad. (BYUNG-CHUL HAN, LA
SOCIEDAD DE LA TRANSPARENCIA, 2012)
ASUNTO POL´ITICO Y T ´ECNICO
En esta charla: el desaf´ıo t´ecnico
I. Datos abiertos hoy
II. Entender los datos
A- Datos
B- Datos abiertos
C- Datos abiertos cient´ıficos
III. Desaf´ıos
I. DATOS ABIERTOS HOY
Resumen:
• Portales de datos cient´ıficos
• APIs para datos cient´ıficos online
• Datasets y journals
• Visualizaciones y herramientas
• Marcos legales y regulaciones
• Iniciativas pro datos abiertos
• ... ¿qu´e m´as?... ¿c´omo jerarquizar?
II. ENTENDER LOS DATOS
II.A. DATOS
ACLARACI ´ON NECESARIA
Datos = informaci´on; Datos = conocimiento
conocimiento = informaci´on + metainformaci´on
informaci´on = datos + metadatos
datos = ?
DATOS (DEFINICI ´ON DE BUR ´OCRATA)
hechos y estad´ısticas reunidas para referencia o an´alisis
COMPUTACI ´ON. cantidades, caracteres o s´ımbolos sobre
las que opera un computador, almacenadas y transmitidas
en forma de se˜nales el´ectricas y almacenadas en medios
magn´eticos, ´opticos o mec´anicos.
FILOSOF´IA. cosas conocidas o asumidas como hechos,
que forman la base de un razonamiento o c´alculo
DATOS (DEFINICI ´ON ENTRE NOS)
Datos
Mundo virtual
=
Atomos
Mundo material
O sin matem´aticas:
Ciencia de los datos = qu´ımica del mundo virtual
¿QU ´E ES UN DATO? UN DATASET?
1. Definici´on extensional:
• Un archivo de datos
• Un conjunto (red) de archivos de datos
2. Definici´on intensional:
• Una URI (o una direcci´on o una API)
• La salida (el output) de un sensor
• Un concepto: “los jugadores de la Premier League”
GESTIONAR DATOS VERSI ´ON 1.0
(el enfoque tradicional)
1. Limpiar, organizar, clasificar
2. Sistema de curator´ıa y almacenamiento
3. Sistema de recuperaci´on (cat´alogos, lenguajes consulta,
etc.)
Ejemplo de enfoque tradicional: NATURE
SCIENTIFIC DATA JOURNAL:
“Scientific Data is a peer-reviewed, open-access journal for
descriptions of scientifically valuable datasets, and research
that advances the sharing and reuse of scientific data.”
GESTIONAR DATOS VERSI ´ON 2.0
JIM GRAY: No mover los datos...
La Web como unificador, como infraestrutura de datos
1. Repositorios locales de los propios productores y
organizaciones que los producen
2. Infraestructura para integrarlos (virtualmente) y enlazarlos
3. Sistema de archivo para efectos de seguridad
¿Y los bibliotecarios d´onde quedan?: dise˜no integraci´on,
est´andares de metadatos, sistemas de archivo.
¿POR QU ´E HABLAMOS DE ESTO hoy?
1. Nuevas tecnolog´ıas de captura, transformaci´on y
almacenamiento de datos. Diluvio datos
2. Alcanzamos las fronteras de nuestro “hogar com´un”.
Empezamos a “toparnos” (Brundtland Report).
Interconectiviidad
3. Nueva forma de crear conocimiento. Otra “ciencia”.
I.B. DATOS CIENT´IFICOS
PREGUNTA (NADA) INGENUA:
¿Qu´e son “datos cient´ıficos” (de “investigaci´on”)?
Los datos cient´ıficos se definen como informaci´on recolectada
usando m´etodos espec´ıficos para un prop´osito espec´ıfico de
estudio o an´alisis. Datos recolectados en un experimento de
laboratorio hecho bajo condiciones controladas es un ejemplo
de datos cient´ıficos.
“Datos generados en el ciclo de vida de una investigaci´on
como de sus resultados.” (Biblioteca CEPAL).
PREGUNTA (NADA) INGENUA:
¿Qu´e son “datos cient´ıficos”?
(OECD) “Research data” are defined as factual records
(numerical scores, textual records, images and sounds) used
as primary sources for scientific research, and that are
commonly accepted in the scientific community as necessary to
validate research findings. A research data set constitutes a
systematic, partial representation of the subject being
investigated.
PREGUNTA (NADA) INGENUA:
¿Qu´e son “datos cient´ıficos”?
1. Diferencia importante: datos “usados” versus datos
“recolectados” o “generados”
2. M´as amplio que datos que generan (o que dejan) los
proyectos cient´ıficos (e.g. para efectos de replicaci´on)
3. Verdadero desaf´ıo que viene: datos de sensores
4. Otros no menores: privacidad, seguridad (datos m´edicos)
II.C. DATOS ABIERTOS
Un dato es abierto si cualquiera es libre para
acceder a ´el, usarlo, modificarlo y compartirlo
bajo condiciones que, como mucho, preserven
su autor´ıa y su apertura.
(Handbook of Open Data)
NSF Principles:
Public
Accesible
Described
Reusable
Complete
Timely
Managed Post Release
OECD Principles
Openness Flexibility
Transparency Legal conformity
Professionalism Interoperability
Quality Security
Efficiency Accountability
Sustainability Formal responsability
Protection of
intellectual property
OKF Principles
Access (whole, cost, form)
Redistribution & Reuse
Atribution & Integrity
No discrimination against persons or groups
No discrimination gaints fields of endeavor
Distribution of License
License must not be specific to package
License must not restrict distribution of other works
Cinco enfoques y argumentos para “open”:
1. Democracia: acceso est´a hoy desigualmente
distribu´ıdo
2. Econom´ıa: baja los costos y promueve la innovaci´on
3. T´ecnico: ventajas t´ecnicas de arquitecturas abiertas
4. Transparencia: datos deben ser accesibles a todo
p´ublico
5. Accountability: mejora la replicabilidad y la auditor´ıa
(tomado y modificado de Fecher & Friesike, 2014)
Open realmente open
At the end of the day, information outlives software and
transcends software and is more valuable than software. I
think any online service can call itself “Open” if it makes,
and lives up to, this commitment: Any data that you give
us, we’ll let you take away again, without withholding
anything, or encoding it in a proprietary format, or
claiming any intellectual-property rights whatsoever.
(Set My Data Free, Tim Bray, 2006)
III. DESAF´IOS
ALGUNOS DESAF´IOS:
1. “Negligencia que extrav´ıa.” Hacer conciencia sobre el valor
de los datos.
2. “Pasi´on por el secreto” (y crisis del concepto de
propiedad para datos, informaci´on, conocimiento).
Cambiar mentalidad.
3. Modelos de incentivos y negocios adecuados. Entender
los commons del mundo virtual.
4. M´as desafiante que los anteriores: lidiar con la avalancha
de datos.
“Some of the design flaws of current open data sites are pretty
obvious. The datasets that are more important, or could
potentially be more useful, are not brought into the surface of
these sites” (C´esar Hidalgo)
DESAF´IO 1: ¿C´omo calcular el valor de los datos? Ante
la avalancha de datos, ¿c´omo jerarquizar los datos?
Cantidad de datos excede por mucho las capacidades
humanas de “I/O”.
DESAF´IO 2: Visualizaci´on, interfaces para m´aquinas,
recuperaci´on automatizada de datos
Mentalidad cl´asica: bases de datos, repositorios “finitos”,
accesos locales, enfoque centralizado.
DESAF´IO 3: Datos globales como extensi´on de los
locales o cualitativamente diferentes? (infinitos, globales,
decentralizados)
Los datos (´atomos) est´an naturalmente enlazados
DESAF´IO 4: La estructura de enlazamiento (de red) de
los datos Cu´anto replicar, c´omo (e.g. portales de datos
abiertos). El tema de las dificultades t´ecnicas.
Test de las cinco estrellas:
1. disponga sus datos en la Web (en cualquier formato) bajo
licencias abiertas
2. disp´ongalos como datos estructurados (e.g. use Excel en
vez de la imagen escaneadas de una tabla)
3. h´agalos disponibles en formatos abiertos no propietarios
(e.g. CSV en vez de Excel)
4. use URIs para denotar cosas, de forma que las personas
puedan apuntar a, o referenciar vuestros datos
5. enlace sus datos a otros datos para proveer contexto
GRACIAS POR LA ATENCI ´ON
cgutierr@dcc.uchile.cl

Open Data in the world of Science” by Dr. Claudio Gutiérrez

  • 1.
    Datos abiertos enciencias (4to. Taller LEARN, CEPAL, Santiago, 27 octubre 2016) Claudio Guti´errez • DCC, Universidad de Chile / CIWS • cgutierr@dcc.uchile.cl
  • 2.
    . ”[...] laCompa˜n´ıa de Jes´us que no permite al profano el acceso a sus colecciones, por lo que tantos problemas de la historia quedar´an siempre desesperadamente oscuros, o el Banco de Francia que no permite a los especialistas del primer Imperio consultar sus registros [...] as´ı seguiremos, hasta que las sociedades consientan organizar racionalmente, con su memoria, el conocimiento de s´ı mismas. No lo lograr´an sino luchando cuerpo a cuerpo con los dos principales responsables del olvido y la ignorancia: la negligencia que extrav´ıa documentos, y, m´as peligroso a´un, la pasi´on por el secreto [...] Nuestra civilizaci´on habr´a hecho un inmenso progreso el d´ıa en que el disimulo, erigido en m´etodo de acci´on y casi en virtud burguesa, deje el lugar al gusto por la informaci´on. (MARC BLOCH, APOLOG´IA PARA LA HISTORIA, 1943)
  • 3.
    M´as informaci´on, m´ascomunicaci´on no elimina la fundamental imprecisi´on del todo, mas bien la agrava. [...] La masa de informaci´on no engendra ninguna verdad. Cuanta m´as informaci´on se pone en marcha, tanto m´as intrincado se hace el mundo. La hiperinformaci´on y la hipercomunicaci´on no inyecta ninguna luz en la oscuridad. (BYUNG-CHUL HAN, LA SOCIEDAD DE LA TRANSPARENCIA, 2012)
  • 4.
  • 5.
    En esta charla:el desaf´ıo t´ecnico I. Datos abiertos hoy II. Entender los datos A- Datos B- Datos abiertos C- Datos abiertos cient´ıficos III. Desaf´ıos
  • 6.
  • 22.
  • 23.
    • Portales dedatos cient´ıficos • APIs para datos cient´ıficos online • Datasets y journals • Visualizaciones y herramientas • Marcos legales y regulaciones • Iniciativas pro datos abiertos • ... ¿qu´e m´as?... ¿c´omo jerarquizar?
  • 24.
  • 25.
  • 26.
    ACLARACI ´ON NECESARIA Datos= informaci´on; Datos = conocimiento conocimiento = informaci´on + metainformaci´on informaci´on = datos + metadatos datos = ?
  • 27.
    DATOS (DEFINICI ´ONDE BUR ´OCRATA) hechos y estad´ısticas reunidas para referencia o an´alisis COMPUTACI ´ON. cantidades, caracteres o s´ımbolos sobre las que opera un computador, almacenadas y transmitidas en forma de se˜nales el´ectricas y almacenadas en medios magn´eticos, ´opticos o mec´anicos. FILOSOF´IA. cosas conocidas o asumidas como hechos, que forman la base de un razonamiento o c´alculo
  • 28.
    DATOS (DEFINICI ´ONENTRE NOS) Datos Mundo virtual = Atomos Mundo material O sin matem´aticas: Ciencia de los datos = qu´ımica del mundo virtual
  • 29.
    ¿QU ´E ESUN DATO? UN DATASET? 1. Definici´on extensional: • Un archivo de datos • Un conjunto (red) de archivos de datos 2. Definici´on intensional: • Una URI (o una direcci´on o una API) • La salida (el output) de un sensor • Un concepto: “los jugadores de la Premier League”
  • 30.
    GESTIONAR DATOS VERSI´ON 1.0 (el enfoque tradicional) 1. Limpiar, organizar, clasificar 2. Sistema de curator´ıa y almacenamiento 3. Sistema de recuperaci´on (cat´alogos, lenguajes consulta, etc.)
  • 31.
    Ejemplo de enfoquetradicional: NATURE SCIENTIFIC DATA JOURNAL: “Scientific Data is a peer-reviewed, open-access journal for descriptions of scientifically valuable datasets, and research that advances the sharing and reuse of scientific data.”
  • 32.
    GESTIONAR DATOS VERSI´ON 2.0 JIM GRAY: No mover los datos... La Web como unificador, como infraestrutura de datos 1. Repositorios locales de los propios productores y organizaciones que los producen 2. Infraestructura para integrarlos (virtualmente) y enlazarlos 3. Sistema de archivo para efectos de seguridad ¿Y los bibliotecarios d´onde quedan?: dise˜no integraci´on, est´andares de metadatos, sistemas de archivo.
  • 33.
    ¿POR QU ´EHABLAMOS DE ESTO hoy? 1. Nuevas tecnolog´ıas de captura, transformaci´on y almacenamiento de datos. Diluvio datos 2. Alcanzamos las fronteras de nuestro “hogar com´un”. Empezamos a “toparnos” (Brundtland Report). Interconectiviidad 3. Nueva forma de crear conocimiento. Otra “ciencia”.
  • 34.
  • 35.
    PREGUNTA (NADA) INGENUA: ¿Qu´eson “datos cient´ıficos” (de “investigaci´on”)? Los datos cient´ıficos se definen como informaci´on recolectada usando m´etodos espec´ıficos para un prop´osito espec´ıfico de estudio o an´alisis. Datos recolectados en un experimento de laboratorio hecho bajo condiciones controladas es un ejemplo de datos cient´ıficos. “Datos generados en el ciclo de vida de una investigaci´on como de sus resultados.” (Biblioteca CEPAL).
  • 36.
    PREGUNTA (NADA) INGENUA: ¿Qu´eson “datos cient´ıficos”? (OECD) “Research data” are defined as factual records (numerical scores, textual records, images and sounds) used as primary sources for scientific research, and that are commonly accepted in the scientific community as necessary to validate research findings. A research data set constitutes a systematic, partial representation of the subject being investigated.
  • 37.
    PREGUNTA (NADA) INGENUA: ¿Qu´eson “datos cient´ıficos”? 1. Diferencia importante: datos “usados” versus datos “recolectados” o “generados” 2. M´as amplio que datos que generan (o que dejan) los proyectos cient´ıficos (e.g. para efectos de replicaci´on) 3. Verdadero desaf´ıo que viene: datos de sensores 4. Otros no menores: privacidad, seguridad (datos m´edicos)
  • 41.
  • 42.
    Un dato esabierto si cualquiera es libre para acceder a ´el, usarlo, modificarlo y compartirlo bajo condiciones que, como mucho, preserven su autor´ıa y su apertura. (Handbook of Open Data)
  • 43.
  • 44.
    OECD Principles Openness Flexibility TransparencyLegal conformity Professionalism Interoperability Quality Security Efficiency Accountability Sustainability Formal responsability Protection of intellectual property
  • 45.
    OKF Principles Access (whole,cost, form) Redistribution & Reuse Atribution & Integrity No discrimination against persons or groups No discrimination gaints fields of endeavor Distribution of License License must not be specific to package License must not restrict distribution of other works
  • 46.
    Cinco enfoques yargumentos para “open”: 1. Democracia: acceso est´a hoy desigualmente distribu´ıdo 2. Econom´ıa: baja los costos y promueve la innovaci´on 3. T´ecnico: ventajas t´ecnicas de arquitecturas abiertas 4. Transparencia: datos deben ser accesibles a todo p´ublico 5. Accountability: mejora la replicabilidad y la auditor´ıa (tomado y modificado de Fecher & Friesike, 2014)
  • 47.
    Open realmente open Atthe end of the day, information outlives software and transcends software and is more valuable than software. I think any online service can call itself “Open” if it makes, and lives up to, this commitment: Any data that you give us, we’ll let you take away again, without withholding anything, or encoding it in a proprietary format, or claiming any intellectual-property rights whatsoever. (Set My Data Free, Tim Bray, 2006)
  • 48.
  • 49.
    ALGUNOS DESAF´IOS: 1. “Negligenciaque extrav´ıa.” Hacer conciencia sobre el valor de los datos. 2. “Pasi´on por el secreto” (y crisis del concepto de propiedad para datos, informaci´on, conocimiento). Cambiar mentalidad. 3. Modelos de incentivos y negocios adecuados. Entender los commons del mundo virtual. 4. M´as desafiante que los anteriores: lidiar con la avalancha de datos.
  • 51.
    “Some of thedesign flaws of current open data sites are pretty obvious. The datasets that are more important, or could potentially be more useful, are not brought into the surface of these sites” (C´esar Hidalgo) DESAF´IO 1: ¿C´omo calcular el valor de los datos? Ante la avalancha de datos, ¿c´omo jerarquizar los datos?
  • 53.
    Cantidad de datosexcede por mucho las capacidades humanas de “I/O”. DESAF´IO 2: Visualizaci´on, interfaces para m´aquinas, recuperaci´on automatizada de datos
  • 54.
    Mentalidad cl´asica: basesde datos, repositorios “finitos”, accesos locales, enfoque centralizado. DESAF´IO 3: Datos globales como extensi´on de los locales o cualitativamente diferentes? (infinitos, globales, decentralizados)
  • 55.
    Los datos (´atomos)est´an naturalmente enlazados DESAF´IO 4: La estructura de enlazamiento (de red) de los datos Cu´anto replicar, c´omo (e.g. portales de datos abiertos). El tema de las dificultades t´ecnicas.
  • 56.
    Test de lascinco estrellas: 1. disponga sus datos en la Web (en cualquier formato) bajo licencias abiertas 2. disp´ongalos como datos estructurados (e.g. use Excel en vez de la imagen escaneadas de una tabla) 3. h´agalos disponibles en formatos abiertos no propietarios (e.g. CSV en vez de Excel) 4. use URIs para denotar cosas, de forma que las personas puedan apuntar a, o referenciar vuestros datos 5. enlace sus datos a otros datos para proveer contexto
  • 58.
    GRACIAS POR LAATENCI ´ON cgutierr@dcc.uchile.cl