Introducción al
Periodismo de Datos


                            Por Sandra Crucianelli
            Knight International Journalism Fellow
                                      www.icfj.org
                                    @spcrucianelli
¿Qué hay de nuevo?
Muckrakers
Jacob Riis: La estadística asociada a
la imagen como elementos de denuncia
¿Cómo vive la otra mitad?
Un libro clave
Philip Meyer
Exploró las causas de los disturbios raciales en la década de 1960
http://www.sampler.isr.umich.edu/2011/featured/revealing-the-
roots-of-a-riot/
Investigación Social aplicada a la
        Investigación Periodística

   Investigación Cualitativa:
I. Estudio de Casos
II. Grupos Focales
III. Análisis del Discurso


  Investigación Cuantitativa
I. Investigación Descriptica (censo)
II. Investigación Inferencial (encuestas)
Encuentre la diferencia
   Periodismo de Investigación: Sobre la base
    de la iniciativa del reportero, se descubre una
    verdad social importante que alguien intenta
    mantener en secreto

   Periodismo de Precisión: Indagar por
    iniciativa propia, un conjunto de datos
    difíciles de obtener y más complejos de
    verificar o interpretar, con los que se pone en
    evidencia una realidad oculta que no se quería
    revelar.
Periodismo Asistido por Computadora

      PAC: introduce el uso de hojas de
       cálculo, como herramienta para procesar
       datos
I.      Clarence Jones (Miami Herald) , 1969, buscó patrones en el
        sistema de justicia penal.
II.     David Burnham (The New York Times), 1972, expuso
        discrepancias en las tasas de delitos denunciados por la policía
III.     Elliot Jaspin (The Providence Journal), 1986, usó bases de
        datos para denunciar malos historiales de conducción y
        antecedentes penales de choferes de transporte escolar
IV.     Bill Dedman (The Atlanta Journal-Constitution), Pulitzer 1988,
        “El color del dinero”: abordó el tema de la discriminación racial
        en la otorgación de préstamos hipotecarios
América Latina
¿Periodismo de Datos?
 Todo el periodismo se hace a partir de datos: Cierto
 Cualquier cosa que se diga del Periodismo de Datos
  hoy, no es definitiva
¿Qué hay de nuevo?
 Casi todo se expresa con números
 En el mundo digital, tenemos capacidad para acceder
  a grandes cantidades de datos
 En el proceso, los datos no se transforman; la única
  transformación que hay es desde lo abstracto hacia lo
  tangible
 Visión Científica: el periodista de datos reporta sus
  métodos, de modo que otros podrían replicar el
  proceso y llegar a la misma conclusión
Del PAC al PAH
     Periodismo asistido por Hackers

Grandes conjuntos de datos: Big Data

   Búsqueda de Datos
   Extracción de Datos
   Procesamiento de Datos
   Visualización de Datos

      El programador se incorpora al equipo
                   periodístico
Periodismo de Datos
Manual Colaborativo
http://datajournalismhandbook.org/
1) Salarios de 667.000 empleados públicos
2) Crearon una aplicación incorporando un buscador de sueldos por
nombre, oficina gubernamental, año, categoría.
3) Socializaron la información

http://www.texastribune.org/library/data/government-employee-salaries/
¿Cómo lo hicieron?
   Para obtener los datos apelaron a FOIA
   No hay ley de acceso a la información pública en Argentina
   Por esta razón Argentina no puede ingresar a la OGP
¿No tenemos ningún dato?


   ¿Realizó el diagnóstico?
   Búsqueda avanzada
   Búsquedas reversas
   Por defecto, restringiendo dominio, formatos
    y/o fechas
   Búsquedas geolocalizadas
   Lectura de URLs y recorte de dominio
   Bases de Datos interactivas
   Monitoreo de redes sociales
http://www.google.com.ar/advanced_search
•Explorar la Web Profunda
•Usar el Académico
•Buscar en Grupos, Libros e Imágenes
http://datos.bancomundial.org/
Herramientas Analíticas (software de descarga gratuita)
1.  Análisis económico
2.  Medidas de Pobreza
3.  Cruce de variables para Pobreza
4.  Mapeo de pobreza
Monitoreo en redes sociales: ¿de qué
habla la gente?
www.socialmention.com
www.48ers.com
www.twitterfall.com
Pro Pública: Datos cualitativos se “cuantifican”
-Vecinos expresaron curiosidad, vía Twitter, por recibir mails de campaña
de Obama, pidiendo distintos montos en donación y los hicieron públicos
-En 190 mensajes, encontraron 6 variaciones del contenido
-http://www.propublica.org/article/reverse-engineering-obamas-message-machine
Ver no es lo mismo que acceder
Formatos deberían ser reutilizables

¿Cómo extraer datos cuando no están accesibles?
Un PDF de un JPEG
Datos de campañas publicidad oficial
En el sitio de la Jefatura de Gabinete de Ministros
http://www.jgm.gov.ar/paginas.dhtml?pagina=196
Scraping de Datos
    Programas informáticos o técnicas de programación
    cuya finalidad es la de extraer datos (“raspar”) para:
1. Obtener datos estructurados (De PDF a Excel)
2. Leer datos de imágenes fotográficas para convertirlos
     en textos o tablas (OCR: Reconocimiento Óptico de
     Caracteres)
Secuencia:
I.   Recoger (Ruby: lenguaje de programación)
II. Procesar (Google Refine: para limpiar y organizar los
     datos)
III. Almacenar (Panda Proyect: repositorio para
     compartir bases de datos)
Minería de Datos: detecta patrones
  sobre un gran conjunto de datos
Proceso
   Búsqueda de relaciones entre variables
    cualitativas
   Búsqueda de relaciones entre valores, dentro
    de una base de datos
   Establece relaciones de jerarquía entre los
    datos
   Calcula proporciones (3 de cada 10)
   Calcula frecuencias (veces que un mismo dato
    se repite o combinaciones de datos que se
    repiten)
   Datos abstractos Datos inteligentes
Caso Diario La Nación (Argentina)
http://www.transporte.gov.ar/content/subsidios-sistau/
13 meses de trabajo, 285.000 documentos: estudio de la progresión en los pagos
Finalista Data Journalism Award 2012
http://blogs.lanacion.com.ar/projects/data/subsidies-for-the-bus-transportation-system-datajournalism-project-in-argentina-la-
nacion/
Visualización Interactiva
Video Interactivo usando Google Fusion Tables
Por Knight Fellowship Gustavo Faleiros (Brasil), para OEco
Aplicaciones Sociales
Where does my money go?   ¿A dónde van mis impuestos?
Iniciativas en Argentina


   www.gastopublicobahiense.org

   www.mapa76.info

   www.quepasariachuelo.org.ar

   http://www.malvinastreinta.com.ar/
Muchas Gracias…




         Sandra Crucianelli
               Mayo, 2012
       scrucianelli@icfj.org
             @spcrucianelli
              www.icfj.org

Periodismo de Datos: Definiciones y Buenas Prácticas

  • 1.
    Introducción al Periodismo deDatos Por Sandra Crucianelli Knight International Journalism Fellow www.icfj.org @spcrucianelli
  • 2.
  • 3.
  • 4.
    Jacob Riis: Laestadística asociada a la imagen como elementos de denuncia
  • 5.
    ¿Cómo vive laotra mitad?
  • 6.
  • 7.
    Philip Meyer Exploró lascausas de los disturbios raciales en la década de 1960 http://www.sampler.isr.umich.edu/2011/featured/revealing-the- roots-of-a-riot/
  • 8.
    Investigación Social aplicadaa la Investigación Periodística  Investigación Cualitativa: I. Estudio de Casos II. Grupos Focales III. Análisis del Discurso  Investigación Cuantitativa I. Investigación Descriptica (censo) II. Investigación Inferencial (encuestas)
  • 9.
    Encuentre la diferencia  Periodismo de Investigación: Sobre la base de la iniciativa del reportero, se descubre una verdad social importante que alguien intenta mantener en secreto  Periodismo de Precisión: Indagar por iniciativa propia, un conjunto de datos difíciles de obtener y más complejos de verificar o interpretar, con los que se pone en evidencia una realidad oculta que no se quería revelar.
  • 10.
    Periodismo Asistido porComputadora  PAC: introduce el uso de hojas de cálculo, como herramienta para procesar datos I. Clarence Jones (Miami Herald) , 1969, buscó patrones en el sistema de justicia penal. II. David Burnham (The New York Times), 1972, expuso discrepancias en las tasas de delitos denunciados por la policía III. Elliot Jaspin (The Providence Journal), 1986, usó bases de datos para denunciar malos historiales de conducción y antecedentes penales de choferes de transporte escolar IV. Bill Dedman (The Atlanta Journal-Constitution), Pulitzer 1988, “El color del dinero”: abordó el tema de la discriminación racial en la otorgación de préstamos hipotecarios
  • 11.
  • 12.
    ¿Periodismo de Datos? Todo el periodismo se hace a partir de datos: Cierto  Cualquier cosa que se diga del Periodismo de Datos hoy, no es definitiva ¿Qué hay de nuevo?  Casi todo se expresa con números  En el mundo digital, tenemos capacidad para acceder a grandes cantidades de datos  En el proceso, los datos no se transforman; la única transformación que hay es desde lo abstracto hacia lo tangible  Visión Científica: el periodista de datos reporta sus métodos, de modo que otros podrían replicar el proceso y llegar a la misma conclusión
  • 13.
    Del PAC alPAH Periodismo asistido por Hackers Grandes conjuntos de datos: Big Data  Búsqueda de Datos  Extracción de Datos  Procesamiento de Datos  Visualización de Datos El programador se incorpora al equipo periodístico
  • 14.
  • 15.
  • 16.
    1) Salarios de667.000 empleados públicos 2) Crearon una aplicación incorporando un buscador de sueldos por nombre, oficina gubernamental, año, categoría. 3) Socializaron la información http://www.texastribune.org/library/data/government-employee-salaries/
  • 17.
    ¿Cómo lo hicieron?  Para obtener los datos apelaron a FOIA  No hay ley de acceso a la información pública en Argentina  Por esta razón Argentina no puede ingresar a la OGP
  • 18.
    ¿No tenemos ningúndato?  ¿Realizó el diagnóstico?  Búsqueda avanzada  Búsquedas reversas  Por defecto, restringiendo dominio, formatos y/o fechas  Búsquedas geolocalizadas  Lectura de URLs y recorte de dominio  Bases de Datos interactivas  Monitoreo de redes sociales
  • 19.
    http://www.google.com.ar/advanced_search •Explorar la WebProfunda •Usar el Académico •Buscar en Grupos, Libros e Imágenes
  • 20.
    http://datos.bancomundial.org/ Herramientas Analíticas (softwarede descarga gratuita) 1. Análisis económico 2. Medidas de Pobreza 3. Cruce de variables para Pobreza 4. Mapeo de pobreza
  • 21.
    Monitoreo en redessociales: ¿de qué habla la gente? www.socialmention.com www.48ers.com www.twitterfall.com
  • 22.
    Pro Pública: Datoscualitativos se “cuantifican” -Vecinos expresaron curiosidad, vía Twitter, por recibir mails de campaña de Obama, pidiendo distintos montos en donación y los hicieron públicos -En 190 mensajes, encontraron 6 variaciones del contenido -http://www.propublica.org/article/reverse-engineering-obamas-message-machine
  • 23.
    Ver no eslo mismo que acceder Formatos deberían ser reutilizables ¿Cómo extraer datos cuando no están accesibles?
  • 24.
    Un PDF deun JPEG Datos de campañas publicidad oficial En el sitio de la Jefatura de Gabinete de Ministros http://www.jgm.gov.ar/paginas.dhtml?pagina=196
  • 25.
    Scraping de Datos Programas informáticos o técnicas de programación cuya finalidad es la de extraer datos (“raspar”) para: 1. Obtener datos estructurados (De PDF a Excel) 2. Leer datos de imágenes fotográficas para convertirlos en textos o tablas (OCR: Reconocimiento Óptico de Caracteres) Secuencia: I. Recoger (Ruby: lenguaje de programación) II. Procesar (Google Refine: para limpiar y organizar los datos) III. Almacenar (Panda Proyect: repositorio para compartir bases de datos)
  • 26.
    Minería de Datos:detecta patrones sobre un gran conjunto de datos
  • 27.
    Proceso  Búsqueda de relaciones entre variables cualitativas  Búsqueda de relaciones entre valores, dentro de una base de datos  Establece relaciones de jerarquía entre los datos  Calcula proporciones (3 de cada 10)  Calcula frecuencias (veces que un mismo dato se repite o combinaciones de datos que se repiten)  Datos abstractos Datos inteligentes
  • 28.
    Caso Diario LaNación (Argentina) http://www.transporte.gov.ar/content/subsidios-sistau/ 13 meses de trabajo, 285.000 documentos: estudio de la progresión en los pagos Finalista Data Journalism Award 2012 http://blogs.lanacion.com.ar/projects/data/subsidies-for-the-bus-transportation-system-datajournalism-project-in-argentina-la- nacion/
  • 29.
  • 30.
    Video Interactivo usandoGoogle Fusion Tables Por Knight Fellowship Gustavo Faleiros (Brasil), para OEco
  • 31.
    Aplicaciones Sociales Where doesmy money go? ¿A dónde van mis impuestos?
  • 32.
    Iniciativas en Argentina  www.gastopublicobahiense.org  www.mapa76.info  www.quepasariachuelo.org.ar  http://www.malvinastreinta.com.ar/
  • 33.
    Muchas Gracias… Sandra Crucianelli Mayo, 2012 scrucianelli@icfj.org @spcrucianelli www.icfj.org