Esp #001-no son los documentos; son los datos-traducido
1. No son los
documentos;
son los DATOS!
Tom Johnson
Director Gerente
Inst. De Periodismo Analítico
Santa Fe, New Mexico USA
tom@jtjohnson.com
1
2. “Para sobrevivir y prosperar en la esfera de
datos dinámicos o datósfera”
Presentación en
D(ata) + P(eriodismo) + Seminario 2012 =
Seminario de dos día s auspiciado por
DIRECCION WEB
FECHA
LUGAR
Esta presentación en Power Point y hoja de notas
están en :
http://Johnson-IREwatchdog.notlong.com
2
3. 1
Punto importante
Nada es tan
importante - y
valioso - como
una buena teoría
3
6. Datósfera cambiante:
Especies en la biosfera:
Entrada Salida
de energía Metabolismo
latente
de energía
• Periodistas, et al., en la dataesfera
Entrada Salida
de datos Análisis
de información
6
7. iador
Speciesrin the Infosphere Periodista
to
His
Abogado
Economista
Chofer de camión
de basura
Maestro
La Datósfera:
o r de Entorno conceptual
t ad o s
jus ur
A
seg donde residen todas
las especies que
Policía procesan
7
información
9. 5
Next two days
Punto importante
“Teoría del
proceso
periodístico”
Entrada de datos Análisis Salida de información
9
10. Grandes cambios en la datósfera
• Más datos digitales analysis” +patents
Búsqueda de Google: +”data
• ~100% de todas las comunicaciones creadas,
existen como 1s y 0s
• Más transparencia
– 90 países tiene leyes de libertad de información
• Más herramientas para el análisis
10
11. Grandes cambios en la datósfera
• Más datos digitales
– ~100% de todas las comunicaciones credas,
existen como 1s and 0s
• Más transparencia
– 90 países poseen leyes de libertad de información
• Más herramientas para el análisis
• Más aplicaciones de “nube” y más espacio
para almacenar
11
12. Procesamiento paralelo en el
seminario
Periodismo= producto + servicio
Perspectiva/Filosofía/Teoria
Entrada de datos Análisis Salida de
información
Proceso RRAW-P
PdD Nuevas prácticas de gerencia
Sem Los tres 100s Colaboración
2012 Conjunto de destrezas generalizadas
Localizar/ - Formatos Herramients Herramientas
Marcar/ de datos analíticas narrativas
Recuperar - Limpieza
Datos
de datos Métrica
- Verificació
n de datos
- Metadatos 12
13. Ustedes no pueden ser un sabelotodo
• La figura del periodista como un “Gran
cazador blanco” está muerta.
• Mucho que aprender; sin tiempo suficiente
• Así son las organizaciones jerárquicas.
13
14. Colaboración: Desafíos y herramientas
• Equilibre “los procesos estándar” vs. la
creatividad/innovación
• Necesitan sistemas operativos comunes?
Quizás. A menos que…
• … cambie para navegadores/ Sistemas de
nube
• Barreras del departamento de Tecnologías
de la Información
• Podrán ayudar las máquinas virtuales?
• Quién es el “perro guía” de la organización?
Quienes son sus campeones? 14
15. Colaboración: Desafíos y herramientas
Objetivos de colaboración …
•Basada en navegadores
•Gratis o baratas
•Guardar/exportar los datos
•Niveles de acceso
15
16. Colaboración: Desafíos y herramientas
Colaboración con…
•Software de colaboración
https://
secure.wikimedia.org/wikipedia/en/wiki/Collaborative_s
•Wikis
• https://secure.wikimedia.org/wikipedia/en/wiki/Wikis
• Comparación de software para Wikis
https://
secure.wikimedia.org/wikipedia/en/wiki/Comparison_of_wik
16
17. Entrada de datos: Recuperación
Aplicaciones de marcapáginas
• Objetivos:
• Acceso a través del navegador – pero sin el equipo
estandar
• Creación/manejo de sub-carpetas, categorias &
palabrs clave, anotaciones
• Intercambio privado y/o público
• Archivo y exportación a sistemas de respaldo
• Ejemplos:
• Xmarks: www.xmarks.com/
• Diigo: www.diigo.com/index
• Freeware/shareware buscar en www.tucows.com
17
18. ENTRADA DE DATOS: Guardar y compartir
en la nube
OK, está descargado. Dónde se va a guardar?
•Multiples sitios de respaldo: de escritorio
y…
• Más seguros en la nube que en otra parte
• Contraseñas, pero capacidades compartidas
• Más fácil con las aplicaciones de “la nube
sinconizada”
• Gratis o de bajo costo
18
19. ENTRADA DE DATOS: Guardar y compartir en la
nube
OK, está descargado. Dónde se va a guardar?
• Evite MS Windows Live, SkyDrive and Mesh – dan más
problemas que beneficios
Your Hard Drive
•Dropbox - www.dropbox.com
19
20. ENTRADA DE DATOS: Guardar y compartir en la nube
OK, está descargado. Dónde se va a guardar?
Carpetas,
subcarpetas, sub-
• Evite MS Windows Live, SkyDrive and Mesh – dan más
Vista de su navegador
subcarpetas, etc.
problemas que beneficios
•Dropbox - www.dropbox.com
Sincronización casi
instantánea con/desde su
escritorio
20
21. ENTRADA DE DATOS: Guardar y compartir en la nube
OK, está descargado. Dónde se va a guardar?
• Evite MS Windows Live, SkyDrive and Mesh – dan más
problemas que beneficios
•Dropbox - www.dropbox.com
•Gladinet - http://www.gladinet.com/
•SugarSync - www.sugarsync.com
•Syncplicity - www.syncplicity.com
•Jungle Disk ($3p/m) - www.jungledisk.com
•Zumodrive (3p/m) - www.zumodrive.com
•AeroFS - www.zumodrive.com
•SpiderOak - spideroak.com
•MiMedia, Wuala, Quanp,
21
23. Entrada de datos en la Era
Digital Análisis Salida de información
• Notas • Los nuevos datos son
• Texto ubicuos,
• Numérico compartibles,
• Imagenes escalables.
• Cuadros/Graficos • Los costos de
• Mapas recuperación, copia y
• Audio almacenaje son
• Video triviales
• Átomos Bits • Pueden ser validados,
• Cómo? Quién? y explorados por
individualidades y
aplicaciones 23
24. Entrada de datos: Objetivos
• Mover los datos de "allá afuera" a los sitios de
análisis / herramientas
• Buscar datos desgranados, no agrupaciones
• Buscar datos en su forma original (Ej. NO PDFs)
• Quién recogió los datos? Porqué? Cómo?
• Quién corrigió/editó los datos? Porqué? Cómo?
• Si es de una base de datos, preguntar primero por
“record” u “hoja de códigos” o “esquema”
• Definición de las variables o campos. Constantes o???
• Obtener los datos en el formato con menor común
denominador: archivos delimitados por comas en ASCII
o texto
24
27. Entrada de datos: Problemas “típicos” con los
sitios
Barreras en los datos = barreras para el análisis
• Sitio SIN capacidad de búsquedas; sitio sin mapa
• La no utilización de estándares abiertos HTML;
utilización de estándares-cerrados en ambientes
Adobe Flash/Shockwave
• Formatos/diseños de páginas inconsistentes
muchos “drill-down” en lugar de generadores
accionados por la búsqueda
• Imposibilidad de descargar o de obtener datos para el
análisis
• Información disponible solo en archivos Adobe PDF los
cuales son notoriamente no amistosos con el análisis
de datos.
27
28. Preparando los datos: DNA Analítico
Cualitativo Cuantitativo Geo-localización
•Quién •Cuántos/cuánto •Todas las
•Qué •Qué categorías narraciones tienen
•Cuándo •Qué tipo de datos y geografía
qué niveles?
•Porqué •La gente está
•Cuáles cambios? interesada en saber
•Dónde
•Cuál cronología qué tan cerca está
•Cómo
de mi?
Media Ecology Association - Junio 2007
Mexico City 28
29. Datos Noticias de
enviados última hora
Proceso del Periodismo Analítico – UK_Guardian
Eventos Datos
• Todos los
Teorías a ser
datos vienen
recurrentes compartidos exploradas
sucios
Qué
Qué comparar o Qué significan Qué otros datos se
señalar cambios los datos ajustan para usarse
juntos?
• Se asume la
falta? Hojas de cálculo
“distribución
Datos en
Columnas innecesarias
Datos medidos
divina”
• No se validan
formato Celdas fusionadas en unidades
de datos
incorrecto distintas
Realizar los
cálculos de
los datos
• No se limpian
los datos
los datos
Comprobación
Recalcular si de validez de
es necesario los resultados
Equipo Noticia
SALIDA
gráfico
Herramientas Simplemente
gratis para publicar
29
Tabla de fusión de Google
30. Datos Noticias de
enviados última hora
Eventos Datos Teorías a ser
recurrentes compartidos exploradas
Qué comparar o Qué significan Qué otros datos se
señalar cambios los datos ajustan para usarse
juntos?
Hojas de cálculo
Datos en Datos medidos
Columnas innecesarias
formato Celdas fusionadas en unidades
de datos
incorrecto distintas
Realizar los
cálculos de
los datos
Comprobación
Recalcular si de validez de
es necesario los resultados
Equipo Noticia
SALIDA
gráfico
30
Herramientas Simplemente
31. Preguntas sobre “Entrada de Datos”
#1 – Mantenga una bitácora (Pruebe usar
Entrada de datos Análisis
Notesync.com)
Salida deDatos cualitativos, cuantitativos o
• ¿ información
• Notas geográficos?
• Texto •
¿Cambios? ¿Cómo se manejarán los lapsos de
• Numérico
tiempo?
• Imágenes
•Objetivo:
• Cuadros/Gráficos esforzarse por obtener los datos
• Mapas originales y en las unidades más pequeñas.
• Audio
• Los datos en línea rara vez están
• Video
completos o son exactos.
•¿Dónde están los datos? ¿En cuál formato?31¿I-
32. Preguntas sobre “Entrada de Datos”
#1 – Mantenga una bitácora (Pruebe a usar
Entrada de datos Análisis
Notesync.com)
Salida de información
•¿Quién creó los datos? ¿Porqué? ¿Cómo?
•Notas ¿Existen catalizadores jurídicos para la
•Texto creación? ¿Si es así, qué dicen?
•Numérico•¿Han cambiado las definiciones y el proceso
•Imágenes
de recolección?
•Cuadros/Gráficos
•Mapas •¿Quién podría revisar y editar los datos?
•Audio ¿Cuál era/es el proceso de selección para
•Video asegurar la exactitud? ¿Quién ha analizado
los datos? ¿Con qué propósito y con cuáles
métodos? 32
33. Entrada de Datos Análisis Salida de
información
Entrada de datos Análisis Salida de información
• ¿Qué estamos
buscando? ¿Cómo
podemos ser
•
•
Notas sorprendidos?
Texto
• Numerico • Fuente
• Imágenes • Definición
• Cuadros/Gráficos
• Mapas • Contexto
• Audio • Estimación
• Video
• ÁtomosBits • Conteo
¿Cómo? ¿Quién? • Estadística
• Geoestadística
• Análisis de Redes
Sociales
• Contabilidad forense
33
34. Entrada de datos Análisis Salida de
información
Entrada de datosAnálisis Salida de información
¿Qué estamos
•Notas •
buscando?
• Difusión
•Texto
•Numerico
¿Cómo podemos
ser sorprendidos?
• Web
•Imágenes • Fuente • Audio
•Cuadros/Gráficos • Definición
•Mapas • Contexto • Video
•Audio •
•
Estimación
Conteo
• Texto
•Video
•ÁtomosBits
• Estadística • Visualización de
• Geoestadística
¿Cómo? • Análisis de Redes datos
Sociales
• Contabilidad
• Mapas
forense • Bases de datos
dinámicas
• Archivos
34
35. No son los
documentos;
son los DATOS!
Tom Johnson
Director Gerente
Inst. De Periodismo Analítico
Santa Fe, New Mexico USA
tom@jtjohnson.com
35
It’s not the documents; it’s the DATA! _________________________________________________ Early public records Intricate data collection Potential for error in data entry Potential for error in filing No machine retrieval or analysis Even today, OCR would be impossible http://cultureandcommunication.org/deadmedia/index.php/Bertillon_System This rare Bertillon Card (named after the inventor of Anthropometry) Decline of Bertillonage Fingerprint killed the Bertillon star The complexity of the Bertillon system —the very thing that provided it with such accurate and reliable data—also proved to be its downfall: it was simply too cumbersome to replicate with sufficient accuracy. As soon as Bertillon’s procedures began to be disseminated outside of Paris there were problems; as Cole explains: Learning the system from translated books, far from the exacting presence of Bertillon himself, identification clerks seldom replicated the rigor that characterized operations in Paris. Instead, they skimped on learning the morphological vocabulary, glossed over the precise movements in the measuring process, and contented themselves with sloppily recording a few measurements. Worse, most identification bureaus, too proud to simply adopt Bertillon’s system wholesale, took it upon themselves to modify various aspects of the system. (Cole 2001, 52) Bertillon anticipated these problems, writing a strongly-worded message in his instruction manual directed towards all those who would consider meddling with his finally tuned methods: The arrangement of these instruments was the subject of many experiments and numberless improvements before they reached their present shape, which we consider as final. So we reject in advance every modification, every further change, however slight, either in their form or in their manner of using them. That is a great temptation for beginners, to whom numerous new ideas occur, but who are not aware that all these ideas, even those that they believe to be the most original, the most personal, have already been proposed by others, tried and finally rejected for divers reasons. (Bertillon 1896, 19) Alas, Bertillon’s warnings were not heeded, and the accuracy of anthropometric measurements—and the reputation of the system as a whole—suffered as result. Even if the integrity of Bertillon’s system could be sustained outside of Paris, it was soon to be overtaken by another form of criminal identification. As Kaluszynski notes, “at the last moment before it seemed likely to dominate the future, anthropometry was to undergo a rude shock. Its success had barely been established and savored when its supremacy began to falter in the face of a new and infallible technique” (2001, 128). Of course, the new technique was fingerprinting, a much simpler process than Bertillonage. “A fingerprint is a physical sign that cannot be falsified or disguised, and the mathematical likelihood of two individuals having identical fingerprints is infinitely small” (128). Occam’s razor would dictate that fingerprinting soon supplant Bertillonage as the world-wide standard for criminal identification. ====================================== No son los documentos; son los DATOS! _________________________________________________ Registros públicos antigüos Colecciones de datos intrincados Error potencial en la alimentación de datos Error potencial en el archivo Recuperación o análisis no mecánica Incluso hoy, el reconocimiento óptico de carcatéres sería imposible http://cultureandcommunication.org/deadmedia/index.php/Bertillon_System Extraña “tarjeta de Bertillon” (denominada así en honor al inventor de la Antropometría) Declinaje del “Bertillonage” La huella dactilar eliminó la estrella de Bertillon Gracias a Francois Cuando me invitó, él dijo “se audaz” “ Realmente audaz? No soy el indicado si deseas que pasemos dos días hablando de consejos para codificar “Ruby en Rieles” o algo igualmente estrecho. Ese no es el futuro importante” “ Pero si por AUDAZ quieres decir salvaje y loco entonces me anoto” “ Si,” dijo. “Salvaje y loco” Así que trataremos de empujar los límites con Ustedes y haremos un poco de experimentación en las próximas 48 horas. No esperen mucha recompensa la semana que viene: tenemos por objetivo ayudarlos a construir unas bases de éxito personal e institucional que dará fruto en unos 36 meses. Existe una racionalidad en este enfoque y distinto a la mayoría de los entrenamientos para periodistas, nuestra perspectiva se basa en unos conceptos teóricos: La complejidad del sistema de Bertillon -aquello mismo que le proporcionó información precisa y fiable-, también resultó ser su perdición: era demasiado complicado para reproducir con la suficiente precisión. Tan pronto como los procedimientos de Bertillon comenzaron a divulgarse fuera de París, hubo problemas, como Cole explicaAprender el sistema a partir de libros traducidos, lejos de la presencia exigente del Bertillon, los empleados de identificación rara vez replicaron el rigor que caracterizó las operaciones en París. En su lugar, escatimaron en aprender el vocabulario morfológico, pasaron por alto los movimientos precisos en el proceso de medición, y se contentaron con la grabación descuidada de unas pocas mediciones. Peor aún, la mayoría de las oficinas de identificación, demasiado orgullosas como para adoptar simplemente el sistema de Bertillon, completo, se encargaron de modificar diversos aspectos de éste. Bertillon se anticipó a estos problemas, escribiendo un mensaje fuerte en su manual de instrucciones dirigido a todos aquellos que consideraran entrometerse en su método, finalmente ajustado: El arreglo de estos instrumentos ha sido objeto de muchos experimentos e innumerables mejoras antes de alcanzar su forma actual, que consideramos como definitiva. Por lo tanto rechazamos de antemano cualquier modificación, todos los nuevos cambios, no obstante leves, ya sea en su forma o en su manera de usarlos. Eso es una gran tentación para los principiantes, a los que se les ocurren muchas ideas nuevas, pero que no están conscientes de que todas estas ideas, incluso las que ellos creen que son las más originales, las más personales, ya han sido propuestas por otros, juzgadas y finalmente rechazadas por razones diversas. (Bertillon de 1896, 19) Por desgracia, las advertencias de Bertillon no fueron escuchadas, y la exactitud de las mediciones antropométricas y la reputación del sistema en su conjunto-sufrió como resultado. Incluso si la integridad del sistema de Bertillon se hubiese podido mantener fuera de París, estaba a punto de ser superado por otra forma de identificación criminal. Como señala Kaluszynski ", a última hora cuando parecía que iba a dominar el futuro, la antropometría iba a sufrir un duro revés. Su éxito había sido establecido y apenas saboreó su supremacía cuando empezó a fallar frente a una nueva e infalible técnica "(2001, 128). Por supuesto, la nueva técnica fue las huellas dactilares, un proceso mucho más simple que Bertillonage. "Una huella digital es una señal física que no puede ser falsificada o encubierta, y la probabilidad matemática de que dos personas tengan huellas digitales idénticas es infinitamente pequeño" (128). La navaja de Occam impondría que las huellas digitales pronto reemplazarían al Bertillonage como el estándar mundial para la identificación criminal.
Important point #1: Nothing is as important - and valuable - as a good theory! Good theory helps us find our way when we get bogged down in the relatively trivial matters of producing the news. e.g. At the end of the day, does it really matter in a liberal democracy if we use a 2 pt. OR 3pt rule when laying out a page or if a cell in an HTML table is padded 1, 2 or 3 pixels? Not a bit. ======================================= Punto importante # 1: Nada es tan importante - y valioso - como una buena teoría! Una buena teoría nos ayuda a encontrar nuestro camino cuando nos empantanamos en los asuntos relativamente triviales de la producción de las noticias. Ej. Al final del día, ¿es realmente importante en una democracia liberal, si usamos una regla de 2 puntos o de 3 puntos al montar una página o si una celda de una tabla HTML se rellena con 1, 2 o 3 píxeles? Ni un poco.
Important Point #2 -- The document is not the data The DOCUMENT is only the first phase. We need to EXTRACT the data in/on the document to perform analysis That DATA will – originally – exist as 1s and zeros. Or if not, we need to translate the data to appropriate digital format. ==================================== Punto importante # 2 - El documento no son los datos El DOCUMENTO constituye solamente la primera. Necesitamos EXTRAER los datos en el documento para realizar el análisis. Los DATOS, existirá –originalmente- como unos y ceros. Si no es así necesitaremos traducir los datos al formato digital apropiado.
All those 1s and 0s exist in the Datasphere
Datasphere = environment holding all conceptual data of interest to humans Datasphere = similar to biosphere, except resources not depleted or transformed, merely copied Journalist: one species in the Datasphere Environment changes: Species either evolve or die =================================== Dataesfera = entorno que comprende todos los datos conceptuales de interés para los humanos Dataesfera = similar a la biosfera, con la excepción de que los recursos no se agotan o se transforman, simplemente son copiados Periodista:una especie de la Dataesfera Cambios en el entorno: las especies evolucionan o mueren
The Datasphere: that conceptual environment where all information-processing species reside Journalist: one species in the datasphere Environment changes: Species either evolve or die ======================= La Datósfera: Entorno conceptual donde residen todas las especies que procesan información Periodistas: Una de las especies de la datósfera Cambios en el entorno: las especies o evolucionan o mueren
Important point #4 The document is not the data. Without analysis, the data are not the story. =============================== Punto importante # 4: El documento no son los datos. Sin el análisis, los datos no son la historia
Important point #5 Important point: ‘Theory of Journalistic Process ’ ================================ Punto importante #5 Punto importante: ’Teoría del proceso periodístico ’
Big changes in the datasphere [Have to investigate other research tools: Google Timeline taken down] More digital data ~100% of all communications created/exist as 1s and 0s In 1997, Hal Varian reported 97% of content was digital; I think that in 15 years, that 3% gap has been closed BIG Data More transparency Overview of all FOIA, Roger Vleugels - http://right2info.org/resources/publications/Fringe%20Special%20-%20Overview%20FOIA%20-%20sep%2020%202010.pdf/at_download/file More tools for analysis – Google search: +”data analysis” +patents 1960-2010: Google search =============================== Grandes cambios en la datósfera [Hay que investigar otras herramientas porque cronologde la búsquedas de google fue eliminado] Más datos digitales ~100% de todas las comunicaciones creadas, existen como 1s y 0s In 1997, Hal Varian reportó que el 97% de los contenidos era digital; yo creo que en 15 años, esa brecha del 3% estará cerrada. MUCHOS datos Más transparencia Resumen de todos los FOIA, (Acta de la Libertad de Información)Roger Vleugels - http://right2info.org/resources/publications/Fringe%20Special%20-%20Overview%20FOIA%20-%20sep%2020%202010.pdf/at_download/file Más herramientas para el análisis– Búsquedas de Google: +”data analysis” +patents 1960-2010: Google search
More digital data ~100% of all communications created/exist as 1s and 0s In 1997, Hal Varian reported 97% of content was digital; I think that in 15 years, that 3% gap has been closed More transparency Overview of all FOIA, Roger Vleugels - http://right2info.org/resources/publications/Fringe%20Special%20-%20Overview%20FOIA%20-%20sep%2020%202010.pdf/at_download/file More tools for analysis – Google search: +”data analysis” +patents 1960-2010: Google search ================================ Más datos digitales ~100% de todas las comunicaciones creadas, existen como 1s y 0s In 1997, Hal Varian reportó que el 97% de los contenidos era digital; yo creo que en 15 años, esa brecha del 3% estará cerrada. MUCHOS datos Más transparencia Resumen de todos los FOIA, (Acta de la Libertad de Información)Roger Vleugels - http://right2info.org/resources/publications/Fringe%20Special%20-%20Overview%20FOIA%20-%20sep%2020%202010.pdf/at_download/file Más herramientas para el análisis– Búsquedas de Google: +”data analysis” +patents 1960-2010: Google search
Parallel Processing in Camp Generalized Skill Set(s) Locate/Mark/Retrieve Data Formats Data/ Mark/ Clean Data Verify Metadata Retrieve Data Analytic Tools Story-telling Tools Metrics ======================================= Procesamiento paralelo en el seminario Conjunto de destrezas generalizadas Localizar/Marcar/Recuperar Formato de datos Datos/ Marcar/ Limpiar Verificación de datos Metadatos Recuperar Datos Herramientas analíticas Herramientas narrativas Métrica
You can’t be a know-it-all Journalism’s Great White Hunter is dead. Too much to learn; not enough time So are hierarchical organizations ================================= Usted no puede ser un sabeloto La figura del periodista como un “Gran cazador blanco” está muerta. Mucho que aprender; sin tiempo suficiente Así son las organizaciones jerárquicas.
Collaboration: Challenges & Tools Balance “process standards” vs. creativity/innovation Need common OS? Maybe. Unless… … shift to Browser/Cloud systems IT dept. barriers Will virtual machines help? Who’s the lead dog in the organization? Who are you champions? ==================================== Colaboración: desafíos y herramientas Equilibre “los procesos estándar” vs. la creatividad/innovación Necesitan sistemas operativos comunes? Quizás. A menos que… … cambie para navegadores/ Sistemas de nube Barreras del departamento de Tecnologías de la Información Podrán ayudar las máquinas virtuales? Quién es el “perro guía” de la organización? Quienes son sus campeones?
Collaboration: Challenges & Tools Collaboration objectives … Browser-based Free or cheap Save/export data Levels of access ================================ Colaboración: desafíos y herramientas Objetivos de colaboración … Basada en navegadores Gratis o baratas Guardar/exportar los datos Niveles de acceso
Collaboration: Challenges & Tools Balance “process standards” vs. creativity/innovation Need common OS? Maybe. Unless… … shift to Browser/Cloud systems IT dept. barriers Will virtual machines help? Who’s the lead dog in the organization? Who are you champions?
Aplicaciones de marcapáginas Objetivos: Acceso a través del navegador – pero sin el equipo estandar Creación/manejo de sub-carpetas, categorias & palabrs clave, anotaciones Intercambio privado y/o público Archivo y exportación a sistemas de respaldo Ejemplos: Xmarks: www.xmarks.com/ Diigo: www.diigo.com/index Freeware/shareware buscar en www.tucows.com Entrada de datos: OK, los hemos bajado. Dónde se van a guardar? Dropbox, SugarSync , Syncplicity $$, Jungle Disk ($3p/m), Zumodrive (2gb=$3p/m), AeroFS , SpiderOak , MiMedia , Wuala , Quanp , Evite MS Windows Live, SkyDrive and Mesh – dan más trabajo que ganancia Marcapáginas: Busque en Tucows; Xmarks, Diigo, Goals bookmarks: guarde en el PC, en la nube, sincronice, exporte, comparta Obtenga los datos en la forma más menuda, en el mínimo común denominador.
DATA IN: Store & Share in the Cloud OK, it’s downloaded. Where ya gonna save it? Multiple back-up sites: desktop and… Safer in Cloud than otherwise Passwords, but share capabilities Easier with “Cloud-sync” apps Free to low-cost
No need to translate images
Vínculos a respaldos/sitios de almacenaje y herramientas en “la nube” OK, está descargado. Dónde se va a guardar? Evite MS Windows Live, SkyDrive and Mesh – dan más problemas que beneficios Dropbox - www.dropbox.com Gladinet - http://www.gladinet.com/ SugarSync - www.sugarsync.com Syncplicity - www.syncplicity.com Jungle Disk ($3p/m) - www.jungledisk.com Zumodrive (3p/m) - www.zumodrive.com AeroFS - www.zumodrive.com SpiderOak - spideroak.com MiMedia , Wuala , Quanp ,
Entrada de datos en la Era Digital Análisis Salida de información Los nuevos datos son ubicuos, compartibles, escalables. Los costos de recuperación, copia y almacenaje son triviales Pueden ser validados, y explorados por individualidades y aplicaciones
Move data from “out there” to analytic site/tools Seeking fine-grained data, NOT aggregations Seek data in original form (i.e. NO PDFs) Who collected the data? Why? How? Who proofed/edited the data? Why? How? If from data base, first ask for “record” or “code sheet” or “schema” Definitions of variables or fields. Constant or ??? Get data in lowest common denominator format: Comma-delimited files in ASCII or Text
Range of file “states/form” Range of the challenge in extracting and analyzing the data “ JSON is an important standard for ease of interaction across systems. It's becoming the preferred route over XML in many cases. “ And as geo-spatial data explodes, addressing the standards there might be helpful. I would include KML, GeoJSON and SHP files for vector and many options for raster: bil, netCDF, ECW, GeoTIFF, etc.” (Guerin) ======================================== Variedad de archivos "estados / formas“ Rango del desafío en la extracción y el análisis de los datos "JSON es una norma importante para facilitar la interacción entre los sistemas. Se está convirtiendo en la ruta preferida sobre XML, en muchos casos. “ Y a medida que explota la cantidad de los datos geo espaciales, abordaríamos las normas estandar que podrían ser útiles. Yo incluiría KML, GeoJSON y archivos SHP de vector y muchas opciones para el raster: bil, netCDF, ECW, GeoTIFF, etc "(Guerin)
Files, Transparency, Ease of Analysis “ The sweet spot of file types for data analysis” ---------------------------------------------------------------------------------- And even these are NOT perfect; have to know some of the underlying assumptions inherent in these file types. That said, this is still the best point of departure when seeking to acquire files and their data. Just as an example, csv does not allow trailing zeros in a numeric field, so my zip would collapse from 02151 to 2151. Or, the field would be represented as text, "02151" (surrounded by quote marks). Some translation programs do that automatically, but there is no standard. Same problem with phone numbers, some equations, etc. Csv also assumes field headers are on one line. They need to be in one cell in excel to translate correctly that way. Often, they are not, or the excel file has multiple levels of heads. XML is the general link format people want to use, but not all states have adopted it, and a standard schema. Yeah, csv standard does not even allow a blank row or a formatting row (like ---------) between the header and the live data table. The format row is usually read as a zero, not null, and that screws up averages, medians and so forth. Excel "cheats" on calculating medians, etc. (SSR) Should be ANSI standard CVS (SSR) ======================================= Archivos, Transparencia, Facilidad de Análisis “ El espacio óptimo para el análisis de datos ” ---------------------------------------------------------------------------------- E incluso éstos NO son perfectos, hay que conocer algunos de los supuestos inherentes a este tipo de archivos. Dicho esto, éste sigue siendo el mejor punto de partida cuando se trata de adquirir los archivos y sus datos. A modo de ejemplo, csv no permite ceros en un campo numérico, por lo que mi código postal colapsaría de 02151 a 2151. O bien, el campo se representaría como texto, "02151" (rodeado de comillas). Algunos programas de traducción hacen eso automáticamente, pero no hay un estándar. El mismo problema surge con los números de teléfono, algunas ecuaciones, etc Csv también asume que los encabezados de campo están en una línea. Tienen que estar en una celda en Excel para traducir correctamente de esa manera. A menudo, no están, o el archivo de Excel tiene varios niveles de encabezados XML es el formato general de vínculo que las personas desean utilizar y un esquema estándar, pero no todos los estados lo han adoptado. Sí, el estándar de csv ni siquiera permite una fila en blanco o una fila de formato (como ---------) entre la cabecera y la tabla de datos en tiempo real. El formato de registro se suele leer como un cero, no nulo, y eso produce error en los promedios, medianas y así sucesivamente. Excel " hace trampas" en el cálculo de las medianas, etc (SSR) Debe ser la norma ANSI CVS (SSR)
NB: THE SUNSHINENM.COM HOMEPAGE HAS BEEN FIXED SOMEWHAT SO I NEED TO FIND OTHER EXAMPLES TO ILLUSTRATE THESE POINTS. Data In: “Typical” problems with sites Barriers data = barriers to analysis NO site search capability; no site map Failure to use open-standard HTML; using closed-standard Adobe Flash/Shockwave environment. Page formats/layouts not consistent; too many drill-downs instead of search-driven generators Jiggly roll-overs; too much effort spent on bling Impossible to download or scrape data for analysis Information available only in Adobe PDF files; notoriously unfriendly to data analysis. ======================================== Data In: “Typical” problems with sites Barreras en los datos = barreras para el análisis Sitio SIN capacidad de búsquedas; sitio sin mapa La no utilización de estándares abiertos HTML ; utilización de estándares-cerrados en ambientes Adobe Flash/Shockwave Formatos/diseños de páginas inconsistentes muchos “drill-down” en lugar de generadores accionados por la búsqueda Jiggly roll-overs; too much effort spent on bling Imposibilidad de descargar o de obtener datos para el análisis Información disponible solo en archivos Adobe PDF los cuales son notoriamente no amistosos con el análisis de datos.
Muy buena descripción del proceso del periodismo analítico, pero …. Fuente: http://www.guardian.co.uk/news/datablog/2011/apr/07/data-journalism-workflow#zoomed-picture
It’s not the documents; it’s the DATA! _________________________________________________ Early public records Intricate data collection Potential for error in data entry Potential for error in filing No machine retrieval or analysis Even today, OCR would be impossible http://cultureandcommunication.org/deadmedia/index.php/Bertillon_System This rare Bertillon Card (named after the inventor of Anthropometry) Decline of Bertillonage Fingerprint killed the Bertillon star The complexity of the Bertillon system —the very thing that provided it with such accurate and reliable data—also proved to be its downfall: it was simply too cumbersome to replicate with sufficient accuracy. As soon as Bertillon’s procedures began to be disseminated outside of Paris there were problems; as Cole explains: Learning the system from translated books, far from the exacting presence of Bertillon himself, identification clerks seldom replicated the rigor that characterized operations in Paris. Instead, they skimped on learning the morphological vocabulary, glossed over the precise movements in the measuring process, and contented themselves with sloppily recording a few measurements. Worse, most identification bureaus, too proud to simply adopt Bertillon’s system wholesale, took it upon themselves to modify various aspects of the system. (Cole 2001, 52) Bertillon anticipated these problems, writing a strongly-worded message in his instruction manual directed towards all those who would consider meddling with his finally tuned methods: The arrangement of these instruments was the subject of many experiments and numberless improvements before they reached their present shape, which we consider as final. So we reject in advance every modification, every further change, however slight, either in their form or in their manner of using them. That is a great temptation for beginners, to whom numerous new ideas occur, but who are not aware that all these ideas, even those that they believe to be the most original, the most personal, have already been proposed by others, tried and finally rejected for divers reasons. (Bertillon 1896, 19) Alas, Bertillon’s warnings were not heeded, and the accuracy of anthropometric measurements—and the reputation of the system as a whole—suffered as result. Even if the integrity of Bertillon’s system could be sustained outside of Paris, it was soon to be overtaken by another form of criminal identification. As Kaluszynski notes, “at the last moment before it seemed likely to dominate the future, anthropometry was to undergo a rude shock. Its success had barely been established and savored when its supremacy began to falter in the face of a new and infallible technique” (2001, 128). Of course, the new technique was fingerprinting, a much simpler process than Bertillonage. “A fingerprint is a physical sign that cannot be falsified or disguised, and the mathematical likelihood of two individuals having identical fingerprints is infinitely small” (128). Occam’s razor would dictate that fingerprinting soon supplant Bertillonage as the world-wide standard for criminal identification. ====================================== No son los documentos; son los DATOS! _________________________________________________ Registros públicos antigüos Colecciones de datos intrincados Error potencial en la alimentación de datos Error potencial en el archivo Recuperación o análisis no mecánica Incluso hoy, el reconocimiento óptico de carcatéres sería imposible http://cultureandcommunication.org/deadmedia/index.php/Bertillon_System Extraña “tarjeta de Bertillon” (denominada así en honor al inventor de la Antropometría) Declinaje del “Bertillonage” La huella dactilar eliminó la estrella de Bertillon Gracias a Francois Cuando me invitó, él dijo “se audaz” “ Realmente audaz? No soy el indicado si deseas que pasemos dos días hablando de consejos para codificar “Ruby en Rieles” o algo igualmente estrecho. Ese no es el futuro importante” “ Pero si por AUDAZ quieres decir salvaje y loco entonces me anoto” “ Si,” dijo. “Salvaje y loco” Así que trataremos de empujar los límites con Ustedes y haremos un poco de experimentación en las próximas 48 horas. No esperen mucha recompensa la semana que viene: tenemos por objetivo ayudarlos a construir unas bases de éxito personal e institucional que dará fruto en unos 36 meses. Existe una racionalidad en este enfoque y distinto a la mayoría de los entrenamientos para periodistas, nuestra perspectiva se basa en unos conceptos teóricos: La complejidad del sistema de Bertillon -aquello mismo que le proporcionó información precisa y fiable-, también resultó ser su perdición: era demasiado complicado para reproducir con la suficiente precisión. Tan pronto como los procedimientos de Bertillon comenzaron a divulgarse fuera de París, hubo problemas, como Cole explicaAprender el sistema a partir de libros traducidos, lejos de la presencia exigente del Bertillon, los empleados de identificación rara vez replicaron el rigor que caracterizó las operaciones en París. En su lugar, escatimaron en aprender el vocabulario morfológico, pasaron por alto los movimientos precisos en el proceso de medición, y se contentaron con la grabación descuidada de unas pocas mediciones. Peor aún, la mayoría de las oficinas de identificación, demasiado orgullosas como para adoptar simplemente el sistema de Bertillon, completo, se encargaron de modificar diversos aspectos de éste. Bertillon se anticipó a estos problemas, escribiendo un mensaje fuerte en su manual de instrucciones dirigido a todos aquellos que consideraran entrometerse en su método, finalmente ajustado: El arreglo de estos instrumentos ha sido objeto de muchos experimentos e innumerables mejoras antes de alcanzar su forma actual, que consideramos como definitiva. Por lo tanto rechazamos de antemano cualquier modificación, todos los nuevos cambios, no obstante leves, ya sea en su forma o en su manera de usarlos. Eso es una gran tentación para los principiantes, a los que se les ocurren muchas ideas nuevas, pero que no están conscientes de que todas estas ideas, incluso las que ellos creen que son las más originales, las más personales, ya han sido propuestas por otros, juzgadas y finalmente rechazadas por razones diversas. (Bertillon de 1896, 19) Por desgracia, las advertencias de Bertillon no fueron escuchadas, y la exactitud de las mediciones antropométricas y la reputación del sistema en su conjunto-sufrió como resultado. Incluso si la integridad del sistema de Bertillon se hubiese podido mantener fuera de París, estaba a punto de ser superado por otra forma de identificación criminal. Como señala Kaluszynski ", a última hora cuando parecía que iba a dominar el futuro, la antropometría iba a sufrir un duro revés. Su éxito había sido establecido y apenas saboreó su supremacía cuando empezó a fallar frente a una nueva e infalible técnica "(2001, 128). Por supuesto, la nueva técnica fue las huellas dactilares, un proceso mucho más simple que Bertillonage. "Una huella digital es una señal física que no puede ser falsificada o encubierta, y la probabilidad matemática de que dos personas tengan huellas digitales idénticas es infinitamente pequeño" (128). La navaja de Occam impondría que las huellas digitales pronto reemplazarían al Bertillonage como el estándar mundial para la identificación criminal.