2. Analytics
Datos eran los de antes!
Aclarando el panorama
Oportunidades y desafíos
¿Y ahora?
3. Evolución de los SI - Usuarios internos
Intranet
Usuario interno:
conocido, capacitado,
acreditado, identificado,
autenticado y autorizado
Usuario
externo
Datos
SI
LAN/WAN
protegida y
administrada
Cliente (PC) bajo
controlDiálogo
personal,
intercambio
de papeles
Org.
Usuario
4. Evolución de los SI - Usuarios externos
Internet
Org.
Usuario externo:
¿capacitado, acreditado,
identificado, autenticado
y autorizado?
Intranet
Bajo nivel de control
del cliente (PC).
Red insegura y no confiable,
administrada por Nadie.
(sin SLA)
Usuario
5. Evolución de los SI - Usuarios y servicios externos
Internet
Org.A
Intranet
Org.B
Intranet
Infraestructura,
procesos,
aplicaciones,
datos y
seguridad
administrados
por otro
organismo para
dar respuesta a
un usuario
propio.
(Sin SLA)
Usuario
Representado
EMPRESA
Usuario externo
que actúa en
nombre de un
tercero.
6. Evolución de los SI – Externalización
Internet
Org.A
Intranet
Org.B
Intranet
Infraestructura,
procesos,
aplicaciones,
datos y
seguridad
administrados
por fuera del
organismo.
Usuario
DC
Intranet
Org.C
Intranet
Datos y
servicios
provistos por
terceros.
17. Datos
Compleción: se libera el acceso a todos los datos públicos, es decir, aquellos que no estén
sujetos a restricciones de privacidad, seguridad o privilegio regidos por alguna norma.
Fuente primaria: los datos se publican tal como son recolectados en la fuente, con el mayor
nivel de precisión y detalle, no en formas agregadas o modificadas.
Oportunidad: los datos se publican tan pronto como sea posible para preservar su valor.
Accesibilidad: los datos están accesibles para las más amplias gamas de usuarios y de
propósitos.
Procesabilidad: los datos están en formatos apropiados y razonablemente estructurados para
permitir su tratamiento automatizado.
No discriminación: los datos están disponibles para todos, sin necesidad de registrarse para
obtenerlos.
No restricción: los datos están accesibles en un formato sobre el que ninguna entidad tiene
control exclusivo.
Libertad: los datos no están sujetos a derechos de autor, patentes, marcas ni a regulaciones de
secreto industrial o comercial. Tampoco están sujetos a restricciones de privacidad, seguridad o
privilegio reguladas por otras normas.
Documentación: los datos están documentados de forma que puedan ser correctamente
interpretados. Idealmente la semántica asociada a los datos debería cumplir también con los
restantes principios, por lo que debería ser publicada de forma estandarizada y procesable, sin
perjuicio de la documentación tradicional que lo complemente.
Permanencia: los datos se mantienen accesibles de forma permanente.
Interoperabilidad: los distintos conjuntos de datos son relacionables entre sí sin mayor
esfuerzo, gracias a la estandarización sintáctica y semántica.
Garantía de procedencia: los conjuntos de datos están publicados con mecanismos que
provean confianza sobre: las fechas de creación y publicación, la identidad, autenticidad y no
repudio de la fuente y su integridad.
21. Datos - ¿Quién consume?
digital.bl.fcen.uba.ar/Download/Tesis/Tesis_5351_Lenton.pdf
22. Datos - ¿Quién consume?
https://thevizcorner.wordpress.com/2015/11/16/desigualdad-y-crecimiento-economico-en-argentina/
23. Datos - ¿Quién consume?
MySociety desarrolló hace
años este proyecto que ilustra
perfectamente la utilidad de
cruzar datos urbanos con la
localización física. La
herramienta Mapumental
permite visualizar el tiempo
de transporte para llegar a un
punto de determinado desde
cualquier lugar de la ciudad,
ayudando con ello a entender
la distancia temporal de
movilidad, mucho más útil y
práctica que la distancia
física.
www.ateneonaider.com
24. Datos - ¿Quién consume?
La población de nueva York durante el día y durante la noche, reflejando la densidad de las
diferentes zonas.
www.ateneonaider.com
25. ¿Oportunidades?
www.lanacion.com
Más allá de su impacto
potencial en la vida urbana,
los datos podrían tener un
enorme valor económico:
• Los valores de propiedad
podrían subir en cuadras con
bajos niveles de polución.
• Las ciudades podrían
recaudar más ingresos por
violaciones a ordenanzas de
ruido y emisiones.
• Los minoristas podrían usar
datos del tránsito de peatones
para elegir ubicaciones más
rentables para sus tiendas.
29. ¿Desafíos?
Todo lo que se puede sacar de un celular
www.zeit.de/datenschutz/malte-spitz-data-retention
https://vimeo.com/43765286
• SUBE
• Tarjetas de pago
• Banca electrónica
• Tarjetas de fidelidad
• Servicios públicos y cuasi-públicos
• …
37. ¿Y ahora?
Artículo 3°.- Los organismos que integran el Sistema Estadístico Nacional deben
servir con objetividad los fines de su creación con sometimiento pleno al derecho y
deben actuar de acuerdo con los siguientes principios generales: secreto estadístico,
pertinencia, transparencia, rigurosidad, autonomía, técnica, comparabilidad,
eficiencia, centralización normativa, descentralización operativa, legalidad objetiva y
motivación de la decisión.
El secreto estadístico obliga a tratar los datos individuales proporcionados por la fuente de
información con la más absoluta confidencialidad, de forma tal de no revelar la identificación
de dichas fuentes.
La pertinencia es el vínculo que debe existir entre los datos solicitados a la fuente de
información y los objetivos de la actividad estadística para la cual dichos datos, son
recabados.
La transparencia es el derecho de las fuentes de información de conocer los objetivos de la
actividad estadística para la cual se solicitan los datos, y si los mismos estarán amparados por
el secreto estadístico.
La rigurosidad consiste en la aplicación sistemática de los principios, métodos y
procedimientos generalmente aceptados por la técnica y la ciencia estadística.
La autonomía técnica consiste en el desarrollo de las actividades estadísticas con
independencia y objetividad, basándose exclusivamente en los principios estadísticos.
La comparabilidad a nivel internacional, es el adaptar en lo pertinente las definiciones,
clasificaciones y procedimientos recomendados por los organismos internacionales
especializados en estadística y las prácticas más extendidas en la materia.
La eficiencia es la relación entre el valor de los resultados de la actividad estadística y el costo
generado para obtenerlos, teniendo en cuenta el uso adecuado de los recursos disponibles.
La centralización normativa consiste en la adopción, por parte de todas las oficinas de
estadística, de las normas sobre conceptos, definiciones, clasificadores y metodologías
propuestas por el organismo rector.
La descentralización operativa consiste en asignar la producción estadística a las respectivas
oficinas de estadística, según su competencia por áreas temáticas.
La legalidad objetiva implica ajustar la actividad estadística al orden normativo vigente. La
motivación de la decisión consiste en la obligación de fundamentar las decisiones que se
adopten en el área estadística.
38. ¿Y ahora?
Las tareas relacionadas al Consumo de Datos tienen ciertas
consideraciones no triviales:
Difícilmente las pueda realizar una sola persona, dada la variedad de capacidades
que requiere seguramente debe ser desarrollada por un equipo.
Requiere de competencias propias de: Ciencias de la computación, Data Mining,
Estadística, Diseño Gráfico y Visualización, Periodismo, Ciencias Políticas,
Sociología, … y conocimiento del negocio.
Difícilmente se puede obviar alguna, el natural desarrollo requiere del aporte de
cada una de las etapas para lograr un resultado interesante.
La secuencia no es lineal, las etapas no se encadenan secuencialmente uniendo el
fin de una con el inicio de la otra. Se superponen, se cruzan y se reordenan hasta
encontrar –o no- el camino correcto.
No son triviales ya que cada una requiere de rigurosidad, como lo exigen los
trabajos periodísticos o académicos serios con sus correspondientes prácticas
profesionales.
El “rol del periodista” o “líder de negocio” es el que le da ilación y sentido al resto
para que todo el proceso finalice en un producto interesante para el público
objetivo.
39. ¿Y ahora?
Desde Ciencias de la Computación (IA, DM, …):
Elaborar o fortalecer los algoritmos de búsqueda, linking, TM, …
Fortalecer los modelos sobre Big Data
Establecer estándares –viables- para “Linked Data”
Estandarizar formatos
Facilitar las búsquedas
Mejorar la metadata, estandarizar vocabularios, ontologías, …
Fortalecer los métodos de etiquetado automático
Fortalecer los métodos de linking automático
Elaborar IDEs
Participar en DDJ para incorporar algoritmos más elaborados
Fortalecer los métodos de packing, garbage collector y forgetting
Mejorar los métodos de preparación de datos
40. ¿Y ahora?
Desde la informática
Incorporar la publicación como una etapa más en los procesos
institucionales y adoptar los estándares correspondientes.
Disponibilizar los reservorios corporativos y externos como una
única fuente de datos.
Desde la industria de TI
Proveer plataformas robustas y facilidades para la persistencia
masiva de datos.
Desde la matemática y la estadística
Aportar …
41. ¿Y ahora?
Desde la Academia en general:
Pensar antes de actuar
Ordenar
Conceptualizar
Advertir
Cooperar
…
42. ¿Y ahora?
Desde la Academia en general:
Investigación: aportar a la conceptualización y el entendimiento
de la temática
Extensión: difundir y brindar asistencia técnica
Formación: impulsar la apropiación en los estudiantes
Monitorear lo que hace el mundo
Motivar la apropiación y el consumo de OD en la sociedad
Exigir a las autoridades que cumplan con los principios
Oponernos al retroceso necio o al avance insensato
Advertir sobre los perjuicios potenciales
• Identidad
• Privacidad
• Propiedad
• Reputación
• Seguridad vs
Privacidad
52. Ejercicio
... En aquel imperio, el arte de la cartografía logró tal perfección que el mapa de
una sola provincia ocupaba toda una ciudad, y el mapa del Imperio, toda
una provincia. Con el tiempo, esos mapas desmesurados no satisficieron y
los colegios de cartógrafos levantaron un Mapa del Imperio, que tenía el
tamaño del Imperio y coincidía puntualmente con él. Menos adictas al
estudio de la cartografía, las generaciones siguientes entendieron que …
Qué entendieron las generaciones
siguientes?
Quién escribió el texto?
53. 12 common problems in Data Mining
1. Poor data quality such as noisy data, dirty data, missing values, inexact or incorrect
values, inadequate data size and poor representation in data sampling.
2. Integrating conflicting or redundant data from different sources and forms: multimedia
files (audio, video and images), geo data, text, social, numeric, etc…
3. Proliferation of security and privacy concerns by individuals, organisations and
governments.
4. Unavailability of data or difficult access to data.
5. Efficiency and scalability of data mining algorithms to effectively extract the
information from huge amount of data in databases.
6. Dealing with huge datasets that require distributed approaches.
7. Dealing with non-static, unbalanced and cost-sensitive data.
8. Mining information from heterogeneous databases and global information systems.
9. Constant updation of models to handle data velocity or new incoming data.
10. High cost of buying and maintaining powerful softwares, servers and storage
hardwares that handle large amounts of data.
11. Processing of large, complex and unstructured data into a structured format.
12. Sheer quantity of output from many data mining methods.
54. Del rigor en la ciencia
... En aquel imperio, el arte de la cartografía logró tal perfección que el mapa de
una sola provincia ocupaba toda una ciudad, y el mapa del Imperio, toda
una provincia. Con el tiempo, esos mapas desmesurados no satisficieron y
los colegios de cartógrafos levantaron un Mapa del Imperio, que tenía el
tamaño del Imperio y coincidía puntualmente con él. Menos adictas al
estudio de la cartografía, las generaciones siguientes entendieron que ese
dilatado mapa era inútil y no sin impiedad lo entregaron a las inclemencias
del sol y de los inviernos. En los desiertos del Oeste perduran despedazadas
ruinas del Mapa, habitadas por animales y por mendigos; en todo el País no
hay otra reliquia de las disciplinas geográficas.
Jorge Luis Borges, El Hacedor. BA, 31 de octubre de 1960
56. Para pensar
Bilinkis, Santiago (2014): Pasaje al futuro.
Lanier, Jaron (2013): ¿Quién controla el futuro?
Silver, Nate (2011): The signal and the noise. Why so many predictions fail but some don’t..