Fernando	
  Ariel	
  López	
  
	
  
@fernando__lopez	
  
Big Data
¿Qué	
  es	
  Big	
  Data?	
  
•  disponibilidad	
  de	
  datos	
  
•  capacidad	
  para	
  almacenarlo	
  
•  capacidad	
  para	
  procesarlos	
  
	
  
	
   	
   	
   	
   	
  —>	
  provenientes	
  de	
  dis8ntas	
  fuentes	
  
	
   	
   	
   	
   	
  —>	
  crecimiento	
  extraordinario	
  	
  	
  
	
   	
   	
   	
   	
  —>	
  disminución	
  de	
  los	
  costos	
  asociados	
  
	
  
VOLUMEN - VARIEDAD - VELOCIDAD
Algunos agregan 2 “V” más: VALOR y VERACIDAD
kilobyte	
  (kB)	
  
megabyte	
  (MB)	
  
gigabyte	
  (GB)	
  
terabyte	
  (TB)	
  
petabyte	
  (PB)	
  
exabyte	
  (EB)	
  
zeIabyte	
  (ZB)	
  
yoIabyte	
  (YB)	
  
1	
  Exabyte	
  (1.099.511.627.776	
  MB):	
  	
  
equivale	
  a	
  20	
  veces	
  todos	
  los	
  libros	
  escritos	
  de	
  
la	
  historia	
  hasta	
  2013,	
  o	
  a	
  85	
  veces	
  el	
  material	
  
cultural	
  guardado	
  por	
  Internet	
  Archive.	
  
1	
  YoHabyte	
  (1.152.921.504.606.846.976	
  MB):	
  
equivale	
  a	
  1.257	
  iPad	
  3	
  de	
  máxima	
  capacidad	
  
por	
  cada	
  habitante	
  de	
  la	
  8erra,	
  o	
  la	
  capacidad	
  
del	
  datacenter	
  que	
  la	
  NSA	
  inaugurará	
  en	
  2013.	
  
Fuentes
de Datos
CAPAS	
  
1. Fuentes	
  de	
  datos	
  
2. Infraestructura	
  
3. Aplicaciones	
  
4. Analí8cas	
  
5. Cross	
  Infraestructuras	
  y	
  Analí8cas	
  
SEMÁNTICA:	
  
datos	
  enlazados,	
  esquemas	
  de	
  metadatos	
  y	
  ontologías	
  
	
  
	
  
El lado oscuro de la Big Data
Desafíos
CIENCIA	
  
Polí8ca	
  de	
  Datos	
  
Plan	
  de	
  Ges8ón	
  de	
  Datos	
  Cienaficos	
  (DMP)	
  
Repositorios	
  de	
  Datos	
  Cienaficos	
  
MEDIOS	
  SOCIALES	
  
Presencia	
  en	
  la	
  web	
  social	
  
Desarrollos	
  de	
  Productos	
  y	
  Servicios	
  	
  
Creación	
  de	
  COMUNIDAD	
  
Análisis	
  y	
  Monitoreo	
  
MAKERSPACES	
  en	
  BIBLIOTECAS	
  
Hardware	
  abierto	
  à	
  SENSORES	
  
Impresoras	
  3D.	
  Modelado	
  3D,	
  Scanner	
  3D.	
  Fresadoras	
  
Realidad	
  Virtual.	
  Otras	
  tecnologías	
  disrup8vas	
  
Innovación	
  abiertas	
  à	
  Hackathones	
  
CIENCIA
Líneas	
  de	
  Trabajo:	
  
1.  POLÍTICA	
  DE	
  DATOS	
  CIENTÍFICOS	
  	
  
2.  CICLO	
  DE	
  VIDA	
  DE	
  LOS	
  DATOS	
  CIENTÍFICOS	
  
3.  PLAN	
  DE	
  GESTIÓN	
  DE	
  DATOS	
  CIENTÍFICOS	
  
4.  E-­‐INFRAESTRUCTURAS	
  
CICLO DE VIDA DE LOS DATOS
CIENTÍFICOS
1.  Diseño	
  y	
  planificación	
  de	
  la	
  creación/extracción	
  de	
  
datos	
  
2.  Creación/Extracción	
  de	
  Datos	
  
3.  Limpieza,	
  Normalización	
  y	
  Descripción	
  de	
  Datos	
  	
  
4.  Almacenamiento	
  y	
  Preservación	
  de	
  Datos	
  
5.  Exploración,	
  Explotación	
  y	
  Visualización	
  de	
  Datos	
  
6.  DataMining	
  &	
  Knowledge	
  Discovery	
  
e-INFRAESTRUCTURAS
Repositorio Interoperable de Datos
•  Datos Públicos Argentina (CKAN, OKF),
•  Zenodo (Invenio, CERN)
•  DRYAD, PLICSS, LAGOS (DSpace, MIT & HP),
•  Harvard DATAVERSE (Eprints)
Plataforma de Trabajo para Investigadores
•  OSF, HubZero, MyExperiment.org, etc.
Cluster de Almacenamiento y/o Procesamiento
PLAN DE GESTIÓN DE DATOS
Y en las bibliotecas tenemos…
¿Datos?
¿Sensores?
¿Algo más?
SemanVzar	
  los	
  datos	
  
NUEVOS	
  PERFILES	
  
CDO:	
  Chief	
  Data	
  Officer,	
  es	
  la	
  persona	
  responsable	
  de	
  toda	
  la	
  organización	
  rela8va	
  a	
  
los	
  datos,	
  desde	
  su	
  origen,	
  función,	
  tratamiento	
  o	
  propiedad.	
  No	
  debería	
  estar	
  en	
  el	
  
departamento	
  de	
  IT,	
  ni	
  reportar	
  al	
  CIO.	
  Idóneamente	
  debería	
  reportar	
  al	
  director	
  
general,	
  coordinando	
  su	
  ac8vidad	
  con	
  tecnología,	
  operaciones	
  y	
  las	
  áreas	
  de	
  negocio.	
  
	
  
Data	
  Architect:	
  Responsable	
  de	
  la	
  arquitectura	
  (funcional	
  y/o	
  técnica)	
  de	
  la	
  
infraestructura	
  y	
  modelado	
  de	
  los	
  datos.	
  También	
  de	
  diseñar	
  el	
  procesamiento	
  y	
  la	
  
integración	
  de	
  datos	
  desde	
  su	
  origen	
  hasta	
  los	
  análisis	
  finales.	
  
	
  
Data	
  Developer:	
  es	
  la	
  persona	
  encargada	
  de	
  realizar	
  el	
  procesamiento	
  de	
  los	
  datos	
  
desde	
  los	
  sistemas	
  origen	
  hasta	
  las	
  estructuras	
  de	
  análisis.	
  Debe	
  tener	
  sólidos	
  
conocimientos	
  en	
  procesamiento	
  paralelo,	
  algoritmos,	
  procesos	
  ETL,	
  modelos	
  de	
  
datos,	
  ficheros,	
  etc.	
  
	
  
Data	
  ScienVst:	
  La	
  profesión	
  del	
  futuro.	
  Es	
  el	
  encargado	
  en	
  extraer	
  el	
  conocimiento	
  de	
  
los	
  datos.	
  Para	
  ello	
  deber	
  tener	
  sólidos	
  conocimientos	
  estadís8cos,	
  poseer	
  destrezas	
  
para	
  resolver	
  problemas,	
  hacer	
  preguntas	
  y	
  explicar	
  los	
  resultados	
  obtenidos.	
  
	
  
	
  
¿y	
  el	
  Data	
  Librarian?	
  
Bibliotecari@ de Datos
Es un término ad-hoc, es la aplicación de los principios
y las prácticas tradicionales de los bibliotecarios a los
datos.
El perfil del bibliotecario de datos requiere:
•  Competencias informáticas
•  Conocimiento de la disciplina (corpus, prácticas de
investigación y flujos de trabajo)
•  Gestión de datos:
q  adquisición (desarrollo de la colección),
q  organización (catalogación y metadatos),
q  preservación y conservación a largo plazo
q  implementación de servicios adecuados para los
usuarios.
NUEVAS	
  COMPETENCIAS	
  
COMPETENCIAS
•  Estadística, Algebra y Programación
•  Tecnologías y Formatos Abiertos
•  Estrategia, Análisis y Gestión
•  Design Thinking + Canvas
•  Comunicación (oral, escrita, visual y audiovisual)
•  Diseño Centrado en el Usuario (UX)
Palabras finales…
•  Repensar	
  nuestros	
  roles	
  y	
  datos	
  con	
  crea8vidad	
  
•  Ampliar	
  y	
  afianzar	
  los	
  horizontes	
  profesionales	
  
•  Empoderar	
  al	
  inves8gador,	
  a	
  las	
  ins8tuciones,	
  al	
  
ciudadano	
  y	
  a	
  nosotros	
  mismos	
  
•  Contribuir	
  a	
  la	
  seman8zación	
  de	
  la	
  Big	
  Data	
  
	
  
•  Tim	
  Berners	
  Lee	
  “cada	
  uno	
  debe	
  hacer	
  su	
  parte”	
  	
  
…	
  como	
  Bibliotecari@s,	
  hagamos	
  nuestra	
  parte.	
  
Fernando Ariel López
fernandoariellopez@gmail.com
@fernando__lopez

Bibliotecari@s en la ‪Big Data‬

  • 2.
    Fernando  Ariel  López     @fernando__lopez  
  • 4.
  • 5.
    ¿Qué  es  Big  Data?   •  disponibilidad  de  datos   •  capacidad  para  almacenarlo   •  capacidad  para  procesarlos              —>  provenientes  de  dis8ntas  fuentes            —>  crecimiento  extraordinario                —>  disminución  de  los  costos  asociados     VOLUMEN - VARIEDAD - VELOCIDAD Algunos agregan 2 “V” más: VALOR y VERACIDAD
  • 6.
    kilobyte  (kB)   megabyte  (MB)   gigabyte  (GB)   terabyte  (TB)   petabyte  (PB)   exabyte  (EB)   zeIabyte  (ZB)   yoIabyte  (YB)   1  Exabyte  (1.099.511.627.776  MB):     equivale  a  20  veces  todos  los  libros  escritos  de   la  historia  hasta  2013,  o  a  85  veces  el  material   cultural  guardado  por  Internet  Archive.   1  YoHabyte  (1.152.921.504.606.846.976  MB):   equivale  a  1.257  iPad  3  de  máxima  capacidad   por  cada  habitante  de  la  8erra,  o  la  capacidad   del  datacenter  que  la  NSA  inaugurará  en  2013.  
  • 7.
  • 14.
    CAPAS   1. Fuentes  de  datos   2. Infraestructura   3. Aplicaciones   4. Analí8cas   5. Cross  Infraestructuras  y  Analí8cas   SEMÁNTICA:   datos  enlazados,  esquemas  de  metadatos  y  ontologías      
  • 20.
    El lado oscurode la Big Data
  • 21.
  • 22.
    CIENCIA   Polí8ca  de  Datos   Plan  de  Ges8ón  de  Datos  Cienaficos  (DMP)   Repositorios  de  Datos  Cienaficos   MEDIOS  SOCIALES   Presencia  en  la  web  social   Desarrollos  de  Productos  y  Servicios     Creación  de  COMUNIDAD   Análisis  y  Monitoreo   MAKERSPACES  en  BIBLIOTECAS   Hardware  abierto  à  SENSORES   Impresoras  3D.  Modelado  3D,  Scanner  3D.  Fresadoras   Realidad  Virtual.  Otras  tecnologías  disrup8vas   Innovación  abiertas  à  Hackathones  
  • 23.
    CIENCIA Líneas  de  Trabajo:   1.  POLÍTICA  DE  DATOS  CIENTÍFICOS     2.  CICLO  DE  VIDA  DE  LOS  DATOS  CIENTÍFICOS   3.  PLAN  DE  GESTIÓN  DE  DATOS  CIENTÍFICOS   4.  E-­‐INFRAESTRUCTURAS  
  • 24.
    CICLO DE VIDADE LOS DATOS CIENTÍFICOS 1.  Diseño  y  planificación  de  la  creación/extracción  de   datos   2.  Creación/Extracción  de  Datos   3.  Limpieza,  Normalización  y  Descripción  de  Datos     4.  Almacenamiento  y  Preservación  de  Datos   5.  Exploración,  Explotación  y  Visualización  de  Datos   6.  DataMining  &  Knowledge  Discovery  
  • 26.
    e-INFRAESTRUCTURAS Repositorio Interoperable deDatos •  Datos Públicos Argentina (CKAN, OKF), •  Zenodo (Invenio, CERN) •  DRYAD, PLICSS, LAGOS (DSpace, MIT & HP), •  Harvard DATAVERSE (Eprints) Plataforma de Trabajo para Investigadores •  OSF, HubZero, MyExperiment.org, etc. Cluster de Almacenamiento y/o Procesamiento
  • 27.
  • 28.
    Y en lasbibliotecas tenemos… ¿Datos? ¿Sensores? ¿Algo más? SemanVzar  los  datos  
  • 29.
  • 30.
    CDO:  Chief  Data  Officer,  es  la  persona  responsable  de  toda  la  organización  rela8va  a   los  datos,  desde  su  origen,  función,  tratamiento  o  propiedad.  No  debería  estar  en  el   departamento  de  IT,  ni  reportar  al  CIO.  Idóneamente  debería  reportar  al  director   general,  coordinando  su  ac8vidad  con  tecnología,  operaciones  y  las  áreas  de  negocio.     Data  Architect:  Responsable  de  la  arquitectura  (funcional  y/o  técnica)  de  la   infraestructura  y  modelado  de  los  datos.  También  de  diseñar  el  procesamiento  y  la   integración  de  datos  desde  su  origen  hasta  los  análisis  finales.     Data  Developer:  es  la  persona  encargada  de  realizar  el  procesamiento  de  los  datos   desde  los  sistemas  origen  hasta  las  estructuras  de  análisis.  Debe  tener  sólidos   conocimientos  en  procesamiento  paralelo,  algoritmos,  procesos  ETL,  modelos  de   datos,  ficheros,  etc.     Data  ScienVst:  La  profesión  del  futuro.  Es  el  encargado  en  extraer  el  conocimiento  de   los  datos.  Para  ello  deber  tener  sólidos  conocimientos  estadís8cos,  poseer  destrezas   para  resolver  problemas,  hacer  preguntas  y  explicar  los  resultados  obtenidos.       ¿y  el  Data  Librarian?  
  • 31.
    Bibliotecari@ de Datos Esun término ad-hoc, es la aplicación de los principios y las prácticas tradicionales de los bibliotecarios a los datos. El perfil del bibliotecario de datos requiere: •  Competencias informáticas •  Conocimiento de la disciplina (corpus, prácticas de investigación y flujos de trabajo) •  Gestión de datos: q  adquisición (desarrollo de la colección), q  organización (catalogación y metadatos), q  preservación y conservación a largo plazo q  implementación de servicios adecuados para los usuarios.
  • 32.
  • 33.
    COMPETENCIAS •  Estadística, Algebray Programación •  Tecnologías y Formatos Abiertos •  Estrategia, Análisis y Gestión •  Design Thinking + Canvas •  Comunicación (oral, escrita, visual y audiovisual) •  Diseño Centrado en el Usuario (UX)
  • 35.
  • 36.
    •  Repensar  nuestros  roles  y  datos  con  crea8vidad   •  Ampliar  y  afianzar  los  horizontes  profesionales   •  Empoderar  al  inves8gador,  a  las  ins8tuciones,  al   ciudadano  y  a  nosotros  mismos   •  Contribuir  a  la  seman8zación  de  la  Big  Data     •  Tim  Berners  Lee  “cada  uno  debe  hacer  su  parte”     …  como  Bibliotecari@s,  hagamos  nuestra  parte.  
  • 39.