SlideShare una empresa de Scribd logo
1 de 25
Descargar para leer sin conexión
Les estadístiques dels repositoris
cooperatius

Ricard de la Vega
Cap del Servei de Portals i Repositoris
Centre de Supercomputació de Catalunya

2n Espai CBUC d’intercanvi de coneixements i experiències
Barcelona, 30 de juny de 2010
Agenda

 Introducció
 Estadístiques de què?
 Què és una consulta?
 Mecanismes de depuració
 Grup de treball de Recolecta
 Als repositoris cooperatius
  •   Arquitectura
  •   TDX
  •   RECERCAT
  •   RACO
  •   MDX
 Conclusions
Introducció

              Quin ha estat l’article més
              consultat de la revista
              enguany?
              Quantes consultes es van
              fer al maig?
              ...
Estadístiques de què?

  Sobre ocupació
  Sobre consultes
  • Diferents vistes (mensual, anual...)
  • Segons el país d’origen de les consultes (llibreries GeoIP)
  • Rànquings
  Sobre la disponibilitat dels recursos

  Nivells?
  • Globals pel repositori
  • Per institucions
  • Per document
Què és una consulta?

  El meu document ha tingut al juny 1.250 consultes!
  Molt o poc?
  Com es comptabilitza una consulta?

  Una consulta és un accés a... què?
  •   La pàgina amb les metadades d’un document?
  •   Un download d’aquest document?
  •   I si el document està format per més d’un contingut (pdf, imatge...)?
  •   I un vídeo? es compten les reproduccions?
  •   ...

  Referències internacionals
  • COUNTER (http://www.projectcounter.org)
  • PIRUS (http://www.jisc.ac.uk/whatwedo/programmes/pals3/pirus.aspx)
Preguntes bàsiques

1. Tipus de contingut?

A PIRUS:




Als repositoris cooperatius:
   Tesis, articles, working papers, technical reports,
   imatges...
Preguntes bàsiques

1. Granularitat?

Una tesi pot constar de
diversos PDF

Un PFC pot constar d’un PDF,
una imatge, un vídeo...

...

Als repositoris cooperatius:
   Ítems continguts als repositoris, entenent per ítem un
   contingut únic identificable (ex. per handle)
Preguntes bàsiques

1. Tipus d’accessos?

Existeixen 2 indicadors bàsics:
   Nombre de vegades que es consulta la pàgina de l’ítem
   (metadades més enllaç a la descàrrega del contingut, de
   vegades se li diu “vista”)
   Nombre de vegades que es descarrega el contingut

Quan parlem de consultes, es fa referència a les vistes?, a
  les descàrregues?, a un híbrid de les dues?
  No hi ha consens, existeixen (almenys) dues possibilitats
  •   Ús dels dos indicadors
  •   Ús d’un únic indicador anomenat “consulta”
Preguntes bàsiques

Avantatges de l’ús d’un únic indicador:
   Clar i senzill per l’explotació de les dades estadístiques
   Posibilita la creació de rànquings únics
   •   Ex. Elaboració de certificats de reconeixement per les tesis més
       consultades

   A COUNTER, un item request el defineixen com el
   “number of items requested by users as a result of a
   search. User requests include viewing, downloading,
   emailing and printing of items”

   A PIRUS, un “succesfull full-text article download”
Què considerem una consulta?

1. Una consulta és un accés a un document fet a través de la
   seva pàgina de metadades o a través de la seva descàrrega
2. La descàrrega d’un document des de la seva pàgina de
   metadades no es comptabilitza com a consulta




                  1

                                                             2

                          Pàgina amb metadades
                          Identificador únic de referència
                  1

 Cercadors, enllaç directe...
“Metadades” de les estadístiques

   De la mateixa manera que és important dotar de
   metadades als documents per a que siguin cercables,
   també ho és especificar com són les estadístiques de cara
   a la seva possible explotació
Agenda

 Introducció
 Estadístiques de què?
 Què és una consulta?
 Mecanismes de depuració
 Grup de treball de Recolecta
 Als repositoris cooperatius
  •   Arquitectura
  •   TDX
  •   RECERCAT
  •   RACO
  •   MDX
 Conclusions
Estadístiques després d’impostos

   Consultes realitzades per usuaris “humans”, filtrant les
   fetes de manera automatitzada per programaris
   anomenats robots, com els indexadors dels cercadors

   Mecanismes recomanats per COUNTER:

1. Accessos vàlids, codis de retorn HTTP 200 i 304

2. Doble click, filtratge de 2 accesos a un mateix ítem des
   d’una mateixa IP separats per menys de 10 segons si és
   un HTML i 30 segons si és la descàrrega d’un PDF

3. Llista negra, filtratge de robots “coneguts”
   (http://www.projectcounter.org/r3/r3_K.doc)
Estadístiques després d’impostos

4. Cerques federades, filtratge llista ex. Z39.50
   (http://www.projectcounter.org/r3/r3_J.doc)

A més, altres mecanismes:

5. robots.txt, filtratge dinàmic dels robots que compleixen
   les bones pràctiques i consulten el fitxer robots.txt

6. IP de gestió, monitoratge i manteniment, filtratge de les
   IP del CESCA i el CBUC

7. Múltiples accessos des d’una mateixa IP, filtratge
   periòdic dels documents que apareixen als rànquings.
   Tractament manual per evitar filtratge de proxies
El document amb 1.250 consultes...

Molt o poc?
    Sabem que s’està comptabilitzant com a consulta
    Sabem que es realitza una depuració dels d’accessos

Es filtren tots els accessos “no humans”?
    No, però sabem que s’està filtrant

Molt o poc?
    I puc comparar-ho amb d’altres documents,
    veure els països des d’on es fa la consulta...

Molt o poc?
    Tot i que la resposta sempre serà subjectiva,
    es té més informació per la valoració
Agenda

 Introducció
 Estadístiques de què?
 Què és una consulta?
 Mecanismes de depuració
 Grup de treball de Recolecta
 Als repositoris cooperatius
  •   Arquitectura
  •   TDX
  •   RECERCAT
  •   RACO
  •   MDX
 Conclusions
Objectius del grup de treball de Recolecta

  Identificar/analitzar els principals projectes internacionals

  Definir un sistema d’estadístiques homogeni per a que
  les dades que s’obtinguin siguin comparables i agregables

  Identificar les necesitats dels gestors de continguts en
  quan al desenvolupament de serveis d’estadístiques

  Dissenyar serveis a desenvolupar a recolecta relacionats
  amb l’explotació/difusió de dades estadístiques
  proporcionades pels repositoris

  Realitzar una proposta i execusió d’implementació dels
  serveis dissenyats
Agenda

 Introducció
 Estadístiques de què?
 Què és una consulta?
 Mecanismes de depuració
 Grup de treball de Recolecta
 Als repositoris cooperatius
  •   Arquitectura
  •   TDX
  •   RECERCAT
  •   RACO
  •   MDX
 Conclusions
Arquitectura
Característiques

  Basats en els logs de l’Apache i el Tomcat

  Scripts per mecanismes de depuració + Base de dades
  MySQL (adaptació ETDdb, DSPace i OJS)

  Es guarden 3 indicadors: consultes, metadades, download

  S’ensenyen les consultes, i per documents, tb downloads

  Estadístiques diàries on-line mitjançant generació imatges

  Preservació dels logs
   • Per poder generar més tipus d’estadístiques (per document)
   • Per si es detecten errors en el futur
Evolució de les estadístiques

  TDX (2000)

   • 2001. Globals del repositori.

   • 2010 (desembre). Per comunitats i documents.


  RECERCAT (2005)

   • 2007. Globals del repositori.

   • 2010. Per document (part visualització, amb Tasmania).

   • 2010 (juliol). Per comunitat (part visualització, amb Tasmania).
Evolució de les estadístiques

  RACO (2006)

   • 2008. Globals del repositori.

   • 2010 (juliol). Normalització estadístiques per document.

   • 2010 (juliol). Per institució editorial.

   • 2010 (juliol). Per revista.

  MDX (2009)

   • 2010 (juliol). Estadístiques globals, per comunitats, col·leccions i
     documents.

   • Basades en Solr, les noves estadístiques del DSpace
Agenda

 Introducció
 Estadístiques de què?
 Què és una consulta?
 Mecanismes de depuració
 Grup de treball de Recolecta
 Als repositoris cooperatius
  •   Arquitectura
  •   TDX
  •   RECERCAT
  •   RACO
  •   MDX
 Conclusions
Conclusions

  Als repositoris cooperatius, es realitzen estadístiques sobre
  ocupació, consultes i disponibilitat dels recursos.

  Respecte les consultes
  • Es defineix que es considera una consulta
  • S’apliquen mesures de depuració
  • Es detalla informació a tenir en compte de cara a l’explotació


  Arquitectura basada en l’adquisició d’accessos als logs
  d’Apache i Tomcat, scripts amb les mesures de filtratge i
  emmagatzematge en BD MySQL per explotació
  • En gràfiques on-line als repositoris (API pròpia, Tasmania, etc...)
  • Memòries d’activitats, informes mensuals de gestió, etc
Les estadístiques dels repositoris cooperatius

Más contenido relacionado

Similar a Les estadístiques dels repositoris cooperatius

Organització i ús de la informació en fotografia i creació digital
Organització i ús de la informació en fotografia i creació digitalOrganització i ús de la informació en fotografia i creació digital
Organització i ús de la informació en fotografia i creació digitalBiblioteca del Campus Terrassa
 
Qüestionaris interactius i signatura
Qüestionaris interactius i signaturaQüestionaris interactius i signatura
Qüestionaris interactius i signaturaLocalret
 
Implementació de KOHA com a SIGB a la biblioteca de l'Ateneu Barcelonès
Implementació de KOHA com a SIGB a la biblioteca de l'Ateneu BarcelonèsImplementació de KOHA com a SIGB a la biblioteca de l'Ateneu Barcelonès
Implementació de KOHA com a SIGB a la biblioteca de l'Ateneu BarcelonèsSergi Montes
 
La gestió documental: el futur (és) ara!
La gestió documental: el futur (és) ara!La gestió documental: el futur (és) ara!
La gestió documental: el futur (és) ara!Jordi Serra Serra
 
Preservació i difusió de fotografies mitjançant repositoris
Preservació i difusió de fotografies mitjançant repositorisPreservació i difusió de fotografies mitjançant repositoris
Preservació i difusió de fotografies mitjançant repositorisRicard de la Vega
 
Cerca, organització i ús de la informació en sistemes automàtics i electrònic...
Cerca, organització i ús de la informació en sistemes automàtics i electrònic...Cerca, organització i ús de la informació en sistemes automàtics i electrònic...
Cerca, organització i ús de la informació en sistemes automàtics i electrònic...Biblioteca del Campus Terrassa
 

Similar a Les estadístiques dels repositoris cooperatius (20)

L’auditoria i certificació al repositori de la Universitat Autònoma de Barcel...
L’auditoria i certificació al repositori de la Universitat Autònoma de Barcel...L’auditoria i certificació al repositori de la Universitat Autònoma de Barcel...
L’auditoria i certificació al repositori de la Universitat Autònoma de Barcel...
 
o La gestió de dades de recerca (RDM) a CORA, la Catalan Open Research Area
o	La gestió de dades de recerca (RDM) a CORA, la Catalan Open Research Areao	La gestió de dades de recerca (RDM) a CORA, la Catalan Open Research Area
o La gestió de dades de recerca (RDM) a CORA, la Catalan Open Research Area
 
Organització i ús de la informació en fotografia i creació digital
Organització i ús de la informació en fotografia i creació digitalOrganització i ús de la informació en fotografia i creació digital
Organització i ús de la informació en fotografia i creació digital
 
Qüestionaris interactius i signatura
Qüestionaris interactius i signaturaQüestionaris interactius i signatura
Qüestionaris interactius i signatura
 
Formació sobre RDM: CORA.eiNa DMP i CORA.RDR
Formació sobre RDM: CORA.eiNa DMP i CORA.RDRFormació sobre RDM: CORA.eiNa DMP i CORA.RDR
Formació sobre RDM: CORA.eiNa DMP i CORA.RDR
 
Publicar dades de recerca amb el Repositori de Dades de Recerca
Publicar dades de recerca amb el Repositori de Dades de RecercaPublicar dades de recerca amb el Repositori de Dades de Recerca
Publicar dades de recerca amb el Repositori de Dades de Recerca
 
Organització i ús de la informació en multimedia
Organització i ús de la informació en multimediaOrganització i ús de la informació en multimedia
Organització i ús de la informació en multimedia
 
Els serveis del CSUC per la comunitat CCUC (els repositoris digitals)
Els serveis del CSUC per la comunitat CCUC (els repositoris digitals)Els serveis del CSUC per la comunitat CCUC (els repositoris digitals)
Els serveis del CSUC per la comunitat CCUC (els repositoris digitals)
 
El canvi de sistema de gestió bibliotecària: reptes i oportunitats La impleme...
El canvi de sistema de gestió bibliotecària: reptes i oportunitats La impleme...El canvi de sistema de gestió bibliotecària: reptes i oportunitats La impleme...
El canvi de sistema de gestió bibliotecària: reptes i oportunitats La impleme...
 
Implementació de KOHA com a SIGB a la biblioteca de l'Ateneu Barcelonès
Implementació de KOHA com a SIGB a la biblioteca de l'Ateneu BarcelonèsImplementació de KOHA com a SIGB a la biblioteca de l'Ateneu Barcelonès
Implementació de KOHA com a SIGB a la biblioteca de l'Ateneu Barcelonès
 
Vi vell en ampolles noves: el CSUC i els programes del CBUC
Vi vell en ampolles noves: el CSUC i els programes del CBUCVi vell en ampolles noves: el CSUC i els programes del CBUC
Vi vell en ampolles noves: el CSUC i els programes del CBUC
 
Biblioteca hibrida
Biblioteca hibridaBiblioteca hibrida
Biblioteca hibrida
 
Facilitar la gestió, visibilitat i reutilització de les dades de recerca en e...
Facilitar la gestió, visibilitat i reutilització de les dades de recerca en e...Facilitar la gestió, visibilitat i reutilització de les dades de recerca en e...
Facilitar la gestió, visibilitat i reutilització de les dades de recerca en e...
 
Construcció - fonts d informació
Construcció - fonts d informacióConstrucció - fonts d informació
Construcció - fonts d informació
 
La gestió documental: el futur (és) ara!
La gestió documental: el futur (és) ara!La gestió documental: el futur (és) ara!
La gestió documental: el futur (és) ara!
 
Recursos d’informació en Arquitectura, Urbanisme i Edificació
Recursos d’informació en Arquitectura, Urbanisme i EdificacióRecursos d’informació en Arquitectura, Urbanisme i Edificació
Recursos d’informació en Arquitectura, Urbanisme i Edificació
 
Preservació i difusió de fotografies mitjançant repositoris
Preservació i difusió de fotografies mitjançant repositorisPreservació i difusió de fotografies mitjançant repositoris
Preservació i difusió de fotografies mitjançant repositoris
 
Taller TIC
Taller TICTaller TIC
Taller TIC
 
Cerca, organització i ús de la informació en sistemes automàtics i electrònic...
Cerca, organització i ús de la informació en sistemes automàtics i electrònic...Cerca, organització i ús de la informació en sistemes automàtics i electrònic...
Cerca, organització i ús de la informació en sistemes automàtics i electrònic...
 
Estratègies per publicar
Estratègies per publicarEstratègies per publicar
Estratègies per publicar
 

Más de Ricard de la Vega

The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)Ricard de la Vega
 
Servicios de datos para todo el ciclode investigación
Servicios de datos para todo el ciclode investigaciónServicios de datos para todo el ciclode investigación
Servicios de datos para todo el ciclode investigaciónRicard de la Vega
 
Padicat: O archivo da web da Catalunha
Padicat: O archivo da web da CatalunhaPadicat: O archivo da web da Catalunha
Padicat: O archivo da web da CatalunhaRicard de la Vega
 
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...Ricard de la Vega
 
Proyectos cooperativos de ciencia abierta en Catalunya
Proyectos cooperativos de ciencia abierta en CatalunyaProyectos cooperativos de ciencia abierta en Catalunya
Proyectos cooperativos de ciencia abierta en CatalunyaRicard de la Vega
 
Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...Ricard de la Vega
 
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...Ricard de la Vega
 
Quatre tuits sobre metodologies àgils
Quatre tuits sobre metodologies àgilsQuatre tuits sobre metodologies àgils
Quatre tuits sobre metodologies àgilsRicard de la Vega
 
Preservaçao digital de tese e dissertaçoes
Preservaçao digital de tese e dissertaçoesPreservaçao digital de tese e dissertaçoes
Preservaçao digital de tese e dissertaçoesRicard de la Vega
 
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...Analysis of requirements and benchmarking of CRIS for the Universities of Cat...
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...Ricard de la Vega
 
Research Papers Recommender based on Digital Repositories Metadata
Research Papers Recommender based on Digital Repositories MetadataResearch Papers Recommender based on Digital Repositories Metadata
Research Papers Recommender based on Digital Repositories MetadataRicard de la Vega
 
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Ricard de la Vega
 
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)Ricard de la Vega
 
De què parlem quan parlem de serveis al núvol?
De què parlem quan parlem de serveis al núvol?De què parlem quan parlem de serveis al núvol?
De què parlem quan parlem de serveis al núvol?Ricard de la Vega
 
El Portal de la Investigación de Catalunya, una suma de información de los CR...
El Portal de la Investigación de Catalunya, una suma de información de los CR...El Portal de la Investigación de Catalunya, una suma de información de los CR...
El Portal de la Investigación de Catalunya, una suma de información de los CR...Ricard de la Vega
 
The Catalan Research portal: collecting information from Catalan universities...
The Catalan Research portal: collecting information from Catalan universities...The Catalan Research portal: collecting information from Catalan universities...
The Catalan Research portal: collecting information from Catalan universities...Ricard de la Vega
 
Let's do data research work: the creation of a portal with research informati...
Let's do data research work: the creation of a portal with research informati...Let's do data research work: the creation of a portal with research informati...
Let's do data research work: the creation of a portal with research informati...Ricard de la Vega
 

Más de Ricard de la Vega (20)

The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)The Research Portal of Catalonia: Growing more (information) & more (services)
The Research Portal of Catalonia: Growing more (information) & more (services)
 
Servicios de datos para todo el ciclode investigación
Servicios de datos para todo el ciclode investigaciónServicios de datos para todo el ciclode investigación
Servicios de datos para todo el ciclode investigación
 
Visualització de dades
Visualització de dadesVisualització de dades
Visualització de dades
 
Visualització de dades
Visualització de dadesVisualització de dades
Visualització de dades
 
Padicat: O archivo da web da Catalunha
Padicat: O archivo da web da CatalunhaPadicat: O archivo da web da Catalunha
Padicat: O archivo da web da Catalunha
 
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...
La conservació digital d'obres cinematpgràfiques: un projecte del CSUC pel Ce...
 
Proyectos cooperativos de ciencia abierta en Catalunya
Proyectos cooperativos de ciencia abierta en CatalunyaProyectos cooperativos de ciencia abierta en Catalunya
Proyectos cooperativos de ciencia abierta en Catalunya
 
Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...Requisitos funcionales para la creación de repositorios consorciados de datos...
Requisitos funcionales para la creación de repositorios consorciados de datos...
 
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...
Technical Challenges and Approaches to Build an Open Ecosystem of Heterogeneo...
 
Quatre tuits sobre metodologies àgils
Quatre tuits sobre metodologies àgilsQuatre tuits sobre metodologies àgils
Quatre tuits sobre metodologies àgils
 
Preservaçao digital de tese e dissertaçoes
Preservaçao digital de tese e dissertaçoesPreservaçao digital de tese e dissertaçoes
Preservaçao digital de tese e dissertaçoes
 
Informàtic
InformàticInformàtic
Informàtic
 
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...Analysis of requirements and benchmarking of CRIS for the Universities of Cat...
Analysis of requirements and benchmarking of CRIS for the Universities of Cat...
 
Research Papers Recommender based on Digital Repositories Metadata
Research Papers Recommender based on Digital Repositories MetadataResearch Papers Recommender based on Digital Repositories Metadata
Research Papers Recommender based on Digital Repositories Metadata
 
Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...Recomendador de artículos científicos basado en metadatos de repositorios dig...
Recomendador de artículos científicos basado en metadatos de repositorios dig...
 
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)
Preservaçao digital distribuída de um repositório de teses de doutorado (TDX)
 
De què parlem quan parlem de serveis al núvol?
De què parlem quan parlem de serveis al núvol?De què parlem quan parlem de serveis al núvol?
De què parlem quan parlem de serveis al núvol?
 
El Portal de la Investigación de Catalunya, una suma de información de los CR...
El Portal de la Investigación de Catalunya, una suma de información de los CR...El Portal de la Investigación de Catalunya, una suma de información de los CR...
El Portal de la Investigación de Catalunya, una suma de información de los CR...
 
The Catalan Research portal: collecting information from Catalan universities...
The Catalan Research portal: collecting information from Catalan universities...The Catalan Research portal: collecting information from Catalan universities...
The Catalan Research portal: collecting information from Catalan universities...
 
Let's do data research work: the creation of a portal with research informati...
Let's do data research work: the creation of a portal with research informati...Let's do data research work: the creation of a portal with research informati...
Let's do data research work: the creation of a portal with research informati...
 

Les estadístiques dels repositoris cooperatius

  • 1. Les estadístiques dels repositoris cooperatius Ricard de la Vega Cap del Servei de Portals i Repositoris Centre de Supercomputació de Catalunya 2n Espai CBUC d’intercanvi de coneixements i experiències Barcelona, 30 de juny de 2010
  • 2. Agenda Introducció Estadístiques de què? Què és una consulta? Mecanismes de depuració Grup de treball de Recolecta Als repositoris cooperatius • Arquitectura • TDX • RECERCAT • RACO • MDX Conclusions
  • 3. Introducció Quin ha estat l’article més consultat de la revista enguany? Quantes consultes es van fer al maig? ...
  • 4. Estadístiques de què? Sobre ocupació Sobre consultes • Diferents vistes (mensual, anual...) • Segons el país d’origen de les consultes (llibreries GeoIP) • Rànquings Sobre la disponibilitat dels recursos Nivells? • Globals pel repositori • Per institucions • Per document
  • 5. Què és una consulta? El meu document ha tingut al juny 1.250 consultes! Molt o poc? Com es comptabilitza una consulta? Una consulta és un accés a... què? • La pàgina amb les metadades d’un document? • Un download d’aquest document? • I si el document està format per més d’un contingut (pdf, imatge...)? • I un vídeo? es compten les reproduccions? • ... Referències internacionals • COUNTER (http://www.projectcounter.org) • PIRUS (http://www.jisc.ac.uk/whatwedo/programmes/pals3/pirus.aspx)
  • 6. Preguntes bàsiques 1. Tipus de contingut? A PIRUS: Als repositoris cooperatius: Tesis, articles, working papers, technical reports, imatges...
  • 7. Preguntes bàsiques 1. Granularitat? Una tesi pot constar de diversos PDF Un PFC pot constar d’un PDF, una imatge, un vídeo... ... Als repositoris cooperatius: Ítems continguts als repositoris, entenent per ítem un contingut únic identificable (ex. per handle)
  • 8. Preguntes bàsiques 1. Tipus d’accessos? Existeixen 2 indicadors bàsics: Nombre de vegades que es consulta la pàgina de l’ítem (metadades més enllaç a la descàrrega del contingut, de vegades se li diu “vista”) Nombre de vegades que es descarrega el contingut Quan parlem de consultes, es fa referència a les vistes?, a les descàrregues?, a un híbrid de les dues? No hi ha consens, existeixen (almenys) dues possibilitats • Ús dels dos indicadors • Ús d’un únic indicador anomenat “consulta”
  • 9. Preguntes bàsiques Avantatges de l’ús d’un únic indicador: Clar i senzill per l’explotació de les dades estadístiques Posibilita la creació de rànquings únics • Ex. Elaboració de certificats de reconeixement per les tesis més consultades A COUNTER, un item request el defineixen com el “number of items requested by users as a result of a search. User requests include viewing, downloading, emailing and printing of items” A PIRUS, un “succesfull full-text article download”
  • 10. Què considerem una consulta? 1. Una consulta és un accés a un document fet a través de la seva pàgina de metadades o a través de la seva descàrrega 2. La descàrrega d’un document des de la seva pàgina de metadades no es comptabilitza com a consulta 1 2 Pàgina amb metadades Identificador únic de referència 1 Cercadors, enllaç directe...
  • 11. “Metadades” de les estadístiques De la mateixa manera que és important dotar de metadades als documents per a que siguin cercables, també ho és especificar com són les estadístiques de cara a la seva possible explotació
  • 12. Agenda Introducció Estadístiques de què? Què és una consulta? Mecanismes de depuració Grup de treball de Recolecta Als repositoris cooperatius • Arquitectura • TDX • RECERCAT • RACO • MDX Conclusions
  • 13. Estadístiques després d’impostos Consultes realitzades per usuaris “humans”, filtrant les fetes de manera automatitzada per programaris anomenats robots, com els indexadors dels cercadors Mecanismes recomanats per COUNTER: 1. Accessos vàlids, codis de retorn HTTP 200 i 304 2. Doble click, filtratge de 2 accesos a un mateix ítem des d’una mateixa IP separats per menys de 10 segons si és un HTML i 30 segons si és la descàrrega d’un PDF 3. Llista negra, filtratge de robots “coneguts” (http://www.projectcounter.org/r3/r3_K.doc)
  • 14. Estadístiques després d’impostos 4. Cerques federades, filtratge llista ex. Z39.50 (http://www.projectcounter.org/r3/r3_J.doc) A més, altres mecanismes: 5. robots.txt, filtratge dinàmic dels robots que compleixen les bones pràctiques i consulten el fitxer robots.txt 6. IP de gestió, monitoratge i manteniment, filtratge de les IP del CESCA i el CBUC 7. Múltiples accessos des d’una mateixa IP, filtratge periòdic dels documents que apareixen als rànquings. Tractament manual per evitar filtratge de proxies
  • 15. El document amb 1.250 consultes... Molt o poc? Sabem que s’està comptabilitzant com a consulta Sabem que es realitza una depuració dels d’accessos Es filtren tots els accessos “no humans”? No, però sabem que s’està filtrant Molt o poc? I puc comparar-ho amb d’altres documents, veure els països des d’on es fa la consulta... Molt o poc? Tot i que la resposta sempre serà subjectiva, es té més informació per la valoració
  • 16. Agenda Introducció Estadístiques de què? Què és una consulta? Mecanismes de depuració Grup de treball de Recolecta Als repositoris cooperatius • Arquitectura • TDX • RECERCAT • RACO • MDX Conclusions
  • 17. Objectius del grup de treball de Recolecta Identificar/analitzar els principals projectes internacionals Definir un sistema d’estadístiques homogeni per a que les dades que s’obtinguin siguin comparables i agregables Identificar les necesitats dels gestors de continguts en quan al desenvolupament de serveis d’estadístiques Dissenyar serveis a desenvolupar a recolecta relacionats amb l’explotació/difusió de dades estadístiques proporcionades pels repositoris Realitzar una proposta i execusió d’implementació dels serveis dissenyats
  • 18. Agenda Introducció Estadístiques de què? Què és una consulta? Mecanismes de depuració Grup de treball de Recolecta Als repositoris cooperatius • Arquitectura • TDX • RECERCAT • RACO • MDX Conclusions
  • 20. Característiques Basats en els logs de l’Apache i el Tomcat Scripts per mecanismes de depuració + Base de dades MySQL (adaptació ETDdb, DSPace i OJS) Es guarden 3 indicadors: consultes, metadades, download S’ensenyen les consultes, i per documents, tb downloads Estadístiques diàries on-line mitjançant generació imatges Preservació dels logs • Per poder generar més tipus d’estadístiques (per document) • Per si es detecten errors en el futur
  • 21. Evolució de les estadístiques TDX (2000) • 2001. Globals del repositori. • 2010 (desembre). Per comunitats i documents. RECERCAT (2005) • 2007. Globals del repositori. • 2010. Per document (part visualització, amb Tasmania). • 2010 (juliol). Per comunitat (part visualització, amb Tasmania).
  • 22. Evolució de les estadístiques RACO (2006) • 2008. Globals del repositori. • 2010 (juliol). Normalització estadístiques per document. • 2010 (juliol). Per institució editorial. • 2010 (juliol). Per revista. MDX (2009) • 2010 (juliol). Estadístiques globals, per comunitats, col·leccions i documents. • Basades en Solr, les noves estadístiques del DSpace
  • 23. Agenda Introducció Estadístiques de què? Què és una consulta? Mecanismes de depuració Grup de treball de Recolecta Als repositoris cooperatius • Arquitectura • TDX • RECERCAT • RACO • MDX Conclusions
  • 24. Conclusions Als repositoris cooperatius, es realitzen estadístiques sobre ocupació, consultes i disponibilitat dels recursos. Respecte les consultes • Es defineix que es considera una consulta • S’apliquen mesures de depuració • Es detalla informació a tenir en compte de cara a l’explotació Arquitectura basada en l’adquisició d’accessos als logs d’Apache i Tomcat, scripts amb les mesures de filtratge i emmagatzematge en BD MySQL per explotació • En gràfiques on-line als repositoris (API pròpia, Tasmania, etc...) • Memòries d’activitats, informes mensuals de gestió, etc