SlideShare una empresa de Scribd logo
1 de 95
Descargar para leer sin conexión
LOGO
CONTENTS
AGENTIFICATION OF DIGITAL OBJECTS
AGENTIFICATION
INTRODUCTION
AGENTIFICATION OF DP SOCIAL NETWORKS
AGENTIFICATION OF DP SERVICES
2
REMARKS
PROPOSAL
CONTENTS
AGENTIFICATION OF DIGITAL OBJECTS
AGENTIFICATION
INTRODUCTION
AGENTIFICATION OF DP SOCIAL NETWORKS
AGENTIFICATION OF DP SERVICES
3
REMARKS
PROPOSAL
INTRODUCTION
 The challenge in preserving valuable digital information
is real and growing at an exponential pace
4
 2008: 422 Exabytes new digital
information was created
x2 every 18 months
http://www.storagenewsletter.com/news/miscellaneous/idc-digital-information-created
OBJECTIVES
 The mission of this Research is:
 Distribute the DP efforts
 Make Digital Preservation easy enough for
individuals, companies and general institutions
 Help to reduce the cost and increase the capacity of
memory institutions to preserve digital information
for the long-term
 As a first attempt, in this paper will lay the foundations for a
new object-centric DP paradigm with AGENTS
5
CONTENTS
AGENTIFICATION OF DIGITAL OBJECTS
AGENTIFICATION
INTRODUCTION
AGENTIFICATION OF DP SOCIAL NETWORKS
AGENTIFICATION OF DP SERVICES
6
REMARKS
PROPOSAL
 We will design agents that suit the needs of DP, introducing
agency properties to the DP actors
 1st  Identify actors
 2nd Agentification: Applying agency properties to the actors
AGENTIFICATION (I)
7
 Digital Objects  resilience
 Users  expertise
 Services  scalability
AGENTIFICATION (II)
 This approaches answer three questions derived from
Berman statements:
 WHEN (preserving a DO and whether is affordable) is
necessary to preserve
 HOW (the solutions of the Users) to do WHAT (the DP
Services) is necessary to be done
 Three approaches might coexist: AOUS (Agentification
of Objects, Users and Services)
8
Characteristic Digital
Object
(SPADO)
Social
network
(Users)
Services
Autonomous
Social Competitive Cooperative Coopetitive
Proactive
Mission ? ?
AGENTIFICATION (III)
9
CONTENTS
AGENTIFICATION OF DIGITAL OBJECTS
AGENTIFICATION
INTRODUCTION
AGENTIFICATION OF DP SOCIAL NETWORKS
AGENTIFICATION OF DP SERVICES
10
REMARKS
PROPOSAL
BUCKETS
 Buckets were designed to imbue information objects with
certain responsibilities such:
 The display
 Dissemination
 Protection
 Maintenance
 As SPADOs will do
Nelson M. 2001, Buckets: Smart Objects for Digital
Libraries, PhD thesis, Old Dominion Univ.
11
AGENTIFICATION OF DIGITAL OBJECTS
 Agents might encapsulate the versions they migrated to
 Their mission is to stay alive as long as possible (accessible,
authentic, readable)
 With their own budget for attracting DP know-how and services:
 SPADO (Self-Preservation Aware Digital Object)
 Preservation paradigm with three types of agents
• The digital object has the role of “caring” for itself
• The users “pay” for its preservation and provide know-how for “curate” it
• The DP services compete to “preserve” it
 Object-level preservation budget
• The more interest in this DO, the more
budget it will receive and the more
likely it will be preserved
12
SPADO
Format
Redun-
dancy
Social
Multi-
components
Budget
Mission
PRELIMINARY RESULTS
 Two evolutionary computing approaches are taken, one from
swarm intelligence and another one from genetic algorithms.
13
Swarm Intelligence (SI)
Simulations
based on
Genetic Algorithms(GA)
PRELIMINARY RESULTS
 Two evolutionary computing approaches are taken, one from
swarm intelligence and another one from genetic algorithms.
14
Swarm Intelligence (SI)
Simulations
based on
Genetic Algorithms(GA)
 Split the preservation budget
for their operations and
descendents
 Descendents might have a
same or different format
 Checksum, migration or
version charge to the budget
and being accessed by users
increase it
 When a descendant run out
of budget, it tries to go back
to its ancestors site to get
further DP budget
15
PRELIMINARY RESULTS IN SWARM
INTELLIGENCE
 Catastrophes consist in a sudden change of a ¼ or 1/3 of the sites, because
of an update in their software that provoke massive changes and migrations
in the format of the DOs that are there stored.
MEASURE
 Shannon Entropy: to know whether there is enough diversity of formats
that provide the sufficient resilience to recover back to the former state after
each catastrophe.
 Being resilient means the capacity of gaining back the lost entropy.
∑=
⋅−=
n
i
ii ppxH
1
2log)(
16
PRELIMINARY RESULTS IN SWARM
INTELLIGENCE
17
Averageentropy
Steps simulation
 The red line (execution 2) shows in average 85% of resilience
PRELIMINARY RESULTS IN SWARM
INTELLIGENCE
CATASTROPHES
 Two evolutionary computing approaches are taken, one from
swarm intelligence and another one from genetic algorithms.
18
Swarm Intelligence (SI)
Simulations
based on
Genetic Algorithms(GA)
PRELIMINARY RESULTS
 Two evolutionary computing approaches are taken, one from
swarm intelligence and another one from genetic algorithms.
19
Swarm Intelligence (SI)
Simulations
based on
Genetic Algorithms(GA)
PRELIMINARY RESULTS
20
PRELIMINARY RESULTS IN GENETIC
ALGORITHMS
 DOs genetic code is characterized by their formats
 Genetic operations:
 Mutation (random formatting changes)
 Cross (encapsulation of DO into other DO)
 It shows resilience, but is affected by the execution 1
21
Averagefitness
Generation simulation
 Instead of entropy, a fitness function is used to measure how adapted is
the population of DOs
PRELIMINARY RESULTS IN GENETIC
ALGORITHMS
CATASTROPHES
VALIDATION
22
 This is validated with a PROTOTYPE
 Designed in INGENIAS (methodology)
 Implemented in Java
CONTENTS
AGENTIFICATION OF DIGITAL OBJECTS
AGENTIFICATION
INTRODUCTION
AGENTIFICATION OF DP SOCIAL NETWORKS
AGENTIFICATION OF DP SERVICES
23
REMARKS
PROPOSAL
RESILIENCE
AGENTIFICATION OF DP SOCIAL
NETWORKS
 Most of the work that bloggers and Web sites do on the Internet
is, in fact, connecting people with other resources and people. This
is a reference function.
 Libraries are trying to integrate and assimilate this “social
networking” world.
 From this level comes the need to assign at least one agent to
every contributor or consumer, every user in the social network,
to automate a certain amount of knowledge exchange.
24
AGENTIFICATION OF DP SOCIAL
NETWORKS
 This is our aim in this approach, to provide tools to help
people developing agents and let them create a network
of agents that handle DP QAs for SPADOs.
 Results are in PROTAGE (PReservation Organizations using
Tools in AGent Environments) project
 With this approach we obtain the (DP) EXPERTISE
25
CONTENTS
AGENTIFICATION OF DIGITAL OBJECTS
AGENTIFICATION
INTRODUCTION
AGENTIFICATION OF DP SOCIAL NETWORKS
AGENTIFICATION OF DP SERVICES
26
REMARKS
PROPOSAL
RESILIENCE
EXPERTISE
AGENTIFICATION OF DP SERVICES
 According to the W3C Web Services Architecture note, a Web
Service is an abstract notion that can be implemented
by a concrete agent
 Our approach named "Shout and Act", a type of swarm
intelligence for communication and coordination of agents is
inspired by rescue robots: the files, all DOs, that need
preservation are called the “victims”.
 They COMPETE: to be the first at finding a DO with DP
needs
 They COOPERATE: when they see they cannot handle it.
27
AGENTIFICATION OF DP SERVICES
 The result is a number of agents that search a user's file
system, a site for DOs
28
Low Medium High
1
1
Heterogeneous (varying skills)
Homogeneous (combined super-skilled)
High
Medium
Low
Performance of homogeneous vs. heterogeneous agents vs. an exponential
growth of the number of digital objects. Y-axis is the qualitative average
processing effort per agent and x-axis is a qualitative order magnitude of the
number of digital objects (high = 10 times medium = 100 times low)
CONTENTS
AGENTIFICATION OF DIGITAL OBJECTS
AGENTIFICATION
INTRODUCTION
AGENTIFICATION OF DP SOCIAL NETWORKS
AGENTIFICATION OF DP SERVICES
29
REMARKS
PROPOSAL
RESILIENCE
EXPERTISE
SCALABILITY
CONTENTS
AGENTIFICATION OF DIGITAL OBJECTS
AGENTIFICATION
INTRODUCTION
AGENTIFICATION OF DP SOCIAL NETWORKS
AGENTIFICATION OF DP SERVICES
30
REMARKS
PROPOSAL
REMARKS
31
Comparison of
the AOUS appr. Objects Users Services
Scalability
Expected
to be good
Improve the
social networks
Good (if
heterogeneous
agents)
Resilience Good ?
Expected
to be Good
Optimization
of the DP budget Proved ? ?
Openness Very Good Good Still a challenge
Improves Digital
Preservation Awareness Good Very Good ?
Synergy with ? Web 3.0
Antivirus and
backup services
 The proofs of concept show that resilience under tight DP
budgets and scalability are achievable
 DP should be taken seriously as a “killer application” of agents
CONTENTS
AGENTIFICATION OF DIGITAL OBJECTS
AGENTIFICATION
INTRODUCTION
AGENTIFICATION OF DP SOCIAL NETWORKS
AGENTIFICATION OF DP SERVICES
32
REMARKS
PROPOSAL
RESEARCH PROPOSAL
 Make Digital Objects more intelligent
 Make the environment where they
work more intelligent too.
 Previous work: Buckets
33
SPADO
Social networks
Services
Nelson M. 2001, Buckets: Smart Objects for Digital
Libraries, PhD thesis, Old Dominion Univ.
LOGO
PRELIMINARY RESULTS IN SWARM
INTELLIGENCE
CATASTROPHE
Video format: 3 4Image format: 1 2
35
1
2
3
4
5
The Users
Digital
Objects
and different
formats
Users affected
by catastrophes
INTRODUCTION (III)
 In 2011, looking at what is hot on the Web and in IT development,
many scientists wonder Where are all agents?
 And we wonder how can they be applied to Digital Preservation?
 We will show three approaches to an answer to those
questions:
 Agentification of digital objects and the architecture of the
SPADO (self-preservation aware digital objects)
 Agentification of the DP social networks
 Agentification of the preservation web services
36
AGENTIFICATION OF DP SOCIAL
NETWORKS
 Most of the work that bloggers and Web sites do on the
Internet is, in fact, connecting people with other resources
and people. This is a reference function.
 Libraries are trying to integrate and assimilate this “social
networking” world.
 The changing reference world will produce new information
agents which is also a very promising and enriching trend,
especially from our approach if agents were doing the job.
37
AGENTIFICATION OF DP SOCIAL
NETWORKS
 DP questions and answers (QA) provide ways to describe
how needs are defined, how people understand them, and
how questions are answered
 Our aim is to expand social networks through the use of
agents that reduce the burden of answering repetitive
questions
 Agents should link data, agents, and people to find answers.
 Agents should encapsulate such linking information as well
as content, and they should avoid spamming
38
AGENTIFICATION OF DP SERVICES
 The teams of preservation agents comprise agents of type:
 A, whose main goal is to detect files as potential victims that need
migration actions
 B , that are fewer and slower in detecting victim than the type A
agents, though they have superior abilities to appraise and rescue
victims. They follow the shouts that type A agents emit.
 The shouts are of a magnitude that could be proportional to
the severity of the digital injuries of the victim. Shouts
disappear time after being emitted, and disperse with distance
in a metric created from file systems
39
SIMULACIÓ BASADA EN
ALGORISMES GENÈTICS (IV)
RESULTATS
 S’han fet també cinc execucions sobre dues configuracions
diferents:
 Els resultats són avaluats segons la mitjana del fitness de
tots els individus
Formats de
moda
Mida
població
Generacions
límit
Configuració 1 5;4;3;2 20 100
Configuració 2 3;5;1;4 50 500
1 2 3 4 5
Valor aleatori
1
0
1 2 3 4 5
Valor aleatori
1
0
1 2 3 4 5
Valor aleatori
1
0
1 2 3 4 5
1
0
1 2 3 4 5
Valor
aleatori
1
0
40
Format de moda  5Format de moda  4Format de moda  3Format de moda  2Format de moda  1
PRESERVACIÓ DIGITAL (II)
41
SIMULACIÓ BASADA EN
ALGORISMES GENÈTICS (III)
 Només es tenen en compte els canvis de format i, per tant, les
catàstrofes en aquest model seran els canvis del format de moda
 Els cromosomes, que representaran els objectes digitals, tenen
la següent estructura:
 La llibreria emprada per dur a terme la simulació ha estat JENES
42
REMARKS (I)
 DP should be taken seriously as a killer application of
agents.
 If all the three agentification approaches were combined,
there will result the smart DP environment necessary to
support the SPADOs activities
43
LOGO
CONTINGUTS
Disseny i implementació del prototipus
de preservació digital
Anàlisi del sistema
Introducció
Validació i resultats
Conclusions i treballs futurs
45
CONTINGUTS
Disseny i implementació del prototipus
de preservació digital
Anàlisi del sistema
Introducció
Validació i resultats
Conclusions i treballs futurs
46
MOTIVACIONS
 Està emmarcat en el projecte PRESERVA TIN-2010-
17903 (Comparative approaches to the implementation
of intelligent agents in digital preservation from a
perspective of the automation of social networks)
 L’objectiu és implementar aproximacions de
preservació digital mitjançant agents que treballen
sobre una xarxa social
47
PRESERVACIÓ DIGITAL (I)
48
 La preservació digital combina les polítiques, estratègies i
accions que garanteixin l'accés als continguts digitals al llarg
del temps
 Els fitxers poden ser fàcilment destruïts o emmagatzemats
en un format o suport que es torna obsolet
PRESERVACIÓ DIGITAL (II)
49
OBJECTIU
 L’objectiu principal és desenvolupar un prototipus de
preservació digital que:
 Permeti emular la preservació digital d’agents que representen
fitxers del nostre ordinador
 Els agents interactuïn amb un entorn simulat que representa
una xarxa social on succeeixen catàstrofes
50
ABAST
 Una anàlisi del sistema basat en algorismes d'intel·ligència
d'eixam i algorismes genètics
 Un prototipus en mode emulació
 Una proposta de transferència tecnològica
 La memòria d'aquest projecte
 Els resultats que es pretenen obtenir són:
51
CONTINGUTS
Disseny i implementació del prototipus
de preservació digital
Anàlisi del sistema
Introducció
Validació i resultats
Conclusions i treballs futurs
52
ANÀLISI DEL SISTEMA
 Les estratègies de preservació es classifiquen en dues
aproximacions:
 La preservació de l’entorn tecnològic (emulació)
 La superació de l’obsolescència dels formats de fitxers
(migració)
 El projecte PRESERVA necessita la implementació
d’algorismes de computació evolutiva
 Simularem les migracions de format amb tècniques d'intel·ligència
d’eixam i algorismes genètics per la seva aplicació en la
preservació digital
Muñoz, A. M., Lopez, J. A. & Caicedo, E. F., Inteligencia de enjambres:
sociedades para la solución de problemas (una revisión). Ingeniería e
Investigación, 2008. 28: p. 119-130.
53
SIMULACIONS REALITZADES
Intel·ligència d’eixam
(Swarm Intelligence)
Simulacions
basades en
Algorismes genètics
(Genetic Algorithms)
54
SIMULACIONS REALITZADES
Intel·ligència d’eixam
(Swarm Intelligence)
Simulacions
basades en
Algorismes genètics
(Genetic Algorithms)
55
SIMULACIÓ BASADA EN
INTEL·LIGÈNCIA D’EIXAM (I)
 L’analogia emprada és la següent:
 Objectes digitals (vídeo o imatge) ≡ formigues
 Usuaris xarxa (servei de preservació)≡ aliment
 Ordinadors xarxa ≡ hàbitats
 El programa emprat ha estat Repast-Simphony
56
SIMULACIÓ BASADA EN
INTEL·LIGÈNCIA D’EIXAM (II)
format={ }
CATÀSTROFE
Format vídeo: 3 4Format imatge: 1 2
57
1 2 3 4 5
1
2
3
4
5
Agents usuari
Objectes
Digitals
i els seus
possibles
formats
Usuaris afectats
per catàstrofe
SIMULACIÓ BASADA EN
INTEL·LIGÈNCIA D’EIXAM (III)
RESULTATS
 Entropia de Shannon: Com més alt és el valor d’entropia
preveiem millor preservabilitat  major resistència i recuperació
davant catàstrofes
∑=
⋅−=
n
i
ii ppxH
1
2log)(
∑ ∑= =








⋅−=
n
i j
jiji ppxH
1
5
1
,2, log)(
∑=
= 5
1
,
,
,
k
ki
ji
ji
f
f
p
On:
 n és el total d'objectes digitals originals
 j són els diferents formats que hi ha, que són 5
 pi,j és el percentatge que suposen les còpies de format j respecte el total de
còpies que té un objecte digital original i
 k són els diferents formats que hi ha
Adaptat als
models simulats
58
RESULTATS
 Durada:15 anys on succeeix una catàstrofe cada 5 anys
 Suposant que 3 steps ≡ 1mes, hi haurà una catàstrofe cada 180
steps i la simulació tindrà una duració de 540 steps
 S’ha executat un total de 5 vegades (estabilitat estadística)
SIMULACIÓ BASADA EN
INTEL·LIGÈNCIA D’EIXAM (IV)
Paràmetres Model 1 Model 2
Canvis de format 0,5,4;1,4,3;0,3,2 1,4,3;0,5,3;1,3,1
OD associats a un usuari inicialment entre 1 i 5 entre 1 i 5
Cost moure’s per la xarxa 2 2
Cost quedar-se quiet 1 1
Límit superior pressupost 60 60
Límit inferior pressupost 20 20
Cost allotjament en un usuari entre 1 i 10 entre 1 i 10
Servei de preservació d’un usuari 100 100
Percentatge esborrat d’usuaris 25% i 33% 25% i 33%
59
SIMULACIÓ BASADA EN
INTEL·LIGÈNCIA D’EIXAM (V)
RESULTATS
 Model 1
Esborrat del 25% d’usuaris
 Execució 2 mostra
resilence
Esborrat del 33% d’usuaris
 Execució 4, després de
la primera catàstrofe
mostra resilence
60
MitjanaentropiaMitjanaentropia
Steps simulació
Steps simulació
SIMULACIÓ BASADA EN
INTEL·LIGÈNCIA D’EIXAM (VI)
RESULTATS
 Model 2
Esborrat del 25% d’usuaris
 Resilence interessant
després de la segona
catàstrofe
Esborrat del 33% d’usuaris
 No es mostra gaire
resilence
61
Mitjanaentropia
Steps simulació
Mitjanaentropia
Steps simulació
SIMULACIONS REALITZADES
Intel·ligència d’eixam
(Swarm Intelligence)
Simulacions
basades en
Algorismes genètics
(Genetic Algorithms)
62
SIMULACIONS REALITZADES
Intel·ligència d’eixam
(Swarm Intelligence)
Simulacions
basades en
Algorismes genètics
(Genetic Algorithms)
63
SIMULACIÓ BASADA EN
ALGORISMES GENÈTICS (I)
 La població serà de mida fixa i cada individu és un
objecte digital (format imatge, vídeo, Word, PowerPoint)
 Operacions genètiques:
 Mutacions (modificacions aleatòries de format)
 Creuament (encapsular objectes digitals dins d’altres)
64
SIMULACIÓ BASADA EN
ALGORISMES GENÈTICS (II)
 La població serà de mida fixa i cada individu és un
objecte digital (format imatge, vídeo, Word, PowerPoint)
 Operacions genètiques:
 Mutacions (modificacions aleatòries de format)
 Creuament (encapsular objectes digitals dins d’altres)
65
SIMULACIÓ BASADA EN
ALGORISMES GENÈTICS (II)
 La població serà de mida fixa i cada individu és un
objecte digital (format imatge, vídeo, Word, PowerPoint)
 Operacions genètiques:
 Mutacions (modificacions aleatòries de format)
 Creuament (encapsular objectes digitals dins d’altres)
66
SIMULACIÓ BASADA EN
ALGORISMES GENÈTICS (II)
Selecció
Creuament
Mutació
Inserció
 La població serà de mida fixa i cada individu és un
objecte digital (format imatge, vídeo, Word, PowerPoint)
 Operacions genètiques:
 Mutacions (modificacions aleatòries de format)
 Creuament (encapsular objectes digitals dins d’altres)
67
SIMULACIÓ BASADA EN
ALGORISMES GENÈTICS (III)
 Només es tenen en compte els canvis de format i, per tant, les
catàstrofes en aquest model seran els canvis del format de moda
 Els cromosomes, que representaran els objectes digitals, tenen
la següent estructura:
 La llibreria emprada per dur a terme la simulació ha estat JENES
68
SIMULACIÓ BASADA EN
ALGORISMES GENÈTICS (IV)
RESULTATS
 S’han fet també cinc execucions sobre dues configuracions
diferents:
 Els resultats són avaluats segons la mitjana del fitness de
tots els individus
Formats de
moda
Mida
població
Generacions
límit
Configuració 1 5;4;3;2 20 100
Configuració 2 3;5;1;4 50 500
1 2 3 4 5
Valor aleatori
1
0
1 2 3 4 5
Valor aleatori
1
0
1 2 3 4 5
Valor aleatori
1
0
1 2 3 4 5
1
0
1 2 3 4 5
Valor
aleatori
1
0
69
Format de moda  5Format de moda  4Format de moda  3Format de moda  2Format de moda  1
SIMULACIÓ BASADA EN
ALGORISMES GENÈTICS (V)
RESULTATS
 Configuració 1:
 Mostra resilence
 Afectat per l’execució 1
70
Mitjanafitness
Generacions simulació
SIMULACIÓ BASADA EN
ALGORISMES GENÈTICS (VI)
RESULTATS
 Configuració 2:
 Millor resilence
 Mitjançant l'evolució, els objectes digitals
s'adapten als canvis de format
71
Mitjanafitness
Generacions simulació
CONCLUSIONS ANÀLISI
DEL SISTEMA
 A aquests models evolutius implementats hem trobat uns primers
indicis que corroboren la bondat per la preservació digital de:
 La còpia i la migració de format
 L'intercanvi entre amics
 El pressupost digital
 L'encapsulament d'objectes
 El model que hem estudiat de genètics és poc realitzable :
 Població fixa
 L’estructura rígida del cromosoma
 L’encapsulament limitat
 La mutació té força similitud a la còpia i migració en swarm 
descartem implementar-ho al prototipus
72
CONTINGUTS
Disseny i implementació del prototipus
de preservació digital
Anàlisi del sistema
Introducció
Validació i resultats
Conclusions i treballs futurs
73
METODOLOGIA (I)
 S’ha seguit la metodologia INGENIAS
 S’ha integrat amb la metodologia RUP (Rational Unified
Process) en les fases d’anàlisi i disseny
 L’eina emprada ha sigut INGENIAS Development Kit (IDK)
74
METODOLOGIA (II)
1
2
3
4
5
6
7 8
9
75
J. J. Gómez-Sanz. Modelado de Sistemas Multi-Agente. PhD thesis, Departamento
de Sistemas Informáticos y Programación, Universidad Complutense Madrid, 2002.
 El sistema desenvolupat es divideix en dues parts ben
diferenciades:
 La interfície d’usuari, que s’ha dissenyat orientada a
objectes
 El sistema d’emulació de preservació digital, que es concep
com un Sistema Multiagent que es basa en gestionar un
ecosistema d'SPADO (Self Preservation Aware Digital
Objects)
76
DISSENY (I)
77
DISSENY (II)
 Les pantalles principals del prototipus són:
 Selecció de fitxers
78
IMPLEMENTACIÓ (I)
 Les pantalles principals del prototipus són:
 Configuració de la xarxa social
79
IMPLEMENTACIÓ (II)
 Les pantalles principals del prototipus són:
 Configuració de paràmetres
80
IMPLEMENTACIÓ (III)
 Les pantalles principals del prototipus són:
 Inicialització de l'emulació
81
IMPLEMENTACIÓ (IV)
CONTINGUTS
Disseny i implementació del prototipus
de preservació digital
Anàlisi del sistema
Introducció
Validació i resultats
Conclusions i treballs futurs
82
VALIDACIÓ (I)
 Es comparen els resultats obtinguts amb la simulació basada en la
intel·ligència d'eixam
 S’han executat els mateixos models emprats en la simulació basada en
intel·ligència d'eixam
Paràmetres Model 1 Model 2
Canvis de format 0,5,4;1,4,3;0,3,
2
1,4,3;0,5,3;1,3,
1
OD associats a un usuari inicialment entre 1 i 5 entre 1 i 5
Cost moure’s per la xarxa 2 2
Cost quedar-se quiet 1 1
Límit superior pressupost 60 60
Límit inferior pressupost 20 20
Cost allotjament en un usuari entre 1 i 10 entre 1 i 10
Servei de preservació d’un usuari 100 100
Percentatge esborrat d’usuaris 25% i 33% 25% i 33%
83
VALIDACIÓ (II)
 Model 1
Esborrat del 33% d’usuaris
 El prototipus es torna a
comportar molt millor que la
simulació d'intel·ligència
d'eixam.
 Resilence del prototipus amb
més “força”(16 punts més
forta)
Esborrat del 25% d’usuaris
 Amb el prototip: més
còpies i amb mes diversitat
de formats del previst en les
primeres simulacions
 Resilence en les dues
primeres catàstrofes (4,9
punts més intensa)
84
Mitjanaentropia
Steps simulació
Mitjanaentropia
Steps simulació
VALIDACIÓ (III)
 Model 2
Esborrat del 25% d’usuaris
 El prototip es comporta
millor, però no mostra
gaire resilence
 Catàstrofes afecten més
al prototip
Esborrat del 33% d’usuaris
 El prototip es comporta
millor, però no mostra gaire
resilence
85
Mitjanaentropia
Steps simulació
Mitjanaentropia
Steps simulació
Requeriments Validació
Còpia i migració de format
Intercanvi entre amics
Pressupost digital
OD amb tipus (imatge, vídeo, Word, PowerPoint)
OD amb tipus concret (ex: Word 2003, 2007, etc)
Xarxa social basada en amics
OD amb referència al site “propietari”
Succeeixen catàstrofes
Valoració resultats amb entropia
Validació amb
•25% d’esborrats
•33% d’esborrats
DISCUSSIÓ SOBRE EL GRAU
D’ASSOLIMENT DEL PROTOTIPUS
86
Requeriments Validació Bonus
Còpia i migració de format
Intercanvi entre amics
Pressupost digital
OD amb tipus (imatge, vídeo, Word, PowerPoint)
OD amb tipus concret (ex: Word 2003, 2007, etc)
Xarxa social basada en amics
OD amb referència al site “propietari”
Succeeixen catàstrofes
Valoració resultats amb entropia
Validació amb
•25% d’esborrats
•33% d’esborrats
Càlcul entropia a cada step
Recompte del número d’objectes a cada step
Càlcul de nous percentatges per fer experimentació
DISCUSSIÓ SOBRE EL GRAU
D’ASSOLIMENT DEL PROTOTIPUS
87
VÍDEO DEMO PROTOTIPUS
88
NOUS EXPERIMENTS AMB EL
PROTOTIPUS (I)
ESTADÍSTICS
 Percentatge d’objectes digitals salvats. Entre el 81.91% i el
96.79% d’objectes salvats
89
NOUS EXPERIMENTS AMB EL
PROTOTIPUS (II)
ESTADÍSTICS
 Percentatge d’objectes digitals que tenen una còpia compatible
al site que corresponen. Entre el 63.59% i el 77.35%
90
CONTINGUTS
Disseny i implementació del prototipus
de preservació digital
Anàlisi del sistema
Introducció
Validació i resultats
Conclusions i treballs futurs
91
CONCLUSIONS (I)
 S'ha estudiat i realitzat un prototipus de preservació digital
basat en agents que treballen sobre una xarxa social
 En l'anàlisi s’ha fet una incursió en el món de la recerca
implementant algorismes d'intel·ligència d'eixam i algorismes
genètics aplicats a la preservació digital
 Amb els coneixements adquirits en l'anàlisi i de la metodologia
INGENIAS s’ha fet el disseny del sistema
 S’ha implementat el prototipus, un software multithread, que
redueix l'obsolescència i la desaparició dels objectes que tenim
en l'ordinador, i dóna feedback a l'usuari via interfície gràfica
 S'ha validat el prototipus i podem dir que la nostra solució
proporciona noves i interessants prestacions de preservació
mostrades amb l'entropia i comprovades per l'alt percentatge
d'objectes salvats en les emulacions realitzades
92
50%
15%
35%
CONCLUSIONS (II)
 Del treball desenvolupat en l'anàlisi s'ha enviat a:
 Olvera, J. A.(2011). An Outline of The Application of Agents to Digital
Preservation and an Introduction to Self Preservation Aware Digital
Objects (acceptat). 13th European Agent Systems Summer School
(EASSS 2011)
 Olvera, J. A. , and de la Rosa, J. L. (2011). Preliminary Study on Swarm
Intelligence and Genetic Algorithms Applied to Digital Preservation
(enviat). 14è Congrés Internacional de l'Associació Catalana
d'Intel·ligència Artificial (CCIA 2011)
 S’ha realitzat una proposta de transferència dels
algorismes desenvolupats en el prototipus (conclusions i
treballs futurs memòria)
93
TREBALL FUTUR
 Transferència a Pyramid
 Fer més experiments i comprovacions addicionals del
prototipus
 Desenvolupar els algorismes, millorant-los en robustesa i
escalabilitat
 Implementar dos versions alfa i una beta, i proves amb
usuaris beta-testers
 Validació del software
 S’ha obert una línia de recerca on hi ha nombroses
millores en la modelització i l’experimentació
 Simulació basada en la intel·ligència d’eixam
 Simulació basada en algorismes genètics
94
LOGO

Más contenido relacionado

Similar a ARlab RESEARCH | Digital Preservation

Otem2000 slideshare 01_projecte_ciutats_sostenibles__catalan_rev0
Otem2000 slideshare 01_projecte_ciutats_sostenibles__catalan_rev0Otem2000 slideshare 01_projecte_ciutats_sostenibles__catalan_rev0
Otem2000 slideshare 01_projecte_ciutats_sostenibles__catalan_rev0
OTEM2000_eva
 
32a sessió web: 'Estratègia tecnològica per a un govern obert'
32a sessió web: 'Estratègia tecnològica per a un govern obert'32a sessió web: 'Estratègia tecnològica per a un govern obert'
32a sessió web: 'Estratègia tecnològica per a un govern obert'
gencat .
 
CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...
CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...
CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...
Congrés Govern Digital
 

Similar a ARlab RESEARCH | Digital Preservation (20)

CGDL2018 - Sessió: "myGov: co-creació d’una solució digital amb la ciutadania"
CGDL2018 - Sessió: "myGov: co-creació d’una solució digital amb la ciutadania"CGDL2018 - Sessió: "myGov: co-creació d’una solució digital amb la ciutadania"
CGDL2018 - Sessió: "myGov: co-creació d’una solució digital amb la ciutadania"
 
Web20
Web20Web20
Web20
 
Carles Sans - Bdigital
Carles Sans - BdigitalCarles Sans - Bdigital
Carles Sans - Bdigital
 
Què son els nous mitjans?
Què son els nous mitjans?Què son els nous mitjans?
Què son els nous mitjans?
 
Dissenyar i aplicar projectes a Secundària. Tipus i estratègies
Dissenyar i aplicar projectes a Secundària. Tipus i estratègiesDissenyar i aplicar projectes a Secundària. Tipus i estratègies
Dissenyar i aplicar projectes a Secundària. Tipus i estratègies
 
CGD2019 - Sessió: "Oportunitats Cloud per a la màxima privacitat de dades en ...
CGD2019 - Sessió: "Oportunitats Cloud per a la màxima privacitat de dades en ...CGD2019 - Sessió: "Oportunitats Cloud per a la màxima privacitat de dades en ...
CGD2019 - Sessió: "Oportunitats Cloud per a la màxima privacitat de dades en ...
 
PAC1 - Fonaments de la Multimèdia
PAC1 - Fonaments de la MultimèdiaPAC1 - Fonaments de la Multimèdia
PAC1 - Fonaments de la Multimèdia
 
Otem2000 slideshare 01_projecte_ciutats_sostenibles__catalan_rev0
Otem2000 slideshare 01_projecte_ciutats_sostenibles__catalan_rev0Otem2000 slideshare 01_projecte_ciutats_sostenibles__catalan_rev0
Otem2000 slideshare 01_projecte_ciutats_sostenibles__catalan_rev0
 
32a sessió web: 'Estratègia tecnològica per a un govern obert'
32a sessió web: 'Estratègia tecnològica per a un govern obert'32a sessió web: 'Estratègia tecnològica per a un govern obert'
32a sessió web: 'Estratègia tecnològica per a un govern obert'
 
Barcelona Activa - Curs 2.4. Institucions Intel·ligents
Barcelona Activa - Curs 2.4. Institucions Intel·ligents Barcelona Activa - Curs 2.4. Institucions Intel·ligents
Barcelona Activa - Curs 2.4. Institucions Intel·ligents
 
10 Sessions Web (2005 2007)
10 Sessions Web (2005 2007)10 Sessions Web (2005 2007)
10 Sessions Web (2005 2007)
 
Grup eix transversal
Grup eix transversalGrup eix transversal
Grup eix transversal
 
Curs estiu 2011 v2.0
Curs estiu 2011 v2.0Curs estiu 2011 v2.0
Curs estiu 2011 v2.0
 
La plataforma de recursos de geoinformació (PRG) - Jordi Guimet
La plataforma de recursos de geoinformació (PRG) - Jordi GuimetLa plataforma de recursos de geoinformació (PRG) - Jordi Guimet
La plataforma de recursos de geoinformació (PRG) - Jordi Guimet
 
Aplicacions i eines per a l'explotació dels recursos IDEC
Aplicacions i eines per a l'explotació dels recursos IDECAplicacions i eines per a l'explotació dels recursos IDEC
Aplicacions i eines per a l'explotació dels recursos IDEC
 
Coul
CoulCoul
Coul
 
Coul
CoulCoul
Coul
 
Competències digitals bàsiques per a trobar feina
Competències digitals bàsiques per a trobar feinaCompetències digitals bàsiques per a trobar feina
Competències digitals bàsiques per a trobar feina
 
CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...
CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...
CGd2021 - "Cap a una organització basada en dades. Primers aprenentatges a co...
 
Catàleg Projecte AlfaDigital 2011-12
Catàleg Projecte AlfaDigital 2011-12Catàleg Projecte AlfaDigital 2011-12
Catàleg Projecte AlfaDigital 2011-12
 

Más de TECNIO Centre EASY & Smart Cities Master

Más de TECNIO Centre EASY & Smart Cities Master (20)

DPFManager workshop
DPFManager workshopDPFManager workshop
DPFManager workshop
 
[Dpf manager] berlin workshop
[Dpf manager] berlin workshop[Dpf manager] berlin workshop
[Dpf manager] berlin workshop
 
A smart way to solve potential floods due to climate change
A smart way to solve potential floods due to climate change A smart way to solve potential floods due to climate change
A smart way to solve potential floods due to climate change
 
Smart Spaanse Polder: Social, environmental and mobility solutions
Smart Spaanse Polder: Social, environmental and mobility solutions Smart Spaanse Polder: Social, environmental and mobility solutions
Smart Spaanse Polder: Social, environmental and mobility solutions
 
Smart waste management in Schiedam
Smart waste management in SchiedamSmart waste management in Schiedam
Smart waste management in Schiedam
 
Schiedam, an economy in development: Proposals for converting Schiedam in a s...
Schiedam, an economy in development: Proposals for converting Schiedam in a s...Schiedam, an economy in development: Proposals for converting Schiedam in a s...
Schiedam, an economy in development: Proposals for converting Schiedam in a s...
 
Schiedam sharing data
Schiedam sharing dataSchiedam sharing data
Schiedam sharing data
 
Schiedam center
Schiedam centerSchiedam center
Schiedam center
 
A smart way to solve potential floods due to climate change
A smart way to solve potential floods due to climate change A smart way to solve potential floods due to climate change
A smart way to solve potential floods due to climate change
 
Schiedam center
Schiedam center Schiedam center
Schiedam center
 
Smart parking management
Smart parking managementSmart parking management
Smart parking management
 
Greener and engaged people for Schiedam
Greener and engaged people for SchiedamGreener and engaged people for Schiedam
Greener and engaged people for Schiedam
 
Biz Line - Centre Easy 2015
Biz Line - Centre Easy 2015Biz Line - Centre Easy 2015
Biz Line - Centre Easy 2015
 
PREFORMA PROJECT- DPF MANAGER
PREFORMA PROJECT- DPF MANAGERPREFORMA PROJECT- DPF MANAGER
PREFORMA PROJECT- DPF MANAGER
 
Research Line - Centre Easy 2015
Research Line - Centre Easy 2015Research Line - Centre Easy 2015
Research Line - Centre Easy 2015
 
We are Centre Easy!
We are Centre Easy!We are Centre Easy!
We are Centre Easy!
 
Visualad uses visual intelligence and introduce social currencies.
Visualad uses visual intelligence and introduce social currencies.Visualad uses visual intelligence and introduce social currencies.
Visualad uses visual intelligence and introduce social currencies.
 
Who we are, what we do for KTU project in Austria
Who we are, what we do for KTU project in AustriaWho we are, what we do for KTU project in Austria
Who we are, what we do for KTU project in Austria
 
ARLab | Historia del grupo de investigación
ARLab | Historia del grupo de investigaciónARLab | Historia del grupo de investigación
ARLab | Historia del grupo de investigación
 
Universitat de Girona' RESEARCH | Collaborative learning
Universitat de Girona' RESEARCH | Collaborative learningUniversitat de Girona' RESEARCH | Collaborative learning
Universitat de Girona' RESEARCH | Collaborative learning
 

ARlab RESEARCH | Digital Preservation

  • 2. CONTENTS AGENTIFICATION OF DIGITAL OBJECTS AGENTIFICATION INTRODUCTION AGENTIFICATION OF DP SOCIAL NETWORKS AGENTIFICATION OF DP SERVICES 2 REMARKS PROPOSAL
  • 3. CONTENTS AGENTIFICATION OF DIGITAL OBJECTS AGENTIFICATION INTRODUCTION AGENTIFICATION OF DP SOCIAL NETWORKS AGENTIFICATION OF DP SERVICES 3 REMARKS PROPOSAL
  • 4. INTRODUCTION  The challenge in preserving valuable digital information is real and growing at an exponential pace 4  2008: 422 Exabytes new digital information was created x2 every 18 months http://www.storagenewsletter.com/news/miscellaneous/idc-digital-information-created
  • 5. OBJECTIVES  The mission of this Research is:  Distribute the DP efforts  Make Digital Preservation easy enough for individuals, companies and general institutions  Help to reduce the cost and increase the capacity of memory institutions to preserve digital information for the long-term  As a first attempt, in this paper will lay the foundations for a new object-centric DP paradigm with AGENTS 5
  • 6. CONTENTS AGENTIFICATION OF DIGITAL OBJECTS AGENTIFICATION INTRODUCTION AGENTIFICATION OF DP SOCIAL NETWORKS AGENTIFICATION OF DP SERVICES 6 REMARKS PROPOSAL
  • 7.  We will design agents that suit the needs of DP, introducing agency properties to the DP actors  1st  Identify actors  2nd Agentification: Applying agency properties to the actors AGENTIFICATION (I) 7  Digital Objects  resilience  Users  expertise  Services  scalability
  • 8. AGENTIFICATION (II)  This approaches answer three questions derived from Berman statements:  WHEN (preserving a DO and whether is affordable) is necessary to preserve  HOW (the solutions of the Users) to do WHAT (the DP Services) is necessary to be done  Three approaches might coexist: AOUS (Agentification of Objects, Users and Services) 8
  • 9. Characteristic Digital Object (SPADO) Social network (Users) Services Autonomous Social Competitive Cooperative Coopetitive Proactive Mission ? ? AGENTIFICATION (III) 9
  • 10. CONTENTS AGENTIFICATION OF DIGITAL OBJECTS AGENTIFICATION INTRODUCTION AGENTIFICATION OF DP SOCIAL NETWORKS AGENTIFICATION OF DP SERVICES 10 REMARKS PROPOSAL
  • 11. BUCKETS  Buckets were designed to imbue information objects with certain responsibilities such:  The display  Dissemination  Protection  Maintenance  As SPADOs will do Nelson M. 2001, Buckets: Smart Objects for Digital Libraries, PhD thesis, Old Dominion Univ. 11
  • 12. AGENTIFICATION OF DIGITAL OBJECTS  Agents might encapsulate the versions they migrated to  Their mission is to stay alive as long as possible (accessible, authentic, readable)  With their own budget for attracting DP know-how and services:  SPADO (Self-Preservation Aware Digital Object)  Preservation paradigm with three types of agents • The digital object has the role of “caring” for itself • The users “pay” for its preservation and provide know-how for “curate” it • The DP services compete to “preserve” it  Object-level preservation budget • The more interest in this DO, the more budget it will receive and the more likely it will be preserved 12 SPADO Format Redun- dancy Social Multi- components Budget Mission
  • 13. PRELIMINARY RESULTS  Two evolutionary computing approaches are taken, one from swarm intelligence and another one from genetic algorithms. 13 Swarm Intelligence (SI) Simulations based on Genetic Algorithms(GA)
  • 14. PRELIMINARY RESULTS  Two evolutionary computing approaches are taken, one from swarm intelligence and another one from genetic algorithms. 14 Swarm Intelligence (SI) Simulations based on Genetic Algorithms(GA)
  • 15.  Split the preservation budget for their operations and descendents  Descendents might have a same or different format  Checksum, migration or version charge to the budget and being accessed by users increase it  When a descendant run out of budget, it tries to go back to its ancestors site to get further DP budget 15 PRELIMINARY RESULTS IN SWARM INTELLIGENCE
  • 16.  Catastrophes consist in a sudden change of a ¼ or 1/3 of the sites, because of an update in their software that provoke massive changes and migrations in the format of the DOs that are there stored. MEASURE  Shannon Entropy: to know whether there is enough diversity of formats that provide the sufficient resilience to recover back to the former state after each catastrophe.  Being resilient means the capacity of gaining back the lost entropy. ∑= ⋅−= n i ii ppxH 1 2log)( 16 PRELIMINARY RESULTS IN SWARM INTELLIGENCE
  • 17. 17 Averageentropy Steps simulation  The red line (execution 2) shows in average 85% of resilience PRELIMINARY RESULTS IN SWARM INTELLIGENCE CATASTROPHES
  • 18.  Two evolutionary computing approaches are taken, one from swarm intelligence and another one from genetic algorithms. 18 Swarm Intelligence (SI) Simulations based on Genetic Algorithms(GA) PRELIMINARY RESULTS
  • 19.  Two evolutionary computing approaches are taken, one from swarm intelligence and another one from genetic algorithms. 19 Swarm Intelligence (SI) Simulations based on Genetic Algorithms(GA) PRELIMINARY RESULTS
  • 20. 20 PRELIMINARY RESULTS IN GENETIC ALGORITHMS  DOs genetic code is characterized by their formats  Genetic operations:  Mutation (random formatting changes)  Cross (encapsulation of DO into other DO)
  • 21.  It shows resilience, but is affected by the execution 1 21 Averagefitness Generation simulation  Instead of entropy, a fitness function is used to measure how adapted is the population of DOs PRELIMINARY RESULTS IN GENETIC ALGORITHMS CATASTROPHES
  • 22. VALIDATION 22  This is validated with a PROTOTYPE  Designed in INGENIAS (methodology)  Implemented in Java
  • 23. CONTENTS AGENTIFICATION OF DIGITAL OBJECTS AGENTIFICATION INTRODUCTION AGENTIFICATION OF DP SOCIAL NETWORKS AGENTIFICATION OF DP SERVICES 23 REMARKS PROPOSAL RESILIENCE
  • 24. AGENTIFICATION OF DP SOCIAL NETWORKS  Most of the work that bloggers and Web sites do on the Internet is, in fact, connecting people with other resources and people. This is a reference function.  Libraries are trying to integrate and assimilate this “social networking” world.  From this level comes the need to assign at least one agent to every contributor or consumer, every user in the social network, to automate a certain amount of knowledge exchange. 24
  • 25. AGENTIFICATION OF DP SOCIAL NETWORKS  This is our aim in this approach, to provide tools to help people developing agents and let them create a network of agents that handle DP QAs for SPADOs.  Results are in PROTAGE (PReservation Organizations using Tools in AGent Environments) project  With this approach we obtain the (DP) EXPERTISE 25
  • 26. CONTENTS AGENTIFICATION OF DIGITAL OBJECTS AGENTIFICATION INTRODUCTION AGENTIFICATION OF DP SOCIAL NETWORKS AGENTIFICATION OF DP SERVICES 26 REMARKS PROPOSAL RESILIENCE EXPERTISE
  • 27. AGENTIFICATION OF DP SERVICES  According to the W3C Web Services Architecture note, a Web Service is an abstract notion that can be implemented by a concrete agent  Our approach named "Shout and Act", a type of swarm intelligence for communication and coordination of agents is inspired by rescue robots: the files, all DOs, that need preservation are called the “victims”.  They COMPETE: to be the first at finding a DO with DP needs  They COOPERATE: when they see they cannot handle it. 27
  • 28. AGENTIFICATION OF DP SERVICES  The result is a number of agents that search a user's file system, a site for DOs 28 Low Medium High 1 1 Heterogeneous (varying skills) Homogeneous (combined super-skilled) High Medium Low Performance of homogeneous vs. heterogeneous agents vs. an exponential growth of the number of digital objects. Y-axis is the qualitative average processing effort per agent and x-axis is a qualitative order magnitude of the number of digital objects (high = 10 times medium = 100 times low)
  • 29. CONTENTS AGENTIFICATION OF DIGITAL OBJECTS AGENTIFICATION INTRODUCTION AGENTIFICATION OF DP SOCIAL NETWORKS AGENTIFICATION OF DP SERVICES 29 REMARKS PROPOSAL RESILIENCE EXPERTISE SCALABILITY
  • 30. CONTENTS AGENTIFICATION OF DIGITAL OBJECTS AGENTIFICATION INTRODUCTION AGENTIFICATION OF DP SOCIAL NETWORKS AGENTIFICATION OF DP SERVICES 30 REMARKS PROPOSAL
  • 31. REMARKS 31 Comparison of the AOUS appr. Objects Users Services Scalability Expected to be good Improve the social networks Good (if heterogeneous agents) Resilience Good ? Expected to be Good Optimization of the DP budget Proved ? ? Openness Very Good Good Still a challenge Improves Digital Preservation Awareness Good Very Good ? Synergy with ? Web 3.0 Antivirus and backup services  The proofs of concept show that resilience under tight DP budgets and scalability are achievable  DP should be taken seriously as a “killer application” of agents
  • 32. CONTENTS AGENTIFICATION OF DIGITAL OBJECTS AGENTIFICATION INTRODUCTION AGENTIFICATION OF DP SOCIAL NETWORKS AGENTIFICATION OF DP SERVICES 32 REMARKS PROPOSAL
  • 33. RESEARCH PROPOSAL  Make Digital Objects more intelligent  Make the environment where they work more intelligent too.  Previous work: Buckets 33 SPADO Social networks Services Nelson M. 2001, Buckets: Smart Objects for Digital Libraries, PhD thesis, Old Dominion Univ.
  • 34. LOGO
  • 35. PRELIMINARY RESULTS IN SWARM INTELLIGENCE CATASTROPHE Video format: 3 4Image format: 1 2 35 1 2 3 4 5 The Users Digital Objects and different formats Users affected by catastrophes
  • 36. INTRODUCTION (III)  In 2011, looking at what is hot on the Web and in IT development, many scientists wonder Where are all agents?  And we wonder how can they be applied to Digital Preservation?  We will show three approaches to an answer to those questions:  Agentification of digital objects and the architecture of the SPADO (self-preservation aware digital objects)  Agentification of the DP social networks  Agentification of the preservation web services 36
  • 37. AGENTIFICATION OF DP SOCIAL NETWORKS  Most of the work that bloggers and Web sites do on the Internet is, in fact, connecting people with other resources and people. This is a reference function.  Libraries are trying to integrate and assimilate this “social networking” world.  The changing reference world will produce new information agents which is also a very promising and enriching trend, especially from our approach if agents were doing the job. 37
  • 38. AGENTIFICATION OF DP SOCIAL NETWORKS  DP questions and answers (QA) provide ways to describe how needs are defined, how people understand them, and how questions are answered  Our aim is to expand social networks through the use of agents that reduce the burden of answering repetitive questions  Agents should link data, agents, and people to find answers.  Agents should encapsulate such linking information as well as content, and they should avoid spamming 38
  • 39. AGENTIFICATION OF DP SERVICES  The teams of preservation agents comprise agents of type:  A, whose main goal is to detect files as potential victims that need migration actions  B , that are fewer and slower in detecting victim than the type A agents, though they have superior abilities to appraise and rescue victims. They follow the shouts that type A agents emit.  The shouts are of a magnitude that could be proportional to the severity of the digital injuries of the victim. Shouts disappear time after being emitted, and disperse with distance in a metric created from file systems 39
  • 40. SIMULACIÓ BASADA EN ALGORISMES GENÈTICS (IV) RESULTATS  S’han fet també cinc execucions sobre dues configuracions diferents:  Els resultats són avaluats segons la mitjana del fitness de tots els individus Formats de moda Mida població Generacions límit Configuració 1 5;4;3;2 20 100 Configuració 2 3;5;1;4 50 500 1 2 3 4 5 Valor aleatori 1 0 1 2 3 4 5 Valor aleatori 1 0 1 2 3 4 5 Valor aleatori 1 0 1 2 3 4 5 1 0 1 2 3 4 5 Valor aleatori 1 0 40 Format de moda  5Format de moda  4Format de moda  3Format de moda  2Format de moda  1
  • 42. SIMULACIÓ BASADA EN ALGORISMES GENÈTICS (III)  Només es tenen en compte els canvis de format i, per tant, les catàstrofes en aquest model seran els canvis del format de moda  Els cromosomes, que representaran els objectes digitals, tenen la següent estructura:  La llibreria emprada per dur a terme la simulació ha estat JENES 42
  • 43. REMARKS (I)  DP should be taken seriously as a killer application of agents.  If all the three agentification approaches were combined, there will result the smart DP environment necessary to support the SPADOs activities 43
  • 44. LOGO
  • 45. CONTINGUTS Disseny i implementació del prototipus de preservació digital Anàlisi del sistema Introducció Validació i resultats Conclusions i treballs futurs 45
  • 46. CONTINGUTS Disseny i implementació del prototipus de preservació digital Anàlisi del sistema Introducció Validació i resultats Conclusions i treballs futurs 46
  • 47. MOTIVACIONS  Està emmarcat en el projecte PRESERVA TIN-2010- 17903 (Comparative approaches to the implementation of intelligent agents in digital preservation from a perspective of the automation of social networks)  L’objectiu és implementar aproximacions de preservació digital mitjançant agents que treballen sobre una xarxa social 47
  • 48. PRESERVACIÓ DIGITAL (I) 48  La preservació digital combina les polítiques, estratègies i accions que garanteixin l'accés als continguts digitals al llarg del temps  Els fitxers poden ser fàcilment destruïts o emmagatzemats en un format o suport que es torna obsolet
  • 50. OBJECTIU  L’objectiu principal és desenvolupar un prototipus de preservació digital que:  Permeti emular la preservació digital d’agents que representen fitxers del nostre ordinador  Els agents interactuïn amb un entorn simulat que representa una xarxa social on succeeixen catàstrofes 50
  • 51. ABAST  Una anàlisi del sistema basat en algorismes d'intel·ligència d'eixam i algorismes genètics  Un prototipus en mode emulació  Una proposta de transferència tecnològica  La memòria d'aquest projecte  Els resultats que es pretenen obtenir són: 51
  • 52. CONTINGUTS Disseny i implementació del prototipus de preservació digital Anàlisi del sistema Introducció Validació i resultats Conclusions i treballs futurs 52
  • 53. ANÀLISI DEL SISTEMA  Les estratègies de preservació es classifiquen en dues aproximacions:  La preservació de l’entorn tecnològic (emulació)  La superació de l’obsolescència dels formats de fitxers (migració)  El projecte PRESERVA necessita la implementació d’algorismes de computació evolutiva  Simularem les migracions de format amb tècniques d'intel·ligència d’eixam i algorismes genètics per la seva aplicació en la preservació digital Muñoz, A. M., Lopez, J. A. & Caicedo, E. F., Inteligencia de enjambres: sociedades para la solución de problemas (una revisión). Ingeniería e Investigación, 2008. 28: p. 119-130. 53
  • 54. SIMULACIONS REALITZADES Intel·ligència d’eixam (Swarm Intelligence) Simulacions basades en Algorismes genètics (Genetic Algorithms) 54
  • 55. SIMULACIONS REALITZADES Intel·ligència d’eixam (Swarm Intelligence) Simulacions basades en Algorismes genètics (Genetic Algorithms) 55
  • 56. SIMULACIÓ BASADA EN INTEL·LIGÈNCIA D’EIXAM (I)  L’analogia emprada és la següent:  Objectes digitals (vídeo o imatge) ≡ formigues  Usuaris xarxa (servei de preservació)≡ aliment  Ordinadors xarxa ≡ hàbitats  El programa emprat ha estat Repast-Simphony 56
  • 57. SIMULACIÓ BASADA EN INTEL·LIGÈNCIA D’EIXAM (II) format={ } CATÀSTROFE Format vídeo: 3 4Format imatge: 1 2 57 1 2 3 4 5 1 2 3 4 5 Agents usuari Objectes Digitals i els seus possibles formats Usuaris afectats per catàstrofe
  • 58. SIMULACIÓ BASADA EN INTEL·LIGÈNCIA D’EIXAM (III) RESULTATS  Entropia de Shannon: Com més alt és el valor d’entropia preveiem millor preservabilitat  major resistència i recuperació davant catàstrofes ∑= ⋅−= n i ii ppxH 1 2log)( ∑ ∑= =         ⋅−= n i j jiji ppxH 1 5 1 ,2, log)( ∑= = 5 1 , , , k ki ji ji f f p On:  n és el total d'objectes digitals originals  j són els diferents formats que hi ha, que són 5  pi,j és el percentatge que suposen les còpies de format j respecte el total de còpies que té un objecte digital original i  k són els diferents formats que hi ha Adaptat als models simulats 58
  • 59. RESULTATS  Durada:15 anys on succeeix una catàstrofe cada 5 anys  Suposant que 3 steps ≡ 1mes, hi haurà una catàstrofe cada 180 steps i la simulació tindrà una duració de 540 steps  S’ha executat un total de 5 vegades (estabilitat estadística) SIMULACIÓ BASADA EN INTEL·LIGÈNCIA D’EIXAM (IV) Paràmetres Model 1 Model 2 Canvis de format 0,5,4;1,4,3;0,3,2 1,4,3;0,5,3;1,3,1 OD associats a un usuari inicialment entre 1 i 5 entre 1 i 5 Cost moure’s per la xarxa 2 2 Cost quedar-se quiet 1 1 Límit superior pressupost 60 60 Límit inferior pressupost 20 20 Cost allotjament en un usuari entre 1 i 10 entre 1 i 10 Servei de preservació d’un usuari 100 100 Percentatge esborrat d’usuaris 25% i 33% 25% i 33% 59
  • 60. SIMULACIÓ BASADA EN INTEL·LIGÈNCIA D’EIXAM (V) RESULTATS  Model 1 Esborrat del 25% d’usuaris  Execució 2 mostra resilence Esborrat del 33% d’usuaris  Execució 4, després de la primera catàstrofe mostra resilence 60 MitjanaentropiaMitjanaentropia Steps simulació Steps simulació
  • 61. SIMULACIÓ BASADA EN INTEL·LIGÈNCIA D’EIXAM (VI) RESULTATS  Model 2 Esborrat del 25% d’usuaris  Resilence interessant després de la segona catàstrofe Esborrat del 33% d’usuaris  No es mostra gaire resilence 61 Mitjanaentropia Steps simulació Mitjanaentropia Steps simulació
  • 62. SIMULACIONS REALITZADES Intel·ligència d’eixam (Swarm Intelligence) Simulacions basades en Algorismes genètics (Genetic Algorithms) 62
  • 63. SIMULACIONS REALITZADES Intel·ligència d’eixam (Swarm Intelligence) Simulacions basades en Algorismes genètics (Genetic Algorithms) 63
  • 64. SIMULACIÓ BASADA EN ALGORISMES GENÈTICS (I)  La població serà de mida fixa i cada individu és un objecte digital (format imatge, vídeo, Word, PowerPoint)  Operacions genètiques:  Mutacions (modificacions aleatòries de format)  Creuament (encapsular objectes digitals dins d’altres) 64
  • 65. SIMULACIÓ BASADA EN ALGORISMES GENÈTICS (II)  La població serà de mida fixa i cada individu és un objecte digital (format imatge, vídeo, Word, PowerPoint)  Operacions genètiques:  Mutacions (modificacions aleatòries de format)  Creuament (encapsular objectes digitals dins d’altres) 65
  • 66. SIMULACIÓ BASADA EN ALGORISMES GENÈTICS (II)  La població serà de mida fixa i cada individu és un objecte digital (format imatge, vídeo, Word, PowerPoint)  Operacions genètiques:  Mutacions (modificacions aleatòries de format)  Creuament (encapsular objectes digitals dins d’altres) 66
  • 67. SIMULACIÓ BASADA EN ALGORISMES GENÈTICS (II) Selecció Creuament Mutació Inserció  La població serà de mida fixa i cada individu és un objecte digital (format imatge, vídeo, Word, PowerPoint)  Operacions genètiques:  Mutacions (modificacions aleatòries de format)  Creuament (encapsular objectes digitals dins d’altres) 67
  • 68. SIMULACIÓ BASADA EN ALGORISMES GENÈTICS (III)  Només es tenen en compte els canvis de format i, per tant, les catàstrofes en aquest model seran els canvis del format de moda  Els cromosomes, que representaran els objectes digitals, tenen la següent estructura:  La llibreria emprada per dur a terme la simulació ha estat JENES 68
  • 69. SIMULACIÓ BASADA EN ALGORISMES GENÈTICS (IV) RESULTATS  S’han fet també cinc execucions sobre dues configuracions diferents:  Els resultats són avaluats segons la mitjana del fitness de tots els individus Formats de moda Mida població Generacions límit Configuració 1 5;4;3;2 20 100 Configuració 2 3;5;1;4 50 500 1 2 3 4 5 Valor aleatori 1 0 1 2 3 4 5 Valor aleatori 1 0 1 2 3 4 5 Valor aleatori 1 0 1 2 3 4 5 1 0 1 2 3 4 5 Valor aleatori 1 0 69 Format de moda  5Format de moda  4Format de moda  3Format de moda  2Format de moda  1
  • 70. SIMULACIÓ BASADA EN ALGORISMES GENÈTICS (V) RESULTATS  Configuració 1:  Mostra resilence  Afectat per l’execució 1 70 Mitjanafitness Generacions simulació
  • 71. SIMULACIÓ BASADA EN ALGORISMES GENÈTICS (VI) RESULTATS  Configuració 2:  Millor resilence  Mitjançant l'evolució, els objectes digitals s'adapten als canvis de format 71 Mitjanafitness Generacions simulació
  • 72. CONCLUSIONS ANÀLISI DEL SISTEMA  A aquests models evolutius implementats hem trobat uns primers indicis que corroboren la bondat per la preservació digital de:  La còpia i la migració de format  L'intercanvi entre amics  El pressupost digital  L'encapsulament d'objectes  El model que hem estudiat de genètics és poc realitzable :  Població fixa  L’estructura rígida del cromosoma  L’encapsulament limitat  La mutació té força similitud a la còpia i migració en swarm  descartem implementar-ho al prototipus 72
  • 73. CONTINGUTS Disseny i implementació del prototipus de preservació digital Anàlisi del sistema Introducció Validació i resultats Conclusions i treballs futurs 73
  • 74. METODOLOGIA (I)  S’ha seguit la metodologia INGENIAS  S’ha integrat amb la metodologia RUP (Rational Unified Process) en les fases d’anàlisi i disseny  L’eina emprada ha sigut INGENIAS Development Kit (IDK) 74
  • 75. METODOLOGIA (II) 1 2 3 4 5 6 7 8 9 75 J. J. Gómez-Sanz. Modelado de Sistemas Multi-Agente. PhD thesis, Departamento de Sistemas Informáticos y Programación, Universidad Complutense Madrid, 2002.
  • 76.  El sistema desenvolupat es divideix en dues parts ben diferenciades:  La interfície d’usuari, que s’ha dissenyat orientada a objectes  El sistema d’emulació de preservació digital, que es concep com un Sistema Multiagent que es basa en gestionar un ecosistema d'SPADO (Self Preservation Aware Digital Objects) 76 DISSENY (I)
  • 78.  Les pantalles principals del prototipus són:  Selecció de fitxers 78 IMPLEMENTACIÓ (I)
  • 79.  Les pantalles principals del prototipus són:  Configuració de la xarxa social 79 IMPLEMENTACIÓ (II)
  • 80.  Les pantalles principals del prototipus són:  Configuració de paràmetres 80 IMPLEMENTACIÓ (III)
  • 81.  Les pantalles principals del prototipus són:  Inicialització de l'emulació 81 IMPLEMENTACIÓ (IV)
  • 82. CONTINGUTS Disseny i implementació del prototipus de preservació digital Anàlisi del sistema Introducció Validació i resultats Conclusions i treballs futurs 82
  • 83. VALIDACIÓ (I)  Es comparen els resultats obtinguts amb la simulació basada en la intel·ligència d'eixam  S’han executat els mateixos models emprats en la simulació basada en intel·ligència d'eixam Paràmetres Model 1 Model 2 Canvis de format 0,5,4;1,4,3;0,3, 2 1,4,3;0,5,3;1,3, 1 OD associats a un usuari inicialment entre 1 i 5 entre 1 i 5 Cost moure’s per la xarxa 2 2 Cost quedar-se quiet 1 1 Límit superior pressupost 60 60 Límit inferior pressupost 20 20 Cost allotjament en un usuari entre 1 i 10 entre 1 i 10 Servei de preservació d’un usuari 100 100 Percentatge esborrat d’usuaris 25% i 33% 25% i 33% 83
  • 84. VALIDACIÓ (II)  Model 1 Esborrat del 33% d’usuaris  El prototipus es torna a comportar molt millor que la simulació d'intel·ligència d'eixam.  Resilence del prototipus amb més “força”(16 punts més forta) Esborrat del 25% d’usuaris  Amb el prototip: més còpies i amb mes diversitat de formats del previst en les primeres simulacions  Resilence en les dues primeres catàstrofes (4,9 punts més intensa) 84 Mitjanaentropia Steps simulació Mitjanaentropia Steps simulació
  • 85. VALIDACIÓ (III)  Model 2 Esborrat del 25% d’usuaris  El prototip es comporta millor, però no mostra gaire resilence  Catàstrofes afecten més al prototip Esborrat del 33% d’usuaris  El prototip es comporta millor, però no mostra gaire resilence 85 Mitjanaentropia Steps simulació Mitjanaentropia Steps simulació
  • 86. Requeriments Validació Còpia i migració de format Intercanvi entre amics Pressupost digital OD amb tipus (imatge, vídeo, Word, PowerPoint) OD amb tipus concret (ex: Word 2003, 2007, etc) Xarxa social basada en amics OD amb referència al site “propietari” Succeeixen catàstrofes Valoració resultats amb entropia Validació amb •25% d’esborrats •33% d’esborrats DISCUSSIÓ SOBRE EL GRAU D’ASSOLIMENT DEL PROTOTIPUS 86
  • 87. Requeriments Validació Bonus Còpia i migració de format Intercanvi entre amics Pressupost digital OD amb tipus (imatge, vídeo, Word, PowerPoint) OD amb tipus concret (ex: Word 2003, 2007, etc) Xarxa social basada en amics OD amb referència al site “propietari” Succeeixen catàstrofes Valoració resultats amb entropia Validació amb •25% d’esborrats •33% d’esborrats Càlcul entropia a cada step Recompte del número d’objectes a cada step Càlcul de nous percentatges per fer experimentació DISCUSSIÓ SOBRE EL GRAU D’ASSOLIMENT DEL PROTOTIPUS 87
  • 89. NOUS EXPERIMENTS AMB EL PROTOTIPUS (I) ESTADÍSTICS  Percentatge d’objectes digitals salvats. Entre el 81.91% i el 96.79% d’objectes salvats 89
  • 90. NOUS EXPERIMENTS AMB EL PROTOTIPUS (II) ESTADÍSTICS  Percentatge d’objectes digitals que tenen una còpia compatible al site que corresponen. Entre el 63.59% i el 77.35% 90
  • 91. CONTINGUTS Disseny i implementació del prototipus de preservació digital Anàlisi del sistema Introducció Validació i resultats Conclusions i treballs futurs 91
  • 92. CONCLUSIONS (I)  S'ha estudiat i realitzat un prototipus de preservació digital basat en agents que treballen sobre una xarxa social  En l'anàlisi s’ha fet una incursió en el món de la recerca implementant algorismes d'intel·ligència d'eixam i algorismes genètics aplicats a la preservació digital  Amb els coneixements adquirits en l'anàlisi i de la metodologia INGENIAS s’ha fet el disseny del sistema  S’ha implementat el prototipus, un software multithread, que redueix l'obsolescència i la desaparició dels objectes que tenim en l'ordinador, i dóna feedback a l'usuari via interfície gràfica  S'ha validat el prototipus i podem dir que la nostra solució proporciona noves i interessants prestacions de preservació mostrades amb l'entropia i comprovades per l'alt percentatge d'objectes salvats en les emulacions realitzades 92 50% 15% 35%
  • 93. CONCLUSIONS (II)  Del treball desenvolupat en l'anàlisi s'ha enviat a:  Olvera, J. A.(2011). An Outline of The Application of Agents to Digital Preservation and an Introduction to Self Preservation Aware Digital Objects (acceptat). 13th European Agent Systems Summer School (EASSS 2011)  Olvera, J. A. , and de la Rosa, J. L. (2011). Preliminary Study on Swarm Intelligence and Genetic Algorithms Applied to Digital Preservation (enviat). 14è Congrés Internacional de l'Associació Catalana d'Intel·ligència Artificial (CCIA 2011)  S’ha realitzat una proposta de transferència dels algorismes desenvolupats en el prototipus (conclusions i treballs futurs memòria) 93
  • 94. TREBALL FUTUR  Transferència a Pyramid  Fer més experiments i comprovacions addicionals del prototipus  Desenvolupar els algorismes, millorant-los en robustesa i escalabilitat  Implementar dos versions alfa i una beta, i proves amb usuaris beta-testers  Validació del software  S’ha obert una línia de recerca on hi ha nombroses millores en la modelització i l’experimentació  Simulació basada en la intel·ligència d’eixam  Simulació basada en algorismes genètics 94
  • 95. LOGO