BSc thesis by Pia Muñoz Tralero at UPC-CCMA (May 2010).
More info: https://imatge.upc.edu/web/publications/extensio-duna-interficie-de-cerca-dimatges-les-consultes-amb-regions
Deep Self-supervised Learning for All - Xavier Giro - X-Europe 2020
Extensió d'una interfície de cerca d'imatges a les consultes amb regions
1. Per Mª Pia Muñoz Trallero
Tutors:
Xavier Giró
Xavier Vives
Escola d’Enginyeria de Terrassa (EET) – Juny 2010
2. Introducció
Requeriments
Estat de l’art
Disseny i resultats
Eina global
Digitrace
Entorn de desenvolupament
Conclusions
Índex
2Índex / 31
4. Introducció
4
Precedent:
Ramon Salla 2009, Aplicació Rica d’Internet per a la consulta amb text i imatge
al repositori de vídeos de la Corporació Catalana de Mitjans Audiovisuals
Idea principal:
“Recuperació d’imatges a partir d’una idea”
Projecte universitat – empresa situat en el marc d’un projecte estatal:
Introducció / 31
9. Requeriments
Integració i millores:
La CCMA demana una eina multimodal que integri les funcionalitats presentades:
9
Detecció
de text
Consultes
mitjançant
imatge
Consultes
textuals
Cerca d’imatges
mitjançant
regions
Digition
Digimatge Detector
de text
Incorporació
d’una nova
eina
/ 31
10. Requeriments
Integració i millores:
10
Digimatge:
Aquest projecte neix amb la finalitat d’assolir
les mancances del Digimatge i estendre les
cerques per imatge a cerques per regió
UPSeek:
L’eina s’ha de comunicar amb el mòdul de la
UPC que s’encarrega del processat de la
imatge i de retornar els resultats de la cerca.
Descriptors:
L’eina ha de permetre configurar els pesos de
cadascun dels descriptors visuals en les
cerques tant per imatge global com per regió.
/ 31
12. Estat de l’art
12Estat de l’art
Consultes mitjançant exemple - Content-based Image Retrieval
Imatge exemple:
Estudi del
contingut visual
Sistema CBIR:
Comparació
contra la
base de dades
Resultat:
Imatges
similars
/ 31
13. Sistema CBIR: Eines
13Estat de l’art
Indexador: Cercador:
• Analitza tota la col·lecció
d’imatges i vídeos
• Ingesta metadades a la
base de dades
• Interfície gràfica d’usuari
• Permet navegar i fer
consultes sobre la col·lecció
/ 31
14. Cercadors que incorporen consultes
basades en el contingut visual
IMARS CALIPH & EMIR
Eina comercial proposada per IBM Projecte de codi lliure
ACM Multimedia Open Soure
Competition 2009
14Estat de l’art / 31
17. Segmentació interactiva:
17Estat de l’art
Nom de la tècnica SRG1 SIOX2 BPT3
Grau d'interacció Alt Mitjà Baix
Descriptor Color Color Color, textura, dispersió, ...
Comparativa de tècniques de segmentació asistida
1. Adams i Bischof - Adobe Photoshop
2. Gerald Friedland - GIMP
3. Luis Garrido, UPC - Clients UPSeek (GAT i GOS)
/ 31
18. Disseny
Disseny: eina global
18
S’ha decidit fer una integració jeràrquica de totes les eines a l’entorn del Digition
Digition
Mòdul de visualització de keyframes
Digimatge
Cerca
per
imatge
Cerca
per
regió
Detecció
de
text
Descriptors
visuals
Descriptors
visuals
/ 31
19. Disseny
Digitrace: Interfície gràfica
19
Mòdul principal
Menú
de
mode
Menú
de
configuració
Imatge
+
màscara
Botó
de
cerca
*
Menú
de
marcadors
Menú
d’edició
Mòdul secundari
Colors Configuració Ajuda
1. Marcadors
2. Màscara
1. Descriptors
2. Pinzell
1. Inici
2. Modes
/ 31
22. Disseny
Digitrace: Segmentació interactiva
22
• Punt fort: marcadors únicament d’objecte.
• Distingim dos criteris de propagació de fulles:
Criteri sense expansió Criteri amb expansió
Per a cada node objecte, seleccionarem el seu pare sempre i quan el subarbre del seu
germà tingui, com a mínim, un node seleccionat i no en tingui cap node fons.
/ 31
23. Disseny
Digitrace: Definició de modes
23
Rectangle sense expansió Rectangle amb expansió
Traça sense expansió Traça amb expansió
/ 31
25. Entorn de desenvolupament
Crides: Consultes per regió
25
Crida getQbE Mètode HTTP Paràmetres
d'entrada
Paràmetres
de sortida
Mode rectangle:
Obtenció de màscara
GET assetId
timeCode
coordenades
Màscara
Mode rectangle:
Obtenció de resultats
GET assetId
timeCode
coordenades
descriptors
Keyframes resultants
Mode traça:
Obtenció de màscara
POST assetId
timeCode
label
Imatge
bpt_neg
bpt_pos
Màscara
bpt_neg
bpt_pos
Mode traça:
Obtenció de resultats
GET assetId
timeCode
bpt_neg
bpt_pos
descriptors
Keyframes resultants
/ 31
26. Entorn de desenvolupament
Entorn de desenvolupament:
Marc de desenvolupament: Adobe Flex
Llenguatges de programació: MXML i ActionScript
• Aplicació web : Rich Internet Application
26
Usabilitat
Rapidesa
Interacció
Capacitats
multimèdia
Atractiu
/ 31
27. Disseny de les
interfícies:
- Digitrace
- Mòdul keyframes
Implementació
amb Flex de les
interfícies
Disseny dels
modes de
segmentació
interactiva
Disseny de les
crides HTTP
Conclusions
Conclusions:Treball realitzat
27 / 31
28. Conclusions
Conclusions:
28
Requeriments assolits:
Interfície multimodal
Integració del Digitrace
Descriptors visuals
Comunicació amb l’UPSeek
Punts forts de la interfície:
Comparteix les qualitats de les interfícies d’escriptori i les
interfícies web.
Originalitat de la proposta de segmentació interactiva: garantia
de resultats coherents amb marcadors únicament d’objecte.
/ 31
29. Conclusions
Conclusions:
29
Conclusions de l’avaluació dels modes de segmentació proposats:
El mode traça resulta útil per a imatges homogènies amb un
esforç mínim.
El mode rectangle és aconsellable, en canvi, per a imatges amb
molts colors i contorns.
Conclusions personals:
Experiència de treball en equip
Mediació entre la universitat i la empresa
Continuïtat de l’eina
/ 31
30. Conclusions
Treball futur:
30
A curt termini:
Incorporació de la màscara utilitzada en la cerca i dels resultats
Dinamitzar el mòdul de metadades del Digition
Agrupament dels resultats
A llarg termini:
Millorar la interacció de l’usuari amb els pesos dels descriptors
Eficiència de la cerca
Incorporar consultes textuals a partir del Detector de text
/ 31