SlideShare una empresa de Scribd logo
1 de 50
Descargar para leer sin conexión
Anotação de Imagens

        Vitor Pamplona
        vitor@vitorpamplona.com




      Yansong Feng and Mirella Lapata
     Automatic Image Annotation Using
          Auxiliary Text Information
 Proceedings of ACL-08: HLT, pages 272–280
Como criar palavras-chave?




           Copyright Vitor F. Pamplona   2
Formalmente
●
    Dado uma imagem I e suas características

               V I ={v 1, v 2, v 3, }

●
    E um conjunto de palavras-chave

               W I ={w 1, w 2, w 3, }

●
    Encontre o W p que melhor descreve I
                      W p ⊂W I
                   Copyright Vitor F. Pamplona   3
Processo Tradicional




            Copyright Vitor F. Pamplona   4
Passo 1: Treinamento




Tigre, filhote, repouso     Tigre, dormindo

                                                        Tigre, selva, feroz




                          Copyright Vitor F. Pamplona                         5
Passo 2: Segmentação




Tigre, filhote, repouso     Tigre, dormindo

                                                        Tigre, selva, feroz




                          Copyright Vitor F. Pamplona                         6
Passo 3: Extrai uma assinatura




Tigre, filhote, repouso             Tigre, dormindo

                                                                Tigre, selva, feroz

    12, 45, 67, 45, 67, 78, ...
    12, 45, 67, 65, 67, 15, ...
    12, 45, 67, 45, 85, 78, ...



                                  Copyright Vitor F. Pamplona                         7
Passo 4: Compara assinaturas




Tigre, filhote, repouso             Tigre, dormindo

                                                                Tigre, selva, feroz

    12, 45, 67, 45, 67, 78, ...
    12, 45, 67, 65, 67, 15, ...
    12, 45, 67, 45, 85, 78, ...



                                  Copyright Vitor F. Pamplona                         8
Passo 5: Palavras-chave comuns




Tigre, filhote, repouso             Tigre, dormindo

                                                                Tigre, selva, feroz

    12, 45, 67, 45, 67, 78, ...
    12, 45, 67, 65, 67, 15, ...
    12, 45, 67, 45, 85, 78, ...



                                  Copyright Vitor F. Pamplona                         9
Passo 6: Associa uma anotação




Tigre, filhote, repouso             Tigre, dormindo

                                                                Tigre, selva, feroz

    12, 45, 67, 45, 67, 78, ...
    12, 45, 67, 65, 67, 15, ...         Tigre
    12, 45, 67, 45, 85, 78, ...



                                  Copyright Vitor F. Pamplona                     10
Passo 7: Associa uma relevância




Tigre, filhote, repouso             Tigre, dormindo

                                                                Tigre, selva, feroz

    12, 45, 67, 45, 67, 78, ...
    12, 45, 67, 65, 67, 15, ...         Tigre, 100%
    12, 45, 67, 45, 85, 78, ...



                                  Copyright Vitor F. Pamplona                     11
Para anotar uma nova imagem




          Copyright Vitor F. Pamplona   12
Passo 1: Segmentar




           Copyright Vitor F. Pamplona   13
Passo 2: Computar assinatura


                                12, 45, 67, 35, 67, 78, ...




           Copyright Vitor F. Pamplona                        14
Passo 3: Comparar com a base


                                             12, 45, 67, 35, 67, 78, ...




  12, 45, 67, 45, 67, 78, ...
  12, 45, 67, 65, 67, 15, ...
  12, 45, 67, 45, 85, 78, ...




                        Copyright Vitor F. Pamplona                        15
Passo 3: Buscar anotação


                                              12, 45, 67, 35, 67, 78, ...

                                                       Tigre, 100%




   12, 45, 67, 45, 67, 78, ...
   12, 45, 67, 65, 67, 15, ...
   12, 45, 67, 45, 85, 78, ...




                         Copyright Vitor F. Pamplona                        16
Passo 4: Repetir o processo




            Copyright Vitor F. Pamplona   17
Passo 5: Organizar as palavras




            Tigre, 100%
            Água, 70%
            Grama, 30%

            Copyright Vitor F. Pamplona   18
Feng e Lapata 2008
●
    Anotação de imagens
    ●
        Fusão de VC, RI e PLN


●
    Contribuições
    ●
        Textos de internet com imagens
    ●
        Sem anotações prévias para treinamento
    ●
        O sistema é treinado com o texto
    ●
        Muito ruído no texto
    ●
        Possibilita a anotação de novas palavras-chave

                       Copyright Vitor F. Pamplona       19
Entrada do modelo




 Texto
                                         Legenda




           Copyright Vitor F. Pamplona             20
Assunções do modelo
●
    Legenda descreve a imagem:
    ●
        Denotativamente: descreve objetos
        Denotativamente
    ●
        Conotativamente: descreve ações/eventos
        Conotativamente
●
    Não é possível nomear todos os objetos
●
    Os principais objetos devem ser nomeados
●
    O documento está relacionado a imagem




                      Copyright Vitor F. Pamplona   21
Descrição do Modelo

                   D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s




                 Copyright Vitor F. Pamplona     22
Descrição do Modelo

                   D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s




                  Características Visuais da Imagem




                 Copyright Vitor F. Pamplona          23
Descrição do Modelo

                   D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s




                  Palavras do Texto ou do Caption
                  Características Visuais da Imagem




                 Copyright Vitor F. Pamplona          24
Descrição do Modelo

                   D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s



                  Tuplas (imagem-palavra) do treinamento


                  Palavras do Texto ou do Caption
                  Características Visuais da Imagem




                 Copyright Vitor F. Pamplona          25
Descrição do Modelo

                   D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s



                  Tuplas (imagem-palavra) do treinamento
                  Probabilidade da tupla s
                  Palavras do Texto ou do Caption
                  Características Visuais da Imagem




                 Copyright Vitor F. Pamplona          26
Descrição do Modelo

                   D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s




                  Probabilidade da tupla s




                 Copyright Vitor F. Pamplona     27
Descrição do Modelo

                       D
       P V I , W I =∑ P V I∣s P W I∣s P  s
                        s


                                1
                        P  s=
                                ND

●
    Distribuição uniforme


                     Copyright Vitor F. Pamplona     28
Descrição do Modelo

                   D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s



                  Probabilidade dos V I ocorrerem
                  quando s ocorre




                 Copyright Vitor F. Pamplona        29
Descrição do Modelo

                   D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s

                                NV   I




            P V I∣s=∏ P g v r∣s
                               r=1




                 Copyright Vitor F. Pamplona     30
Descrição do Modelo

                   D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s

                                NV   I




            P V I∣s=∏ P g v r∣s
                               r=1

            Probabilidade de cada um dos V I
            correrem quando s ocorre




                 Copyright Vitor F. Pamplona     31
Descrição do Modelo

                           D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                             s

                                        NV   I




              P V I∣s=∏ P g v r∣s
                                       r=1
                        ns                                 −1

  P g v r∣s=
               1
                        ∑
                             v
                                 expv r −v i        ∑ v r −v i 
                                                       T


               ns   v   i =1                      2  ∣∑ ∣
                                                    k k


                Distribuição gaussiana

                         Copyright Vitor F. Pamplona                  32
Descrição do Modelo

                   D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s


                        Probabilidade dos W I ocorrerem
                        quando s ocorre




                 Copyright Vitor F. Pamplona              33
Descrição do Modelo

                    D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s

   P W I∣s= ∏ P w∣s ∏ 1− P w∣s
              w∈W                      w∉W

              Distribuição de Bernoulli




                 Copyright Vitor F. Pamplona     34
Descrição do Modelo

                    D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s

   P W I∣s= ∏ P w∣s ∏ 1− P w∣s
              w∈W                      w∉W




                 Copyright Vitor F. Pamplona     35
Descrição do Modelo

                    D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s

   P W I∣s= ∏ P w∣s ∏ 1− P w∣s
              w∈W                      w∉W

  P est w∣s= P est w∣sa 1− P est w∣sd 




                 Copyright Vitor F. Pamplona        36
Descrição do Modelo

                    D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s

   P W I∣s= ∏ P w∣s ∏ 1− P w∣s
              w∈W                      w∉W

  P est w∣s= P est w∣sa 1− P est w∣sd 

                Anotações de s                 Texto de s

       Parâmetro que melhor se adapta ao treinamento

                 Copyright Vitor F. Pamplona                37
Descrição do Modelo

                    D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s

   P W I∣s= ∏ P w∣s ∏ 1− P w∣s
              w∈W                      w∉W

  P est w∣s= P est w∣sa 1− P est w∣sd 




                 Copyright Vitor F. Pamplona        38
Descrição do Modelo

                       D
     P V I , W I =∑ P V I∣s P W I∣s P  s
                         s

    P W I∣s= ∏ P w∣s ∏ 1− P w∣s
                 w∈W                      w∉W

   P est w∣s= P est w∣sa 1− P est w∣sd 

                bw , s  N w                 1: se w está em sa
P est w∣sa =       a
                                              0: caso contrário
                  N D
                    Copyright Vitor F. Pamplona                    39
Descrição do Modelo

                    D
   P V I , W I =∑ P V I∣s P W I∣s P  s
                    s

   P W I∣s= ∏ P w∣s ∏ 1− P w∣s
              w∈W                      w∉W

  P est w∣s= P est w∣sa 1− P est w∣sd 




                 Copyright Vitor F. Pamplona        40
Descrição do Modelo

                       D
    P V I , W I =∑ P V I∣s P W I∣s P  s
                       s

   P W I∣s= ∏ P w∣s ∏ 1− P w∣s
                 w∈W                      w∉W

   P est w∣s= P est w∣sa 1− P est w∣sd 

  Vezes que w ocorre em sd                              N w,s
                                         P est w∣sa =         d


  Total de palavras do doc                               Nsd


                    Copyright Vitor F. Pamplona                     41
Validação
●
    2881 notícias da BBC News
●
    PLN
    ●
        Part of Speech Tagger
    ●
        Remover tudo exceto verbos, subst., adjetivos
    ●
        Extrai o lema das palavras
●
    Vocabulário 8309 palavras




                       Copyright Vitor F. Pamplona      42
Validação
●
    Processamento das imagens
    ●
        Segmentação a partir de um grid regular 6x5
●
    Assinatura
    ●
        Média e desvio padrão RGB, LUV, LAB
    ●
        Saída de uma transformação DCT
    ●
        Saída de um filtro de Gabor
    ●
        Saída de um algoritmo de detecção de borda
    ●
        Divisão entre nro de pixels de borda e não borda


                       Copyright Vitor F. Pamplona    43
Resultados: Precisão
●
    Anotações corretas / todas as anotações
      16

      14
      12

      10
                                                   Feng08
      8
                                                   Lavenko03
      6                                            DocTitle
      4
      2

      0
           Top10    Top15                  Top20



                   Copyright Vitor F. Pamplona                 44
Resultados: Recall
●
    Anotações corretas / anotações manuais
      40
      35
      30
      25
      20                                           Feng08
                                                   Lavenko03
      15
                                                   DocTitle
      10
      5
      0
           Top10    Top15                  Top20



                   Copyright Vitor F. Pamplona                 45
Resultados: F1
●
    Média harmônica entre precisão e recall
      25


      20


      15
                                                       Feng08
      10                                               Lavenko03
                                                       DocTitle
      5


      0
           Top10    Top15                  Top20
                                                      Precisão∗Recall
                                                    PrecisãoRecall / 2
                   Copyright Vitor F. Pamplona                         46
Análise Crítica
●
    Palavras-chave isoladas
    ●
        Sem contexto semântico
    ●
        Sem contexto temporal
    ●
        Sem estrutura hierárquica
●
    Segmentação e identificação de saliências
    ●
        Muito simples
    ●
        Método SIFT (D. G. Lowe 2004)
●
    Não utilizam a wordnet
    ●
        Poderiam extrair sinônimos e super classes
                        Copyright Vitor F. Pamplona   47
Viagens...
●
    Palavras-chave multi-língua
●
    Vários documentos para a mesma imagem
    ●
        Contextos
●
    Utilizar informação semântica
    ●
        Frases que possuem as palavras-chave
    ●
        Relacionamento das palavras-chave
    ●
        Anotar frases ao invés de palavras-chave?
●
    Processar todas as imagens da web

                       Copyright Vitor F. Pamplona   48
Perguntas?

       Vitor Pamplona
       vitor@vitorpamplona.com



 Yansong Feng and Mirella Lapata
Automatic Image Annotation Using
    Auxiliary Text Information
   Proceedings of ACL-08: HLT
Créditos:
●
    http://www.flickr.com/photos/mkengstrom/77367321/
●
    http://www.flickr.com/photos/66164549@N00/2919179438/
●
    http://www.flickr.com/photos/digitalart/1906662004/
●
    http://www.flickr.com/photos/mumbleyjoe/1520473493/


●
    Yansong Feng and Mirella Lapata. Automatic Image Annotation Using
    Auxiliary Text Information. Proceedings of ACL-08:HLT, pages
    272-280. 2008.




                          Copyright Vitor F. Pamplona               50

Más contenido relacionado

Destacado

Rob Koenen (TNO) @ CMC Connected TV
Rob Koenen (TNO) @ CMC Connected TVRob Koenen (TNO) @ CMC Connected TV
Rob Koenen (TNO) @ CMC Connected TVMedia Perspectives
 
Nynke Tromp (Reframing Studio) @ CMC Digital Design
Nynke Tromp (Reframing Studio) @ CMC Digital Design Nynke Tromp (Reframing Studio) @ CMC Digital Design
Nynke Tromp (Reframing Studio) @ CMC Digital Design Media Perspectives
 
CMC Cross Media Formats - Jeroen Elfferich Ex Machina
CMC Cross Media Formats - Jeroen Elfferich Ex MachinaCMC Cross Media Formats - Jeroen Elfferich Ex Machina
CMC Cross Media Formats - Jeroen Elfferich Ex MachinaMedia Perspectives
 
Workshop van product naar succesvol bedrijf
Workshop van product naar succesvol bedrijfWorkshop van product naar succesvol bedrijf
Workshop van product naar succesvol bedrijfMedia Perspectives
 
国際会議 IEEE Computational Intelligence for Financial Engineering & Economics (C...
国際会議 IEEE Computational Intelligence for Financial Engineering & Economics (C...国際会議 IEEE Computational Intelligence for Financial Engineering & Economics (C...
国際会議 IEEE Computational Intelligence for Financial Engineering & Economics (C...Takanobu Mizuta
 
Where does your money go when you give to charity?
Where does your money go when you give to charity? Where does your money go when you give to charity?
Where does your money go when you give to charity? Myclever Agency
 
20101031 思想哲学研究会 福沢諭吉
20101031 思想哲学研究会 福沢諭吉20101031 思想哲学研究会 福沢諭吉
20101031 思想哲学研究会 福沢諭吉Takanobu Mizuta
 
Lesson 40 wordstrips
Lesson 40 wordstripsLesson 40 wordstrips
Lesson 40 wordstripsJohn Pooley
 

Destacado (11)

Rob Koenen (TNO) @ CMC Connected TV
Rob Koenen (TNO) @ CMC Connected TVRob Koenen (TNO) @ CMC Connected TV
Rob Koenen (TNO) @ CMC Connected TV
 
Nynke Tromp (Reframing Studio) @ CMC Digital Design
Nynke Tromp (Reframing Studio) @ CMC Digital Design Nynke Tromp (Reframing Studio) @ CMC Digital Design
Nynke Tromp (Reframing Studio) @ CMC Digital Design
 
CMC Cross Media Formats - Jeroen Elfferich Ex Machina
CMC Cross Media Formats - Jeroen Elfferich Ex MachinaCMC Cross Media Formats - Jeroen Elfferich Ex Machina
CMC Cross Media Formats - Jeroen Elfferich Ex Machina
 
Workshop van product naar succesvol bedrijf
Workshop van product naar succesvol bedrijfWorkshop van product naar succesvol bedrijf
Workshop van product naar succesvol bedrijf
 
Max Pinas - TWC Apps
Max Pinas - TWC AppsMax Pinas - TWC Apps
Max Pinas - TWC Apps
 
Language development
Language developmentLanguage development
Language development
 
国際会議 IEEE Computational Intelligence for Financial Engineering & Economics (C...
国際会議 IEEE Computational Intelligence for Financial Engineering & Economics (C...国際会議 IEEE Computational Intelligence for Financial Engineering & Economics (C...
国際会議 IEEE Computational Intelligence for Financial Engineering & Economics (C...
 
Where does your money go when you give to charity?
Where does your money go when you give to charity? Where does your money go when you give to charity?
Where does your money go when you give to charity?
 
20101031 思想哲学研究会 福沢諭吉
20101031 思想哲学研究会 福沢諭吉20101031 思想哲学研究会 福沢諭吉
20101031 思想哲学研究会 福沢諭吉
 
Emdc rpo2012
Emdc rpo2012Emdc rpo2012
Emdc rpo2012
 
Lesson 40 wordstrips
Lesson 40 wordstripsLesson 40 wordstrips
Lesson 40 wordstrips
 

Más de Vitor Pamplona

Tailored Displays to Compensate for Visual Aberrations - SIGGRAPH Presentation
Tailored Displays to Compensate for Visual Aberrations - SIGGRAPH PresentationTailored Displays to Compensate for Visual Aberrations - SIGGRAPH Presentation
Tailored Displays to Compensate for Visual Aberrations - SIGGRAPH PresentationVitor Pamplona
 
CATRA: Interactive Measuring and Modelling of Cataracts
CATRA: Interactive Measuring and Modelling of CataractsCATRA: Interactive Measuring and Modelling of Cataracts
CATRA: Interactive Measuring and Modelling of CataractsVitor Pamplona
 
Netra at Mobile Health Expo NYC
Netra at Mobile Health Expo NYCNetra at Mobile Health Expo NYC
Netra at Mobile Health Expo NYCVitor Pamplona
 
Unusual apps: NETRA and CATRA
Unusual apps: NETRA and CATRAUnusual apps: NETRA and CATRA
Unusual apps: NETRA and CATRAVitor Pamplona
 
Photorealistic Models for Pupil Light Reflex and Iridal Pattern Deformation
Photorealistic Models for Pupil Light Reflex and Iridal Pattern DeformationPhotorealistic Models for Pupil Light Reflex and Iridal Pattern Deformation
Photorealistic Models for Pupil Light Reflex and Iridal Pattern DeformationVitor Pamplona
 
NETRA on SIGGRAPH 2010
NETRA on SIGGRAPH 2010NETRA on SIGGRAPH 2010
NETRA on SIGGRAPH 2010Vitor Pamplona
 
Modelos Foto-realistas para reflexo pupilar à luz e deformação dos padrões da...
Modelos Foto-realistas para reflexo pupilar à luz e deformação dos padrões da...Modelos Foto-realistas para reflexo pupilar à luz e deformação dos padrões da...
Modelos Foto-realistas para reflexo pupilar à luz e deformação dos padrões da...Vitor Pamplona
 
Introdução ao Algoritmo Photon Mapping
Introdução ao Algoritmo Photon MappingIntrodução ao Algoritmo Photon Mapping
Introdução ao Algoritmo Photon MappingVitor Pamplona
 
Algoritmo de Photon Mapping
Algoritmo de Photon MappingAlgoritmo de Photon Mapping
Algoritmo de Photon MappingVitor Pamplona
 
Performance Analysis: C vs CUDA
Performance Analysis: C vs CUDAPerformance Analysis: C vs CUDA
Performance Analysis: C vs CUDAVitor Pamplona
 
Propagação de Incerteza em Medições
Propagação de Incerteza em MediçõesPropagação de Incerteza em Medições
Propagação de Incerteza em MediçõesVitor Pamplona
 
Geometric Algebra 2: Applications
Geometric Algebra 2: ApplicationsGeometric Algebra 2: Applications
Geometric Algebra 2: ApplicationsVitor Pamplona
 
Introduction about Geometric Algebra
Introduction about Geometric AlgebraIntroduction about Geometric Algebra
Introduction about Geometric AlgebraVitor Pamplona
 
The Image-based data glove presentation
The Image-based data glove presentationThe Image-based data glove presentation
The Image-based data glove presentationVitor Pamplona
 

Más de Vitor Pamplona (18)

SciBr foundation 2017
SciBr foundation 2017SciBr foundation 2017
SciBr foundation 2017
 
SciBr foundation 2018
SciBr foundation 2018SciBr foundation 2018
SciBr foundation 2018
 
Tailored Displays to Compensate for Visual Aberrations - SIGGRAPH Presentation
Tailored Displays to Compensate for Visual Aberrations - SIGGRAPH PresentationTailored Displays to Compensate for Visual Aberrations - SIGGRAPH Presentation
Tailored Displays to Compensate for Visual Aberrations - SIGGRAPH Presentation
 
CATRA: Interactive Measuring and Modelling of Cataracts
CATRA: Interactive Measuring and Modelling of CataractsCATRA: Interactive Measuring and Modelling of Cataracts
CATRA: Interactive Measuring and Modelling of Cataracts
 
Netra at Mobile Health Expo NYC
Netra at Mobile Health Expo NYCNetra at Mobile Health Expo NYC
Netra at Mobile Health Expo NYC
 
Unusual apps: NETRA and CATRA
Unusual apps: NETRA and CATRAUnusual apps: NETRA and CATRA
Unusual apps: NETRA and CATRA
 
Free software basics
Free software basicsFree software basics
Free software basics
 
Photorealistic Models for Pupil Light Reflex and Iridal Pattern Deformation
Photorealistic Models for Pupil Light Reflex and Iridal Pattern DeformationPhotorealistic Models for Pupil Light Reflex and Iridal Pattern Deformation
Photorealistic Models for Pupil Light Reflex and Iridal Pattern Deformation
 
NETRA on SIGGRAPH 2010
NETRA on SIGGRAPH 2010NETRA on SIGGRAPH 2010
NETRA on SIGGRAPH 2010
 
Modelos Foto-realistas para reflexo pupilar à luz e deformação dos padrões da...
Modelos Foto-realistas para reflexo pupilar à luz e deformação dos padrões da...Modelos Foto-realistas para reflexo pupilar à luz e deformação dos padrões da...
Modelos Foto-realistas para reflexo pupilar à luz e deformação dos padrões da...
 
Introdução ao Algoritmo Photon Mapping
Introdução ao Algoritmo Photon MappingIntrodução ao Algoritmo Photon Mapping
Introdução ao Algoritmo Photon Mapping
 
Algoritmo de Photon Mapping
Algoritmo de Photon MappingAlgoritmo de Photon Mapping
Algoritmo de Photon Mapping
 
Performance Analysis: C vs CUDA
Performance Analysis: C vs CUDAPerformance Analysis: C vs CUDA
Performance Analysis: C vs CUDA
 
Propagação de Incerteza em Medições
Propagação de Incerteza em MediçõesPropagação de Incerteza em Medições
Propagação de Incerteza em Medições
 
Geometric Algebra 2: Applications
Geometric Algebra 2: ApplicationsGeometric Algebra 2: Applications
Geometric Algebra 2: Applications
 
Introduction about Geometric Algebra
Introduction about Geometric AlgebraIntroduction about Geometric Algebra
Introduction about Geometric Algebra
 
O Mundo Open Source
O Mundo Open SourceO Mundo Open Source
O Mundo Open Source
 
The Image-based data glove presentation
The Image-based data glove presentationThe Image-based data glove presentation
The Image-based data glove presentation
 

Anotação de Imagens

  • 1. Anotação de Imagens Vitor Pamplona vitor@vitorpamplona.com Yansong Feng and Mirella Lapata Automatic Image Annotation Using Auxiliary Text Information Proceedings of ACL-08: HLT, pages 272–280
  • 2. Como criar palavras-chave? Copyright Vitor F. Pamplona 2
  • 3. Formalmente ● Dado uma imagem I e suas características V I ={v 1, v 2, v 3, } ● E um conjunto de palavras-chave W I ={w 1, w 2, w 3, } ● Encontre o W p que melhor descreve I W p ⊂W I Copyright Vitor F. Pamplona 3
  • 4. Processo Tradicional Copyright Vitor F. Pamplona 4
  • 5. Passo 1: Treinamento Tigre, filhote, repouso Tigre, dormindo Tigre, selva, feroz Copyright Vitor F. Pamplona 5
  • 6. Passo 2: Segmentação Tigre, filhote, repouso Tigre, dormindo Tigre, selva, feroz Copyright Vitor F. Pamplona 6
  • 7. Passo 3: Extrai uma assinatura Tigre, filhote, repouso Tigre, dormindo Tigre, selva, feroz 12, 45, 67, 45, 67, 78, ... 12, 45, 67, 65, 67, 15, ... 12, 45, 67, 45, 85, 78, ... Copyright Vitor F. Pamplona 7
  • 8. Passo 4: Compara assinaturas Tigre, filhote, repouso Tigre, dormindo Tigre, selva, feroz 12, 45, 67, 45, 67, 78, ... 12, 45, 67, 65, 67, 15, ... 12, 45, 67, 45, 85, 78, ... Copyright Vitor F. Pamplona 8
  • 9. Passo 5: Palavras-chave comuns Tigre, filhote, repouso Tigre, dormindo Tigre, selva, feroz 12, 45, 67, 45, 67, 78, ... 12, 45, 67, 65, 67, 15, ... 12, 45, 67, 45, 85, 78, ... Copyright Vitor F. Pamplona 9
  • 10. Passo 6: Associa uma anotação Tigre, filhote, repouso Tigre, dormindo Tigre, selva, feroz 12, 45, 67, 45, 67, 78, ... 12, 45, 67, 65, 67, 15, ... Tigre 12, 45, 67, 45, 85, 78, ... Copyright Vitor F. Pamplona 10
  • 11. Passo 7: Associa uma relevância Tigre, filhote, repouso Tigre, dormindo Tigre, selva, feroz 12, 45, 67, 45, 67, 78, ... 12, 45, 67, 65, 67, 15, ... Tigre, 100% 12, 45, 67, 45, 85, 78, ... Copyright Vitor F. Pamplona 11
  • 12. Para anotar uma nova imagem Copyright Vitor F. Pamplona 12
  • 13. Passo 1: Segmentar Copyright Vitor F. Pamplona 13
  • 14. Passo 2: Computar assinatura 12, 45, 67, 35, 67, 78, ... Copyright Vitor F. Pamplona 14
  • 15. Passo 3: Comparar com a base 12, 45, 67, 35, 67, 78, ... 12, 45, 67, 45, 67, 78, ... 12, 45, 67, 65, 67, 15, ... 12, 45, 67, 45, 85, 78, ... Copyright Vitor F. Pamplona 15
  • 16. Passo 3: Buscar anotação 12, 45, 67, 35, 67, 78, ... Tigre, 100% 12, 45, 67, 45, 67, 78, ... 12, 45, 67, 65, 67, 15, ... 12, 45, 67, 45, 85, 78, ... Copyright Vitor F. Pamplona 16
  • 17. Passo 4: Repetir o processo Copyright Vitor F. Pamplona 17
  • 18. Passo 5: Organizar as palavras Tigre, 100% Água, 70% Grama, 30% Copyright Vitor F. Pamplona 18
  • 19. Feng e Lapata 2008 ● Anotação de imagens ● Fusão de VC, RI e PLN ● Contribuições ● Textos de internet com imagens ● Sem anotações prévias para treinamento ● O sistema é treinado com o texto ● Muito ruído no texto ● Possibilita a anotação de novas palavras-chave Copyright Vitor F. Pamplona 19
  • 20. Entrada do modelo Texto Legenda Copyright Vitor F. Pamplona 20
  • 21. Assunções do modelo ● Legenda descreve a imagem: ● Denotativamente: descreve objetos Denotativamente ● Conotativamente: descreve ações/eventos Conotativamente ● Não é possível nomear todos os objetos ● Os principais objetos devem ser nomeados ● O documento está relacionado a imagem Copyright Vitor F. Pamplona 21
  • 22. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Copyright Vitor F. Pamplona 22
  • 23. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Características Visuais da Imagem Copyright Vitor F. Pamplona 23
  • 24. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Palavras do Texto ou do Caption Características Visuais da Imagem Copyright Vitor F. Pamplona 24
  • 25. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Tuplas (imagem-palavra) do treinamento Palavras do Texto ou do Caption Características Visuais da Imagem Copyright Vitor F. Pamplona 25
  • 26. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Tuplas (imagem-palavra) do treinamento Probabilidade da tupla s Palavras do Texto ou do Caption Características Visuais da Imagem Copyright Vitor F. Pamplona 26
  • 27. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Probabilidade da tupla s Copyright Vitor F. Pamplona 27
  • 28. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s 1 P  s= ND ● Distribuição uniforme Copyright Vitor F. Pamplona 28
  • 29. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Probabilidade dos V I ocorrerem quando s ocorre Copyright Vitor F. Pamplona 29
  • 30. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s NV I P V I∣s=∏ P g v r∣s r=1 Copyright Vitor F. Pamplona 30
  • 31. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s NV I P V I∣s=∏ P g v r∣s r=1 Probabilidade de cada um dos V I correrem quando s ocorre Copyright Vitor F. Pamplona 31
  • 32. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s NV I P V I∣s=∏ P g v r∣s r=1 ns −1 P g v r∣s= 1 ∑ v expv r −v i  ∑ v r −v i  T ns v i =1  2  ∣∑ ∣ k k Distribuição gaussiana Copyright Vitor F. Pamplona 32
  • 33. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s Probabilidade dos W I ocorrerem quando s ocorre Copyright Vitor F. Pamplona 33
  • 34. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W Distribuição de Bernoulli Copyright Vitor F. Pamplona 34
  • 35. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W Copyright Vitor F. Pamplona 35
  • 36. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W P est w∣s= P est w∣sa 1− P est w∣sd  Copyright Vitor F. Pamplona 36
  • 37. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W P est w∣s= P est w∣sa 1− P est w∣sd  Anotações de s Texto de s Parâmetro que melhor se adapta ao treinamento Copyright Vitor F. Pamplona 37
  • 38. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W P est w∣s= P est w∣sa 1− P est w∣sd  Copyright Vitor F. Pamplona 38
  • 39. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W P est w∣s= P est w∣sa 1− P est w∣sd   bw , s  N w 1: se w está em sa P est w∣sa = a 0: caso contrário  N D Copyright Vitor F. Pamplona 39
  • 40. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W P est w∣s= P est w∣sa 1− P est w∣sd  Copyright Vitor F. Pamplona 40
  • 41. Descrição do Modelo D P V I , W I =∑ P V I∣s P W I∣s P  s s P W I∣s= ∏ P w∣s ∏ 1− P w∣s w∈W w∉W P est w∣s= P est w∣sa 1− P est w∣sd  Vezes que w ocorre em sd N w,s P est w∣sa = d Total de palavras do doc Nsd Copyright Vitor F. Pamplona 41
  • 42. Validação ● 2881 notícias da BBC News ● PLN ● Part of Speech Tagger ● Remover tudo exceto verbos, subst., adjetivos ● Extrai o lema das palavras ● Vocabulário 8309 palavras Copyright Vitor F. Pamplona 42
  • 43. Validação ● Processamento das imagens ● Segmentação a partir de um grid regular 6x5 ● Assinatura ● Média e desvio padrão RGB, LUV, LAB ● Saída de uma transformação DCT ● Saída de um filtro de Gabor ● Saída de um algoritmo de detecção de borda ● Divisão entre nro de pixels de borda e não borda Copyright Vitor F. Pamplona 43
  • 44. Resultados: Precisão ● Anotações corretas / todas as anotações 16 14 12 10 Feng08 8 Lavenko03 6 DocTitle 4 2 0 Top10 Top15 Top20 Copyright Vitor F. Pamplona 44
  • 45. Resultados: Recall ● Anotações corretas / anotações manuais 40 35 30 25 20 Feng08 Lavenko03 15 DocTitle 10 5 0 Top10 Top15 Top20 Copyright Vitor F. Pamplona 45
  • 46. Resultados: F1 ● Média harmônica entre precisão e recall 25 20 15 Feng08 10 Lavenko03 DocTitle 5 0 Top10 Top15 Top20 Precisão∗Recall  PrecisãoRecall / 2 Copyright Vitor F. Pamplona 46
  • 47. Análise Crítica ● Palavras-chave isoladas ● Sem contexto semântico ● Sem contexto temporal ● Sem estrutura hierárquica ● Segmentação e identificação de saliências ● Muito simples ● Método SIFT (D. G. Lowe 2004) ● Não utilizam a wordnet ● Poderiam extrair sinônimos e super classes Copyright Vitor F. Pamplona 47
  • 48. Viagens... ● Palavras-chave multi-língua ● Vários documentos para a mesma imagem ● Contextos ● Utilizar informação semântica ● Frases que possuem as palavras-chave ● Relacionamento das palavras-chave ● Anotar frases ao invés de palavras-chave? ● Processar todas as imagens da web Copyright Vitor F. Pamplona 48
  • 49. Perguntas? Vitor Pamplona vitor@vitorpamplona.com Yansong Feng and Mirella Lapata Automatic Image Annotation Using Auxiliary Text Information Proceedings of ACL-08: HLT
  • 50. Créditos: ● http://www.flickr.com/photos/mkengstrom/77367321/ ● http://www.flickr.com/photos/66164549@N00/2919179438/ ● http://www.flickr.com/photos/digitalart/1906662004/ ● http://www.flickr.com/photos/mumbleyjoe/1520473493/ ● Yansong Feng and Mirella Lapata. Automatic Image Annotation Using Auxiliary Text Information. Proceedings of ACL-08:HLT, pages 272-280. 2008. Copyright Vitor F. Pamplona 50