SlideShare una empresa de Scribd logo
1 de 35
Ordenação e Recuperação de Dados

               Aula 14:
            Análise de Links
           Alexandre Duarte
         alexandre@di.ufpb.br


                                1   1
Aula de hoje – hipertexto e links
 Veremos além do conteúdo dos documentos
   Começaremos a analisar os hiperlinks entre eles
 Tratar de questões como:
   Os links representam indicações da relevância de algumas
    páginas? Está informação é útil na classificação?
   Qual a probabilidade de uma página referenciada pela
    home page do CERN tratar de física nuclear?
 Grandes áreas de aplicação
   A Web
   Email
   Redes sociais
Links estão em todo lugar
 Poderosa ferramenta para autenticidade e
  autoridade
   Mail spam – quais contas de e-mail são de spammers?
   Qualidade de servidores – quais servidores são ruins
   Log de chamadas telefônicas
 O Bom, O Ruim e O Desconhecido
                                 ?

     Good                ?           ?
                                              Bad

                             ?
Lógica iterativa simples
 O Bom, O Ruim e O Desconhecido
   Bons nós não apontam para nós ruin
   Todas as outras combinações são plausíveis



                                 ?

     Bom                 ?           ?           Ruim


                             ?
                                                        4
Lógica iterativa simples
 Bons nós não apontam para nós ruins
   Se você aponta para um nós ruim, você é ruim
   Se um nó bom aponta para você, você é bom



                                 ?

     Bom                 ?           ?        Ruim


                             ?
                                                     5
Lógica iterativa simples
 Bons nós não apontam para nós ruins
   Se você aponta para um nós ruim, você é ruim
   Se um nó bom aponta para você, você é bom




     Bom                                      Ruim



                                                     6
Muitos outros exemplos de análise de
links
 Redes sociais são uma rica fonte para análise de
  comportamento em grupo
 Ex., Afinidade de compradores – Goel+Goldstein
  2010
    Consumidores cujos amigos gastam muito, tendem a
     gastar muito também
 http://www.cs.cornell.edu/home/kleinber/networks-book/




                                                           7
Nosso principal interesse neste curso
 Análogo a maioria das funcionalidades de um
  sistema de recuperação de informação baseado
  puramente em texto
   Scoring e classificação
   Agrupamento baseado em links
   Links como critério de classificação – documentos que
    apontam para outros documentos tendem a tratar do
    mesmo assunto
 Crawling
   Baseado nos links já visitados, para onde ir em seguida?

                                                               8
Sec. 21.1




A Web como um Grafo Dirigido

                        hyperlink
      Página A Âncora                  Página B




  Suposição 1: Um hyperlink entre duas páginas indica uma
  atribuição de competência (sinal de qualidade)

  Suposição 2: O texto âncora de um hyperlink descreve a
  página alvo (conteúdo textual)
Suposição 1: reputação de sites




                                  10
Suposição 2: anotação do alvo




                                11
Sec. 21.1.1




 Texto âncora
   Para ibm como distinguir entre :
      A página da IBM (predominantemente gráfica)
      Página de copyright da IBM (alta frequência do termo
       “ibm”)
      Página spam de um rival (frequencia arbirtráriamente alta
       de algum termo)
                          “ibm.com”           “IBM home page”
          “ibm”
Um milhão de textos
âncora com a palavra
“ibm” são um forte        www.ibm.com
sinal
Sec. 21.1.1




Indexando texto âncora
 Ao indexar um documento D, incluir (com algum
  peso) os textos âncora dos documentos com links
  apontando para D.
      Armonk, NY-based computer
       giant IBM announced today

                                   www.ibm.com


Joe’s computer hardware         Big Blue today announced
links                          record profits for the quarter
Sun
HP
IBM
Sec. 21.1.1




Indexando texto âncora
 Algumas vezes pode ter efeitos não esperados:
  exército do mal.
 É possível atribuir um score ao texto âncora
  dependente da relevância/competência da página
  onde o link se encontra
   Ex., se assumirmos que o conteúdo das páginas de
    ccn.com e yahoo.com têm relevância devemos confiar nos
    textos âncora que apresentam
Sec. 21.1.1




Texto âncora
 Outras aplicações
   Ponderação/filtragem de links em um grafo
   Geração de descrições de páginas a partir
    de textos âncora
A web não cita por mérito
 Milhões de participantes, com interesses individuais
 Spamming é encontrado em todo lugar
 Quando ferramentas de busca começaram a utilizar
  links para classificação (meados de 1998), o spam de
  links aumentou
    Você pode ingressar em um grupo de websites que fazem
     ligações em massa entre si




                                                             16
Links de entrada para páginas –
padrões não-usuais 




                                  17
Sec. 21.2




Pagerank
 Imagine um browser fazendo uma navegação
  aleatória na web:                  1/3
    Inicia em uma página qualquer              1/3
                                                1/3
    A cada passo, sai da página atual por um de seus links, de
     forma equiprovável
 Cada página terá, a longo prazo, uma taxa de
  visitação – usar isso como o score da página.
Sec. 21.2




Isso não é suficiente
 A web está cheia de becos sem saída.
    Caminhamentos aleatórios podem levar a um beco sem
     saída.
    Fica sem sentido falar em taxa de visitação a longo prazo.




                                      ??
Sec. 21.2




Teletransporte
 Em um beco sem saída, pular para uma
  página aleatória.
 Em qualquer página que não seja um beco
  sem saída, manter uma chance de 10% de
  saltar para uma página aleatória.
   Com a probabilidade restante (90%), sair
    por um dos links de forma aleatória.
   10% - é um parâmetro.
Sec. 21.2




Resultados do teletransporte
 Nunca ficar preso em um beco sem
  saída
 Há uma taxa de visitação a longo prazo
  para cada página visitada
A realidade
 Pagerank é utilizado pelo Google e por outros
  motores de busca, mas isso dificilmente conta toda a
  história
    São utilizadas muitas outras heurísticas sofisticadas
    Algumas tratam de classes específicas de consultas
    Aprendizagem de máquina é utilizado amplamente
Sec. 21.3




Hyperlink-Induced Topic Search (HITS)
 Em resposta a uma consulta, ao invés de uma lista
  ordenada de páginas, encontrar dois conjuntos de
  páginas inter-relacionadas:
    Páginas hub são boas coleções de links sobre um
     determinado assunto.
    Páginas competentes ocorrem recorrentemente em
     páginas hub sobre o assunto.
 Mais indicado para consultas mais amplas sobre um
  assunto do que para encontrar páginas específicas.
Sec. 21.3




Hubs e Competências
 Uma boa página hub sobre um
  determinado tópico aponta para várias
  páginas competentes sobre este tópico
 Uma boa página sobre um determinado
  tópico é referenciada por muitas boas
  páginas hub sobre esse tópico
 Definição circular – podemos computar de
  forma iterativa.
Sec. 21.3




 A esperança
                                  Claro
       José
                                       Competências
Hubs

                                 TIM
       Maria
                                 Oi
       Companhias de telefonia móvel
Sec. 21.3




Esquema em alto nível
 Extrair da web um conjunto base de
  páginas que podem ser bons hubs ou
  boas páginas sobre determinados
  tópicos.
 Deste conjunto, identificar um
  pequeno conjunto com as melhores
  páginas hub e páginas mais
  competentes de forma iterativa
Sec. 21.3




Conjunto base
 Dada uma consulta textual (ex. browser), usar
  um índice texto para recuperar todas as
  páginas contendo browser.
   Chamar o resultado de conjunto de páginas raiz
 Adicionar qualquer página ao conjunto que
   Aponta para uma página no conjunto raiz ou
   É referenciada por qualquer página no conjunto
    raiz.
 Chamar o resultado do conjunto base
Sec. 21.3




Visualização



                 Conjunto
                  raíz


               Conjunto base
Sec. 21.3




Destilando hubs e páginas competentes
 Computar, para cada página x no conjunto base,
  um score do hub h(x) e um score de
  competência a(x).
 Inicialização: for all x, h(x)←1; a(x) ←1;
 Atualizar iterativamente h(x), a(x);
 Depois das iterações
   Classificar as páginas com os h() mais altos como
    os top hubs
   Maior score a() é a página mais competente.
Sec. 21.3




Atualização iterativa
 Repetir as seguintes atualizações, para todo x



         h( x ) ←   ∑ a( y )
                    x y
                                       x




         a( x) ←    ∑ h( y )
                    y x
                                              x
Sec. 21.3




Escala
 Para evitar que os valores de h() e a() se
  tornem muito grandes, pode-se ajustar sua
  escala, reduzido para baixo a cada iteração.
 O fator de escala realmente não interessa:
   Nos preocupamos apenas com os valores
    relativos dos scores.
Sec. 21.3




Quantas iterações?
 Os valores relativos dos scores vão convergir
  depois de algumas poucas iterações:
   de fato, escaladas apropriadamente, os scores h()
    e a() entram em um estado de estabilização!
 Na prática, aproxima-se da estabilização após
  cerca de 5 iterações.
Sec. 21.3




Escolas Elementares do Japão
                   Hubs                                    Competências
    schools                                         The American School in Japan
    LINK Page-13                                    The Link Page
    “ú–{‚ÌŠwZ                                      ‰ªès—§ˆä“c¬ŠwZƒz[ƒƒy[ƒW
    a‰„¬ŠwZƒz[ƒƒy[ƒW                          Kids' Space
    100 Schools Home Pages (English)                ˆÀés—§ˆÀé¼•”¬ŠwZ
    K-12 from Japan 10/...rnet and Education )      ‹{é‹³ˆç‘åŠw•‘®¬ŠwZ
    http://www...iglobe.ne.jp/~IKESAN               KEIMEI GAKUEN Home Page ( Japanese )
    ‚l‚f‚j¬ŠwZ‚U”N‚P‘g•¨Œê                        Shiranuma Home Page
    ÒŠ—’¬—§ÒŠ—“Œ¬ŠwZ                            fuzoku-es.fukui-u.ac.jp
    Koulutus ja oppilaitokset                       welcome to Miasa E&J school
    TOYODA HOMEPAGE                                 _“ލ쌧E‰¡•ls—§’†ì¼¬ŠwZ‚̃y
    Education                                       http://www...p/~m_maru/index.html
    Cay's Homepage(Japanese)                        fukui haruyama-es HomePage
    –y“썬ŠwZ‚̃z[ƒƒy[ƒW                        Torisu primary school
    UNIVERSITY                                      goo
    ‰J—³¬ŠwZ DRAGON97-TOP                         Yakumo Elementary,Hokkaido,Japan
    Â‰ª¬ŠwZ‚T”N‚P‘gƒz[ƒƒy[ƒW                  FUZOKU Home Page
    ¶µ°é¼ÂÁ© ¥á¥Ë¥å¡¼ ¥á¥Ë¥å¡¼                      Kamishibun Elementary School...
Sec. 21.3




Fatos interessantes
 Agrupa páginas relevantes independentemente
  de linguagem ou conteúdo.
 Usar análise de links apenas depois que o
  conjunto base estiver montado
   classificação iterativa é independente da consulta.
 Computação iterativa depois de recuperação
  textual – overhead significativo.
Sec. 21.3




Questões
 Desvio de Tópico
   Páginas fora do tópico podem fazer com que
    outras páginas fora fora do tópico sejam
    consideradas competentes
 Reforço mútuo por filiação
   Páginas ou sites afiliados podem aumentar seus
    scores trocando links
      Esse tipo de link não dá informação útil para a busca

Más contenido relacionado

Más de Alexandre Duarte

Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosAlexandre Duarte
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Alexandre Duarte
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaAlexandre Duarte
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como CiênciaAlexandre Duarte
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: IntroduçãoAlexandre Duarte
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerAlexandre Duarte
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBAlexandre Duarte
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisAlexandre Duarte
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e ClassificaçãoAlexandre Duarte
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2DAlexandre Duarte
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1DAlexandre Duarte
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de DadosAlexandre Duarte
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosAlexandre Duarte
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de SurveysAlexandre Duarte
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 

Más de Alexandre Duarte (20)

Projeto de Experimentos
Projeto de ExperimentosProjeto de Experimentos
Projeto de Experimentos
 
Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de Experimentos
 
Causalidade e Abdução
Causalidade e AbduçãoCausalidade e Abdução
Causalidade e Abdução
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e Classificação
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 

Último

Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.Susana Stoffel
 
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniModelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniCassio Meira Jr.
 
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicasCenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicasRosalina Simão Nunes
 
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
activIDADES CUENTO  lobo esta  CUENTO CUARTO GRADOactivIDADES CUENTO  lobo esta  CUENTO CUARTO GRADO
activIDADES CUENTO lobo esta CUENTO CUARTO GRADOcarolinacespedes23
 
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresLilianPiola
 
UFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdfUFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdfManuais Formação
 
Slides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptxSlides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptxSilvana Silva
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOColégio Santa Teresinha
 
Gerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalGerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalJacqueline Cerqueira
 
Sociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresSociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresaulasgege
 
Cultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfCultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfaulasgege
 
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxSlides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxLuizHenriquedeAlmeid6
 
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxSlides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxLuizHenriquedeAlmeid6
 
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Mary Alvarenga
 
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBCRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBAline Santana
 
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMCOMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMVanessaCavalcante37
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxLuizHenriquedeAlmeid6
 
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxQUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxIsabellaGomes58
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdfJorge Andrade
 

Último (20)

Em tempo de Quaresma .
Em tempo de Quaresma                            .Em tempo de Quaresma                            .
Em tempo de Quaresma .
 
Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.
 
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniModelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
 
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicasCenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicas
 
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
activIDADES CUENTO  lobo esta  CUENTO CUARTO GRADOactivIDADES CUENTO  lobo esta  CUENTO CUARTO GRADO
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
 
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
 
UFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdfUFCD_10392_Intervenção em populações de risco_índice .pdf
UFCD_10392_Intervenção em populações de risco_índice .pdf
 
Slides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptxSlides 1 - O gênero textual entrevista.pptx
Slides 1 - O gênero textual entrevista.pptx
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
 
Gerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalGerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem Organizacional
 
Sociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresSociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autores
 
Cultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfCultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdf
 
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptxSlides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
Slides Lição 5, CPAD, Os Inimigos do Cristão, 2Tr24, Pr Henrique.pptx
 
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptxSlides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
Slides Lição 03, Central Gospel, O Arrebatamento, 1Tr24.pptx
 
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
 
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBCRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
 
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEMCOMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
COMPETÊNCIA 1 DA REDAÇÃO DO ENEM - REDAÇÃO ENEM
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
 
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxQUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf
 

Análise de Links

  • 1. Ordenação e Recuperação de Dados Aula 14: Análise de Links Alexandre Duarte alexandre@di.ufpb.br 1 1
  • 2. Aula de hoje – hipertexto e links  Veremos além do conteúdo dos documentos  Começaremos a analisar os hiperlinks entre eles  Tratar de questões como:  Os links representam indicações da relevância de algumas páginas? Está informação é útil na classificação?  Qual a probabilidade de uma página referenciada pela home page do CERN tratar de física nuclear?  Grandes áreas de aplicação  A Web  Email  Redes sociais
  • 3. Links estão em todo lugar  Poderosa ferramenta para autenticidade e autoridade  Mail spam – quais contas de e-mail são de spammers?  Qualidade de servidores – quais servidores são ruins  Log de chamadas telefônicas  O Bom, O Ruim e O Desconhecido ? Good ? ? Bad ?
  • 4. Lógica iterativa simples  O Bom, O Ruim e O Desconhecido  Bons nós não apontam para nós ruin  Todas as outras combinações são plausíveis ? Bom ? ? Ruim ? 4
  • 5. Lógica iterativa simples  Bons nós não apontam para nós ruins  Se você aponta para um nós ruim, você é ruim  Se um nó bom aponta para você, você é bom ? Bom ? ? Ruim ? 5
  • 6. Lógica iterativa simples  Bons nós não apontam para nós ruins  Se você aponta para um nós ruim, você é ruim  Se um nó bom aponta para você, você é bom Bom Ruim 6
  • 7. Muitos outros exemplos de análise de links  Redes sociais são uma rica fonte para análise de comportamento em grupo  Ex., Afinidade de compradores – Goel+Goldstein 2010  Consumidores cujos amigos gastam muito, tendem a gastar muito também  http://www.cs.cornell.edu/home/kleinber/networks-book/ 7
  • 8. Nosso principal interesse neste curso  Análogo a maioria das funcionalidades de um sistema de recuperação de informação baseado puramente em texto  Scoring e classificação  Agrupamento baseado em links  Links como critério de classificação – documentos que apontam para outros documentos tendem a tratar do mesmo assunto  Crawling  Baseado nos links já visitados, para onde ir em seguida? 8
  • 9. Sec. 21.1 A Web como um Grafo Dirigido hyperlink Página A Âncora Página B Suposição 1: Um hyperlink entre duas páginas indica uma atribuição de competência (sinal de qualidade) Suposição 2: O texto âncora de um hyperlink descreve a página alvo (conteúdo textual)
  • 12. Sec. 21.1.1 Texto âncora  Para ibm como distinguir entre :  A página da IBM (predominantemente gráfica)  Página de copyright da IBM (alta frequência do termo “ibm”)  Página spam de um rival (frequencia arbirtráriamente alta de algum termo) “ibm.com” “IBM home page” “ibm” Um milhão de textos âncora com a palavra “ibm” são um forte www.ibm.com sinal
  • 13. Sec. 21.1.1 Indexando texto âncora  Ao indexar um documento D, incluir (com algum peso) os textos âncora dos documentos com links apontando para D. Armonk, NY-based computer giant IBM announced today www.ibm.com Joe’s computer hardware Big Blue today announced links record profits for the quarter Sun HP IBM
  • 14. Sec. 21.1.1 Indexando texto âncora  Algumas vezes pode ter efeitos não esperados: exército do mal.  É possível atribuir um score ao texto âncora dependente da relevância/competência da página onde o link se encontra  Ex., se assumirmos que o conteúdo das páginas de ccn.com e yahoo.com têm relevância devemos confiar nos textos âncora que apresentam
  • 15. Sec. 21.1.1 Texto âncora  Outras aplicações  Ponderação/filtragem de links em um grafo  Geração de descrições de páginas a partir de textos âncora
  • 16. A web não cita por mérito  Milhões de participantes, com interesses individuais  Spamming é encontrado em todo lugar  Quando ferramentas de busca começaram a utilizar links para classificação (meados de 1998), o spam de links aumentou  Você pode ingressar em um grupo de websites que fazem ligações em massa entre si 16
  • 17. Links de entrada para páginas – padrões não-usuais  17
  • 18. Sec. 21.2 Pagerank  Imagine um browser fazendo uma navegação aleatória na web: 1/3  Inicia em uma página qualquer 1/3 1/3  A cada passo, sai da página atual por um de seus links, de forma equiprovável  Cada página terá, a longo prazo, uma taxa de visitação – usar isso como o score da página.
  • 19. Sec. 21.2 Isso não é suficiente  A web está cheia de becos sem saída.  Caminhamentos aleatórios podem levar a um beco sem saída.  Fica sem sentido falar em taxa de visitação a longo prazo. ??
  • 20. Sec. 21.2 Teletransporte  Em um beco sem saída, pular para uma página aleatória.  Em qualquer página que não seja um beco sem saída, manter uma chance de 10% de saltar para uma página aleatória.  Com a probabilidade restante (90%), sair por um dos links de forma aleatória.  10% - é um parâmetro.
  • 21. Sec. 21.2 Resultados do teletransporte  Nunca ficar preso em um beco sem saída  Há uma taxa de visitação a longo prazo para cada página visitada
  • 22. A realidade  Pagerank é utilizado pelo Google e por outros motores de busca, mas isso dificilmente conta toda a história  São utilizadas muitas outras heurísticas sofisticadas  Algumas tratam de classes específicas de consultas  Aprendizagem de máquina é utilizado amplamente
  • 23. Sec. 21.3 Hyperlink-Induced Topic Search (HITS)  Em resposta a uma consulta, ao invés de uma lista ordenada de páginas, encontrar dois conjuntos de páginas inter-relacionadas:  Páginas hub são boas coleções de links sobre um determinado assunto.  Páginas competentes ocorrem recorrentemente em páginas hub sobre o assunto.  Mais indicado para consultas mais amplas sobre um assunto do que para encontrar páginas específicas.
  • 24. Sec. 21.3 Hubs e Competências  Uma boa página hub sobre um determinado tópico aponta para várias páginas competentes sobre este tópico  Uma boa página sobre um determinado tópico é referenciada por muitas boas páginas hub sobre esse tópico  Definição circular – podemos computar de forma iterativa.
  • 25. Sec. 21.3 A esperança Claro José Competências Hubs TIM Maria Oi Companhias de telefonia móvel
  • 26. Sec. 21.3 Esquema em alto nível  Extrair da web um conjunto base de páginas que podem ser bons hubs ou boas páginas sobre determinados tópicos.  Deste conjunto, identificar um pequeno conjunto com as melhores páginas hub e páginas mais competentes de forma iterativa
  • 27. Sec. 21.3 Conjunto base  Dada uma consulta textual (ex. browser), usar um índice texto para recuperar todas as páginas contendo browser.  Chamar o resultado de conjunto de páginas raiz  Adicionar qualquer página ao conjunto que  Aponta para uma página no conjunto raiz ou  É referenciada por qualquer página no conjunto raiz.  Chamar o resultado do conjunto base
  • 28. Sec. 21.3 Visualização Conjunto raíz Conjunto base
  • 29. Sec. 21.3 Destilando hubs e páginas competentes  Computar, para cada página x no conjunto base, um score do hub h(x) e um score de competência a(x).  Inicialização: for all x, h(x)←1; a(x) ←1;  Atualizar iterativamente h(x), a(x);  Depois das iterações  Classificar as páginas com os h() mais altos como os top hubs  Maior score a() é a página mais competente.
  • 30. Sec. 21.3 Atualização iterativa  Repetir as seguintes atualizações, para todo x h( x ) ← ∑ a( y ) x y x a( x) ← ∑ h( y ) y x x
  • 31. Sec. 21.3 Escala  Para evitar que os valores de h() e a() se tornem muito grandes, pode-se ajustar sua escala, reduzido para baixo a cada iteração.  O fator de escala realmente não interessa:  Nos preocupamos apenas com os valores relativos dos scores.
  • 32. Sec. 21.3 Quantas iterações?  Os valores relativos dos scores vão convergir depois de algumas poucas iterações:  de fato, escaladas apropriadamente, os scores h() e a() entram em um estado de estabilização!  Na prática, aproxima-se da estabilização após cerca de 5 iterações.
  • 33. Sec. 21.3 Escolas Elementares do Japão Hubs Competências  schools  The American School in Japan  LINK Page-13  The Link Page  “ú–{‚ÌŠwZ  ‰ªès—§ˆä“c¬ŠwZƒz[ƒƒy[ƒW  a‰„¬ŠwZƒz[ƒƒy[ƒW  Kids' Space  100 Schools Home Pages (English)  ˆÀés—§ˆÀé¼•”¬ŠwZ  K-12 from Japan 10/...rnet and Education )  ‹{é‹³ˆç‘åŠw•‘®¬ŠwZ  http://www...iglobe.ne.jp/~IKESAN  KEIMEI GAKUEN Home Page ( Japanese )  ‚l‚f‚j¬ŠwZ‚U”N‚P‘g•¨Œê  Shiranuma Home Page  ÒŠ—’¬—§ÒŠ—“Œ¬ŠwZ  fuzoku-es.fukui-u.ac.jp  Koulutus ja oppilaitokset  welcome to Miasa E&J school  TOYODA HOMEPAGE  _“ލ쌧E‰¡•ls—§’†ì¼¬ŠwZ‚̃y  Education  http://www...p/~m_maru/index.html  Cay's Homepage(Japanese)  fukui haruyama-es HomePage  –y“썬ŠwZ‚̃z[ƒƒy[ƒW  Torisu primary school  UNIVERSITY  goo  ‰J—³¬ŠwZ DRAGON97-TOP  Yakumo Elementary,Hokkaido,Japan  Â‰ª¬ŠwZ‚T”N‚P‘gƒz[ƒƒy[ƒW  FUZOKU Home Page  ¶µ°é¼ÂÁ© ¥á¥Ë¥å¡¼ ¥á¥Ë¥å¡¼  Kamishibun Elementary School...
  • 34. Sec. 21.3 Fatos interessantes  Agrupa páginas relevantes independentemente de linguagem ou conteúdo.  Usar análise de links apenas depois que o conjunto base estiver montado  classificação iterativa é independente da consulta.  Computação iterativa depois de recuperação textual – overhead significativo.
  • 35. Sec. 21.3 Questões  Desvio de Tópico  Páginas fora do tópico podem fazer com que outras páginas fora fora do tópico sejam consideradas competentes  Reforço mútuo por filiação  Páginas ou sites afiliados podem aumentar seus scores trocando links  Esse tipo de link não dá informação útil para a busca