Análise de Links

Ordenação e Recuperação de Dados

Aula 14:
Análise de Links
Alexandre Duarte
alexandre@di.ufpb.br

1 1

Aula de hoje – hipertexto e links
 Veremos além do conteúdo dos documentos
 Começaremos a analisar os hiperlinks entre eles
 Tratar de questões como:
 Os links representam indicações da relevância de algumas
páginas? Está informação é útil na classificação?
 Qual a probabilidade de uma página referenciada pela
home page do CERN tratar de física nuclear?
 Grandes áreas de aplicação
 A Web
 Email
 Redes sociais

Links estão em todo lugar
 Poderosa ferramenta para autenticidade e
autoridade
 Mail spam – quais contas de e-mail são de spammers?
 Qualidade de servidores – quais servidores são ruins
 Log de chamadas telefônicas
 O Bom, O Ruim e O Desconhecido
?

Good ? ?
Bad

?

Lógica iterativa simples
 O Bom, O Ruim e O Desconhecido
 Bons nós não apontam para nós ruin
 Todas as outras combinações são plausíveis

?

Bom ? ? Ruim

?
4

 Bons nós não apontam para nós ruins
 Se você aponta para um nós ruim, você é ruim
 Se um nó bom aponta para você, você é bom

?

Bom ? ? Ruim

?
5

 Bons nós não apontam para nós ruins
 Se você aponta para um nós ruim, você é ruim
 Se um nó bom aponta para você, você é bom

Bom Ruim

6

Muitos outros exemplos de análise de
links
 Redes sociais são uma rica fonte para análise de
comportamento em grupo
 Ex., Afinidade de compradores – Goel+Goldstein
2010
 Consumidores cujos amigos gastam muito, tendem a
gastar muito também
 http://www.cs.cornell.edu/home/kleinber/networks-book/

7

Nosso principal interesse neste curso
 Análogo a maioria das funcionalidades de um
sistema de recuperação de informação baseado
puramente em texto
 Scoring e classificação
 Agrupamento baseado em links
 Links como critério de classificação – documentos que
apontam para outros documentos tendem a tratar do
mesmo assunto
 Crawling
 Baseado nos links já visitados, para onde ir em seguida?

8

Sec. 21.1

A Web como um Grafo Dirigido

hyperlink
Página A Âncora Página B

Suposição 1: Um hyperlink entre duas páginas indica uma
atribuição de competência (sinal de qualidade)

Suposição 2: O texto âncora de um hyperlink descreve a
página alvo (conteúdo textual)

Suposição 1: reputação de sites

10

Suposição 2: anotação do alvo

11

Sec. 21.1.1

Texto âncora
 Para ibm como distinguir entre :
 A página da IBM (predominantemente gráfica)
 Página de copyright da IBM (alta frequência do termo
“ibm”)
 Página spam de um rival (frequencia arbirtráriamente alta
de algum termo)
“ibm.com” “IBM home page”
“ibm”
Um milhão de textos
âncora com a palavra
“ibm” são um forte www.ibm.com
sinal

Sec. 21.1.1

Indexando texto âncora
 Ao indexar um documento D, incluir (com algum
peso) os textos âncora dos documentos com links
apontando para D.
Armonk, NY-based computer
giant IBM announced today

www.ibm.com

Joe’s computer hardware Big Blue today announced
links record profits for the quarter
Sun
HP
IBM

Sec. 21.1.1

Indexando texto âncora
 Algumas vezes pode ter efeitos não esperados:
exército do mal.
 É possível atribuir um score ao texto âncora
dependente da relevância/competência da página
onde o link se encontra
 Ex., se assumirmos que o conteúdo das páginas de
ccn.com e yahoo.com têm relevância devemos confiar nos
textos âncora que apresentam

Sec. 21.1.1

Texto âncora
 Outras aplicações
 Ponderação/filtragem de links em um grafo
 Geração de descrições de páginas a partir
de textos âncora

A web não cita por mérito
 Milhões de participantes, com interesses individuais
 Spamming é encontrado em todo lugar
 Quando ferramentas de busca começaram a utilizar
links para classificação (meados de 1998), o spam de
links aumentou
 Você pode ingressar em um grupo de websites que fazem
ligações em massa entre si

16

Links de entrada para páginas –
padrões não-usuais 

17

Sec. 21.2

Pagerank
 Imagine um browser fazendo uma navegação
aleatória na web: 1/3
 Inicia em uma página qualquer 1/3
1/3
 A cada passo, sai da página atual por um de seus links, de
forma equiprovável
 Cada página terá, a longo prazo, uma taxa de
visitação – usar isso como o score da página.

Sec. 21.2

Isso não é suficiente
 A web está cheia de becos sem saída.
 Caminhamentos aleatórios podem levar a um beco sem
saída.
 Fica sem sentido falar em taxa de visitação a longo prazo.

??

Sec. 21.2

Teletransporte
 Em um beco sem saída, pular para uma
página aleatória.
 Em qualquer página que não seja um beco
sem saída, manter uma chance de 10% de
saltar para uma página aleatória.
 Com a probabilidade restante (90%), sair
por um dos links de forma aleatória.
 10% - é um parâmetro.

Sec. 21.2

Resultados do teletransporte
 Nunca ficar preso em um beco sem
saída
 Há uma taxa de visitação a longo prazo
para cada página visitada

A realidade
 Pagerank é utilizado pelo Google e por outros
motores de busca, mas isso dificilmente conta toda a
história
 São utilizadas muitas outras heurísticas sofisticadas
 Algumas tratam de classes específicas de consultas
 Aprendizagem de máquina é utilizado amplamente

Sec. 21.3

Hyperlink-Induced Topic Search (HITS)
 Em resposta a uma consulta, ao invés de uma lista
ordenada de páginas, encontrar dois conjuntos de
páginas inter-relacionadas:
 Páginas hub são boas coleções de links sobre um
determinado assunto.
 Páginas competentes ocorrem recorrentemente em
páginas hub sobre o assunto.
 Mais indicado para consultas mais amplas sobre um
assunto do que para encontrar páginas específicas.

Sec. 21.3

Hubs e Competências
 Uma boa página hub sobre um
determinado tópico aponta para várias
páginas competentes sobre este tópico
 Uma boa página sobre um determinado
tópico é referenciada por muitas boas
páginas hub sobre esse tópico
 Definição circular – podemos computar de
forma iterativa.

Sec. 21.3

A esperança
Claro
José
Competências
Hubs

TIM
Maria
Oi
Companhias de telefonia móvel

Sec. 21.3

Esquema em alto nível
 Extrair da web um conjunto base de
páginas que podem ser bons hubs ou
boas páginas sobre determinados
tópicos.
 Deste conjunto, identificar um
pequeno conjunto com as melhores
páginas hub e páginas mais
competentes de forma iterativa

Sec. 21.3

Conjunto base
 Dada uma consulta textual (ex. browser), usar
um índice texto para recuperar todas as
páginas contendo browser.
 Chamar o resultado de conjunto de páginas raiz
 Adicionar qualquer página ao conjunto que
 Aponta para uma página no conjunto raiz ou
 É referenciada por qualquer página no conjunto
raiz.
 Chamar o resultado do conjunto base

Sec. 21.3

Visualização

Conjunto
raíz

Conjunto base

Sec. 21.3

Destilando hubs e páginas competentes
 Computar, para cada página x no conjunto base,
um score do hub h(x) e um score de
competência a(x).
 Inicialização: for all x, h(x)←1; a(x) ←1;
 Atualizar iterativamente h(x), a(x);
 Depois das iterações
 Classificar as páginas com os h() mais altos como
os top hubs
 Maior score a() é a página mais competente.

Sec. 21.3

Atualização iterativa
 Repetir as seguintes atualizações, para todo x

h( x ) ← ∑ a( y )
x y
x

a( x) ← ∑ h( y )
y x
x

Sec. 21.3

Escala
 Para evitar que os valores de h() e a() se
tornem muito grandes, pode-se ajustar sua
escala, reduzido para baixo a cada iteração.
 O fator de escala realmente não interessa:
 Nos preocupamos apenas com os valores
relativos dos scores.

Sec. 21.3

Quantas iterações?
 Os valores relativos dos scores vão convergir
depois de algumas poucas iterações:
 de fato, escaladas apropriadamente, os scores h()
e a() entram em um estado de estabilização!
 Na prática, aproxima-se da estabilização após
cerca de 5 iterações.

Sec. 21.3

Escolas Elementares do Japão
Hubs Competências
 schools  The American School in Japan
 LINK Page-13  The Link Page
 “ú–{‚ÌŠwZ  ‰ªès—§ˆä“c¬ŠwZƒz[ƒƒy[ƒW
 a‰„¬ŠwZƒz[ƒƒy[ƒW  Kids' Space
 100 Schools Home Pages (English)  ˆÀés—§ˆÀé¼•”¬ŠwZ
 K-12 from Japan 10/...rnet and Education )  ‹{é‹³ˆç‘åŠw•‘®¬ŠwZ
 http://www...iglobe.ne.jp/~IKESAN  KEIMEI GAKUEN Home Page ( Japanese )
 ‚l‚f‚j¬ŠwZ‚U”N‚P‘g•¨Œê  Shiranuma Home Page
 ÒŠ—’¬—§ÒŠ—“Œ¬ŠwZ  fuzoku-es.fukui-u.ac.jp
 Koulutus ja oppilaitokset  welcome to Miasa E&J school
 TOYODA HOMEPAGE  _“ÞìŒ§E‰¡•ls—§’†ì¼¬ŠwZ‚Ìƒy
 Education  http://www...p/~m_maru/index.html
 Cay's Homepage(Japanese)  fukui haruyama-es HomePage
 –y“ì¬ŠwZ‚Ìƒz[ƒƒy[ƒW  Torisu primary school
 UNIVERSITY  goo
 ‰J—³¬ŠwZ DRAGON97-TOP  Yakumo Elementary,Hokkaido,Japan
 Â‰ª¬ŠwZ‚T”N‚P‘gƒz[ƒƒy[ƒW  FUZOKU Home Page
 ¶µ°é¼ÂÁ© ¥á¥Ë¥å¡¼ ¥á¥Ë¥å¡¼  Kamishibun Elementary School...

Sec. 21.3

Fatos interessantes
 Agrupa páginas relevantes independentemente
de linguagem ou conteúdo.
 Usar análise de links apenas depois que o
conjunto base estiver montado
 classificação iterativa é independente da consulta.
 Computação iterativa depois de recuperação
textual – overhead significativo.

Sec. 21.3

Questões
 Desvio de Tópico
 Páginas fora do tópico podem fazer com que
outras páginas fora fora do tópico sejam
consideradas competentes
 Reforço mútuo por filiação
 Páginas ou sites afiliados podem aumentar seus
scores trocando links
 Esse tipo de link não dá informação útil para a busca

Análise de Links

Recomendados

Recomendados

Más contenido relacionado

Más de Alexandre Duarte

Más de Alexandre Duarte (20)

Último

Último (20)

Análise de Links