02. Informática - Windows 10 apostila completa.pdf
Análise de Links
1. Ordenação e Recuperação de Dados
Aula 14:
Análise de Links
Alexandre Duarte
alexandre@di.ufpb.br
1 1
2. Aula de hoje – hipertexto e links
Veremos além do conteúdo dos documentos
Começaremos a analisar os hiperlinks entre eles
Tratar de questões como:
Os links representam indicações da relevância de algumas
páginas? Está informação é útil na classificação?
Qual a probabilidade de uma página referenciada pela
home page do CERN tratar de física nuclear?
Grandes áreas de aplicação
A Web
Email
Redes sociais
3. Links estão em todo lugar
Poderosa ferramenta para autenticidade e
autoridade
Mail spam – quais contas de e-mail são de spammers?
Qualidade de servidores – quais servidores são ruins
Log de chamadas telefônicas
O Bom, O Ruim e O Desconhecido
?
Good ? ?
Bad
?
4. Lógica iterativa simples
O Bom, O Ruim e O Desconhecido
Bons nós não apontam para nós ruin
Todas as outras combinações são plausíveis
?
Bom ? ? Ruim
?
4
5. Lógica iterativa simples
Bons nós não apontam para nós ruins
Se você aponta para um nós ruim, você é ruim
Se um nó bom aponta para você, você é bom
?
Bom ? ? Ruim
?
5
6. Lógica iterativa simples
Bons nós não apontam para nós ruins
Se você aponta para um nós ruim, você é ruim
Se um nó bom aponta para você, você é bom
Bom Ruim
6
7. Muitos outros exemplos de análise de
links
Redes sociais são uma rica fonte para análise de
comportamento em grupo
Ex., Afinidade de compradores – Goel+Goldstein
2010
Consumidores cujos amigos gastam muito, tendem a
gastar muito também
http://www.cs.cornell.edu/home/kleinber/networks-book/
7
8. Nosso principal interesse neste curso
Análogo a maioria das funcionalidades de um
sistema de recuperação de informação baseado
puramente em texto
Scoring e classificação
Agrupamento baseado em links
Links como critério de classificação – documentos que
apontam para outros documentos tendem a tratar do
mesmo assunto
Crawling
Baseado nos links já visitados, para onde ir em seguida?
8
9. Sec. 21.1
A Web como um Grafo Dirigido
hyperlink
Página A Âncora Página B
Suposição 1: Um hyperlink entre duas páginas indica uma
atribuição de competência (sinal de qualidade)
Suposição 2: O texto âncora de um hyperlink descreve a
página alvo (conteúdo textual)
12. Sec. 21.1.1
Texto âncora
Para ibm como distinguir entre :
A página da IBM (predominantemente gráfica)
Página de copyright da IBM (alta frequência do termo
“ibm”)
Página spam de um rival (frequencia arbirtráriamente alta
de algum termo)
“ibm.com” “IBM home page”
“ibm”
Um milhão de textos
âncora com a palavra
“ibm” são um forte www.ibm.com
sinal
13. Sec. 21.1.1
Indexando texto âncora
Ao indexar um documento D, incluir (com algum
peso) os textos âncora dos documentos com links
apontando para D.
Armonk, NY-based computer
giant IBM announced today
www.ibm.com
Joe’s computer hardware Big Blue today announced
links record profits for the quarter
Sun
HP
IBM
14. Sec. 21.1.1
Indexando texto âncora
Algumas vezes pode ter efeitos não esperados:
exército do mal.
É possível atribuir um score ao texto âncora
dependente da relevância/competência da página
onde o link se encontra
Ex., se assumirmos que o conteúdo das páginas de
ccn.com e yahoo.com têm relevância devemos confiar nos
textos âncora que apresentam
15. Sec. 21.1.1
Texto âncora
Outras aplicações
Ponderação/filtragem de links em um grafo
Geração de descrições de páginas a partir
de textos âncora
16. A web não cita por mérito
Milhões de participantes, com interesses individuais
Spamming é encontrado em todo lugar
Quando ferramentas de busca começaram a utilizar
links para classificação (meados de 1998), o spam de
links aumentou
Você pode ingressar em um grupo de websites que fazem
ligações em massa entre si
16
18. Sec. 21.2
Pagerank
Imagine um browser fazendo uma navegação
aleatória na web: 1/3
Inicia em uma página qualquer 1/3
1/3
A cada passo, sai da página atual por um de seus links, de
forma equiprovável
Cada página terá, a longo prazo, uma taxa de
visitação – usar isso como o score da página.
19. Sec. 21.2
Isso não é suficiente
A web está cheia de becos sem saída.
Caminhamentos aleatórios podem levar a um beco sem
saída.
Fica sem sentido falar em taxa de visitação a longo prazo.
??
20. Sec. 21.2
Teletransporte
Em um beco sem saída, pular para uma
página aleatória.
Em qualquer página que não seja um beco
sem saída, manter uma chance de 10% de
saltar para uma página aleatória.
Com a probabilidade restante (90%), sair
por um dos links de forma aleatória.
10% - é um parâmetro.
21. Sec. 21.2
Resultados do teletransporte
Nunca ficar preso em um beco sem
saída
Há uma taxa de visitação a longo prazo
para cada página visitada
22. A realidade
Pagerank é utilizado pelo Google e por outros
motores de busca, mas isso dificilmente conta toda a
história
São utilizadas muitas outras heurísticas sofisticadas
Algumas tratam de classes específicas de consultas
Aprendizagem de máquina é utilizado amplamente
23. Sec. 21.3
Hyperlink-Induced Topic Search (HITS)
Em resposta a uma consulta, ao invés de uma lista
ordenada de páginas, encontrar dois conjuntos de
páginas inter-relacionadas:
Páginas hub são boas coleções de links sobre um
determinado assunto.
Páginas competentes ocorrem recorrentemente em
páginas hub sobre o assunto.
Mais indicado para consultas mais amplas sobre um
assunto do que para encontrar páginas específicas.
24. Sec. 21.3
Hubs e Competências
Uma boa página hub sobre um
determinado tópico aponta para várias
páginas competentes sobre este tópico
Uma boa página sobre um determinado
tópico é referenciada por muitas boas
páginas hub sobre esse tópico
Definição circular – podemos computar de
forma iterativa.
25. Sec. 21.3
A esperança
Claro
José
Competências
Hubs
TIM
Maria
Oi
Companhias de telefonia móvel
26. Sec. 21.3
Esquema em alto nível
Extrair da web um conjunto base de
páginas que podem ser bons hubs ou
boas páginas sobre determinados
tópicos.
Deste conjunto, identificar um
pequeno conjunto com as melhores
páginas hub e páginas mais
competentes de forma iterativa
27. Sec. 21.3
Conjunto base
Dada uma consulta textual (ex. browser), usar
um índice texto para recuperar todas as
páginas contendo browser.
Chamar o resultado de conjunto de páginas raiz
Adicionar qualquer página ao conjunto que
Aponta para uma página no conjunto raiz ou
É referenciada por qualquer página no conjunto
raiz.
Chamar o resultado do conjunto base
29. Sec. 21.3
Destilando hubs e páginas competentes
Computar, para cada página x no conjunto base,
um score do hub h(x) e um score de
competência a(x).
Inicialização: for all x, h(x)←1; a(x) ←1;
Atualizar iterativamente h(x), a(x);
Depois das iterações
Classificar as páginas com os h() mais altos como
os top hubs
Maior score a() é a página mais competente.
31. Sec. 21.3
Escala
Para evitar que os valores de h() e a() se
tornem muito grandes, pode-se ajustar sua
escala, reduzido para baixo a cada iteração.
O fator de escala realmente não interessa:
Nos preocupamos apenas com os valores
relativos dos scores.
32. Sec. 21.3
Quantas iterações?
Os valores relativos dos scores vão convergir
depois de algumas poucas iterações:
de fato, escaladas apropriadamente, os scores h()
e a() entram em um estado de estabilização!
Na prática, aproxima-se da estabilização após
cerca de 5 iterações.
34. Sec. 21.3
Fatos interessantes
Agrupa páginas relevantes independentemente
de linguagem ou conteúdo.
Usar análise de links apenas depois que o
conjunto base estiver montado
classificação iterativa é independente da consulta.
Computação iterativa depois de recuperação
textual – overhead significativo.
35. Sec. 21.3
Questões
Desvio de Tópico
Páginas fora do tópico podem fazer com que
outras páginas fora fora do tópico sejam
consideradas competentes
Reforço mútuo por filiação
Páginas ou sites afiliados podem aumentar seus
scores trocando links
Esse tipo de link não dá informação útil para a busca