WEB y TEXT MINING
Link AnalysisJuan Azcurra
Introducción
 Al comienzo los motores de búsquedas comparaban
la similaridad de contenido una consulta y las páginas
indexadas.
 Utilizando métodos de information retrieval coseno, TF-IDF, ...
 A partir de 1996, se hizo evidente que la similaridad de
contenido no era suficiente.
 El número de páginas creció rapidamente a mediados de los
90.
 Intentaron “técnicas de clasificación”, Google estimó 10 millones
de páginas relevantes.
 Cómo seleccionar solo 30-40 páginas y clasificarlas
adecuadamente para presentarlas a los usuarios?
 Similaridad de contenido es fácil de spam
 El dueño de una página se puede repetir unas palabras y
agregar muchas palabras relacionadas para impulsar el
ranking de sus páginas y/o para hacer las páginas relevantes
para un gran número de consultas.
2
Introducción
 A comienzo de 1996 los investigadores
comenzaron a trabajar e el problema, recurriendo
a hyperlinks.
 En 1997 Robin Li registró una patente de búsqueda
basada en hyperlinks. El método usa las palabras en
el texto del hyperlink.
 Las páginas web son conectadas a través de
hyperlinks, que contienen información importante:
 Algunos hyperlinks: organizan información al mismo sitio.
 Otros hyperlinks: apuntan a páginas de otros Web sites. Estos
hyperlinks salientes a menudo indican una transmisión implicita
de autoridad a las páginas que apuntan.
 Aquellas páginas que son apuntadas por muchas otras
páginas pueden contener información fidedigna
(autoridad).
3
Introducción
 Durante 1997-1998 aparecieron dos de los más
influyentes algoritmos de búsqueda basados en
hyperlinks: PageRank y HITS.
 Ambos algoritmos se relacionan con redes
sociales, explotan los hipervínculos de la Web
para clasificar las páginas en función de sus
niveles de prestigio o autoridad.
 HITS: Jon Kleinberg (Cornel University), en el
Simposio sobre algoritmos discretos, enero de 1998.
 PageRank: Sergey Brin y Larry Page, (Stanford
University), (WWW7), abril de 1998. PageRank
potencia el motor de búsqueda de Google.
4
Introducción
 Además del ranking de búsquedas, los hyperlinks
son útiles encontrando comunidades Web.
 Una comunidad Web es un conjunto de páginas
densamente unidas representando un grupo de
personas con un interés en común.
 Más allá de hyperlinks explícitos en la Web, links en
otros contextos son útiles también.
 para descubrir comunidades de entidades (personas u
organizaciones) en textos libres de documentos, etc.
 para analizar fenómenos sociales en mais.
5
Análisis de redes sociales
 Redes sociales es el estudio de entidades sociales
(personas en una organización, llamados actores) y sus
interacciones y relaciones.
 Las interacciones y relaciones pueden ser
representadas con una red o grafo,
 cada vértice (o nodo) representa un actor
 cada link representa una relación.
 Desde la red, podemos estudiar las propiedades
de su estructura, y el rol, posición y prestigio de
cada actor social.
 Podemos también encontrar varios tipos de sub-
grafos, comunidades formadas por grupos de
actores.
6
Redes sociales y la Web
 Análisis de redes sociales es muy útil para la Web
porque la Web es esencialmente una sociedad
virtual,
 cada página: un actor social,
 cada hyperlink: una relación.
 Muchos resultados de redes sociales pueden ser
adaptados y extendidos para usar en el contexto
de la Web.
 Estudiaremos 2 tipos de análisis de redes
sociales, centralidad y prestigio, que están
relacionadas a análisis de hyperlink y búsqueda
en la Web.
7
Centralidad
 Actores importantes o prominentes son
aquellos que están involucrados con otros
actores ampliamente.
 Una persona con amplios contactos (links) o
comunicaciones con muchas otras personas
en la organización es considerado más
importante que una persona con menos
contactos.
 Los links también pueden ser llamados lazos.
Un actor central es uno que participa en
muchos lazos.
8
Grado de centralidad
9
Prestigio
 El prestigio es una medida más precisa de un
actor que la centralidad.
 Distinguir: lazo enviado (link saliente) y lazo recibido (link
entrante)
 Un actor de prestigio es aquel con altos vinculos
entrantes.
 Para calcular el prestigio: solamente utilizamos links
entrantes.
 Diferencia entre centralidad y prestigio:
 Centralidad se basa en los links salientes.
 Prestigio se basa en los links entrantes.
 Medidas de prestigio. Rank prestige constituye la base
de la mayoría de los algoritmos de Web page link
analysis, incluyendo PageRank y HITS.
10
Grado de prestigio
11
PageRank
 El año 1998 fue un año agitado para el
modelo de análisis de enlaces Web. Los
algoritmos PageRank y HITS fueron
publicados en ese año.
 Las conexiones entre PageRank y HITS son
bastantes sorprendentes.
 Desde ese momento, PageRank se ha
convertido en el modelo de análisis de link
domintante:
 debido a la independencia de las consultas,
 su habilidad para combatir el spamming,
 gran suceso del negocio de Google.
12
PageRank: definición general
 PageRank confia en la naturaleza democrática de
la web usando su basta estructura de links
como un indicador de valor de calidad de cada
página individual.
 PageRank interpreta un hyperlink de una página x a
una página y como un voto, de la página x para la
página y.
 Sin embargo, PageRank mira más que el número
total de votos, también analiza la página que emite
el voto.
 Votos emitidos por páginas “importantes” pesan más y
ayudan a hacer “más importantes” otras páginas.
 Esto es exactamente la idea de ranking de
prestigio en una red social.
13
PageRank: más
especificamente
 Un hyperlink de una página a otra es un medio
implícito de autoridad a la página de destino.
 Cuánto más links-entrantes una página i recibe,
más prestigio la página i tiene.
 Las páginas que apuntan a la página i también
tienen su nivel de prestigio.
 Una página de alto prestigio apuntando a i es más
importante que una página de menor prestigio
apuntando a i.
 En otras palabras, una página es más importante si
es apuntanda por otras páginas importantes.
14
PageRank: Algoritmo
 De acuerdo al ranking de prestigio, la
importante de una página i (valor PageRank
de i) es la suma de valores de PageRank de
todas las páginas que apuntan a i.
 Desde que una página puede apuntar a
muchas otras, su valor de prestigio debe ser
compartido.
 La Web como un grafo dirigido G = (V, E).
Donde el número de páginas es n. El valor
de PageRank de una página i (denotada
P(i)) es definida como:,
)(
)(
),(


Eij jO
jP
iP Oj is the number
of out-link of j
15
PageRank: Ejemplo
 Asumiendo 4 páginas (A, B, C, D) con un
PageRank inicial de 0.25
 Si B, C y D apuntan a A, entonces el PR de A
será de 0.75
 Suponiendo que B tiene links a C y A y D tiene
links a las 3, entonces en la siguiente iteración B
le transferirá la mitad de su valor a A y D a las 3,
mientras que C no tiene links salientes.
 En otras palabras, el PR conferido por un link
saliente es igual al score de PR divido la cantidad
de links salientes.
 Obteniendo la formula general:
16
PageRank: Ejemplo
Matematicamente PageRanks para
una red simple, expresado como
porcentajes (Google usa una escala
logaritmica). C tiene el más alto
PageRank más que E, a pesar que hay
menos enlances a C, el link a C viene
de una página de mayor importancia y
por lo tanto es de gran valor. Si los
navegantes comenzaran por una
página al azar tendría 85% de
probabilidad de elegir un link al azar a
partir de la página que están visitando y
un 15% de probabilidad de saltar a una
página elegida al azar de la web, ellos
llegarían a la página E el 8,1% de las
veces (el 15% de probabilidad de saltar
a una página arbitraria corresponde al
factor de damping de 85%).
17
PageRank: Ventajas
 Lucha contra el spam. Una página es importante
si las páginas que apuntan a ella también lo son.
 Dado que no es fácil para el dueño de una página
Web agregar enlaces en página desde otras
páginas importantes, no es por lo tanto fácil de
influenciar PageRank.
 PageRank es una medida global independiente
de las consultas.
 Los valores de PageRank para todas las páginas son
calculadas y guardas en forma off-line más que en tiempo
de la consulta.
18
HITS
 HITS proviene de Hypertext Induced Topic
Search.
 A diferencia de PageRank que es un algoritmo
de ranking estático, HITS es dependiente a la
consulta de búsqueda.
 Cuando un usuario envia una consulta de
búsqueda,
 HITS primero expande la lista de páginas
relevantes devueltas por el motor de búsqueda, y
 produce 2 rankings del conjunto de páginas
expandidas, ranking de autoridad y ranking
19
Autoridad y Hubs
Autoridad: a grandes rasgos, la autoridad es
una página con muchos links entrantes.
 La idea es que la página tenga un buen
contenido o autoridad sobre un tema,
 así que mucha gente confía en ella y enlazar con
ella.
Hub: Un hub es una página con muchos links
salientes.
 La página sirve como un organizador de la
información de un tema en particular y
 apunta a muchas páginas de autoridad sobre el
20
Ejemplos
21
Ideas claves de HITS
22
 Un hub bueno apunta a muchas
autoridades buenas, y
 Una autoridad buena es apuntada por
muchos hubs buenos.
 Autoridades y hubs tienen una
relación de refuerzo mutuo
HITS: Algoritmo
23
 Dado una consulta de búsqueda q, HITS
recolecta un conjunto de páginas con los
siguientes pasos:
 Envia la consulta q al motor de búsqueda.
 Se recoge entonces t (t = 200 es usando en el
paper de HITS) el valor más alto de páginas
rankeadas. Esto es llamada el conjunto raiz W.
 Crece W incluyendo cualquier página que apunte
a una en W y cualquiera apuntada por W. Esto da
lugar al conjunto S, conjunto base.
Grafo G
24
 HITS trabaja en las páginas en S y asigna
a cada página S un score de autoridad y
un score de hub.
 Sea n el número de páginas en S.
 Nuevamente se usa G = (V, E) para
denotar el grafo de hyperlinks de S
 Usamos L para denotar la matriz de
adyacencia del grafo.


 

otherwise
Ejiif
Lij
0
),(1
HITS: Algoritmo
25
 Sea a(i) el score de autoridad de una página i,
y h(i) el score de hub de la página i.
 La relación de refuerzo mutual de los dos
scores están representado por:


Eij
jhia
),(
)()(


Eji
jaih
),(
)()(
Ventajas y desventas de HITS
26
 Ventajas: su habilidad de rankear páginas de
acuerdo al tema de la consulta, puede ser capaz de
proveer autoridades y hubs más relevantes.
 Desventajas:
 Spam. De hecho es facil de influenciar HITS desde afuera
añadiendo enlaces de la propia página.
 Derivación de temas. Muchas páginas en el conjunto
expandido no pueden ser del mismo tema.
 Tiempo de respuesta ineficiente. El tiempo de evaluación
de la consulta es bajo. Recolectar el conjunto raiz,
expandirlo y calcular el autovector de todas las
operaciones es expansiva.

Web Link Analysis

  • 1.
    WEB y TEXTMINING Link AnalysisJuan Azcurra
  • 2.
    Introducción  Al comienzolos motores de búsquedas comparaban la similaridad de contenido una consulta y las páginas indexadas.  Utilizando métodos de information retrieval coseno, TF-IDF, ...  A partir de 1996, se hizo evidente que la similaridad de contenido no era suficiente.  El número de páginas creció rapidamente a mediados de los 90.  Intentaron “técnicas de clasificación”, Google estimó 10 millones de páginas relevantes.  Cómo seleccionar solo 30-40 páginas y clasificarlas adecuadamente para presentarlas a los usuarios?  Similaridad de contenido es fácil de spam  El dueño de una página se puede repetir unas palabras y agregar muchas palabras relacionadas para impulsar el ranking de sus páginas y/o para hacer las páginas relevantes para un gran número de consultas. 2
  • 3.
    Introducción  A comienzode 1996 los investigadores comenzaron a trabajar e el problema, recurriendo a hyperlinks.  En 1997 Robin Li registró una patente de búsqueda basada en hyperlinks. El método usa las palabras en el texto del hyperlink.  Las páginas web son conectadas a través de hyperlinks, que contienen información importante:  Algunos hyperlinks: organizan información al mismo sitio.  Otros hyperlinks: apuntan a páginas de otros Web sites. Estos hyperlinks salientes a menudo indican una transmisión implicita de autoridad a las páginas que apuntan.  Aquellas páginas que son apuntadas por muchas otras páginas pueden contener información fidedigna (autoridad). 3
  • 4.
    Introducción  Durante 1997-1998aparecieron dos de los más influyentes algoritmos de búsqueda basados en hyperlinks: PageRank y HITS.  Ambos algoritmos se relacionan con redes sociales, explotan los hipervínculos de la Web para clasificar las páginas en función de sus niveles de prestigio o autoridad.  HITS: Jon Kleinberg (Cornel University), en el Simposio sobre algoritmos discretos, enero de 1998.  PageRank: Sergey Brin y Larry Page, (Stanford University), (WWW7), abril de 1998. PageRank potencia el motor de búsqueda de Google. 4
  • 5.
    Introducción  Además delranking de búsquedas, los hyperlinks son útiles encontrando comunidades Web.  Una comunidad Web es un conjunto de páginas densamente unidas representando un grupo de personas con un interés en común.  Más allá de hyperlinks explícitos en la Web, links en otros contextos son útiles también.  para descubrir comunidades de entidades (personas u organizaciones) en textos libres de documentos, etc.  para analizar fenómenos sociales en mais. 5
  • 6.
    Análisis de redessociales  Redes sociales es el estudio de entidades sociales (personas en una organización, llamados actores) y sus interacciones y relaciones.  Las interacciones y relaciones pueden ser representadas con una red o grafo,  cada vértice (o nodo) representa un actor  cada link representa una relación.  Desde la red, podemos estudiar las propiedades de su estructura, y el rol, posición y prestigio de cada actor social.  Podemos también encontrar varios tipos de sub- grafos, comunidades formadas por grupos de actores. 6
  • 7.
    Redes sociales yla Web  Análisis de redes sociales es muy útil para la Web porque la Web es esencialmente una sociedad virtual,  cada página: un actor social,  cada hyperlink: una relación.  Muchos resultados de redes sociales pueden ser adaptados y extendidos para usar en el contexto de la Web.  Estudiaremos 2 tipos de análisis de redes sociales, centralidad y prestigio, que están relacionadas a análisis de hyperlink y búsqueda en la Web. 7
  • 8.
    Centralidad  Actores importanteso prominentes son aquellos que están involucrados con otros actores ampliamente.  Una persona con amplios contactos (links) o comunicaciones con muchas otras personas en la organización es considerado más importante que una persona con menos contactos.  Los links también pueden ser llamados lazos. Un actor central es uno que participa en muchos lazos. 8
  • 9.
  • 10.
    Prestigio  El prestigioes una medida más precisa de un actor que la centralidad.  Distinguir: lazo enviado (link saliente) y lazo recibido (link entrante)  Un actor de prestigio es aquel con altos vinculos entrantes.  Para calcular el prestigio: solamente utilizamos links entrantes.  Diferencia entre centralidad y prestigio:  Centralidad se basa en los links salientes.  Prestigio se basa en los links entrantes.  Medidas de prestigio. Rank prestige constituye la base de la mayoría de los algoritmos de Web page link analysis, incluyendo PageRank y HITS. 10
  • 11.
  • 12.
    PageRank  El año1998 fue un año agitado para el modelo de análisis de enlaces Web. Los algoritmos PageRank y HITS fueron publicados en ese año.  Las conexiones entre PageRank y HITS son bastantes sorprendentes.  Desde ese momento, PageRank se ha convertido en el modelo de análisis de link domintante:  debido a la independencia de las consultas,  su habilidad para combatir el spamming,  gran suceso del negocio de Google. 12
  • 13.
    PageRank: definición general PageRank confia en la naturaleza democrática de la web usando su basta estructura de links como un indicador de valor de calidad de cada página individual.  PageRank interpreta un hyperlink de una página x a una página y como un voto, de la página x para la página y.  Sin embargo, PageRank mira más que el número total de votos, también analiza la página que emite el voto.  Votos emitidos por páginas “importantes” pesan más y ayudan a hacer “más importantes” otras páginas.  Esto es exactamente la idea de ranking de prestigio en una red social. 13
  • 14.
    PageRank: más especificamente  Unhyperlink de una página a otra es un medio implícito de autoridad a la página de destino.  Cuánto más links-entrantes una página i recibe, más prestigio la página i tiene.  Las páginas que apuntan a la página i también tienen su nivel de prestigio.  Una página de alto prestigio apuntando a i es más importante que una página de menor prestigio apuntando a i.  En otras palabras, una página es más importante si es apuntanda por otras páginas importantes. 14
  • 15.
    PageRank: Algoritmo  Deacuerdo al ranking de prestigio, la importante de una página i (valor PageRank de i) es la suma de valores de PageRank de todas las páginas que apuntan a i.  Desde que una página puede apuntar a muchas otras, su valor de prestigio debe ser compartido.  La Web como un grafo dirigido G = (V, E). Donde el número de páginas es n. El valor de PageRank de una página i (denotada P(i)) es definida como:, )( )( ),(   Eij jO jP iP Oj is the number of out-link of j 15
  • 16.
    PageRank: Ejemplo  Asumiendo4 páginas (A, B, C, D) con un PageRank inicial de 0.25  Si B, C y D apuntan a A, entonces el PR de A será de 0.75  Suponiendo que B tiene links a C y A y D tiene links a las 3, entonces en la siguiente iteración B le transferirá la mitad de su valor a A y D a las 3, mientras que C no tiene links salientes.  En otras palabras, el PR conferido por un link saliente es igual al score de PR divido la cantidad de links salientes.  Obteniendo la formula general: 16
  • 17.
    PageRank: Ejemplo Matematicamente PageRankspara una red simple, expresado como porcentajes (Google usa una escala logaritmica). C tiene el más alto PageRank más que E, a pesar que hay menos enlances a C, el link a C viene de una página de mayor importancia y por lo tanto es de gran valor. Si los navegantes comenzaran por una página al azar tendría 85% de probabilidad de elegir un link al azar a partir de la página que están visitando y un 15% de probabilidad de saltar a una página elegida al azar de la web, ellos llegarían a la página E el 8,1% de las veces (el 15% de probabilidad de saltar a una página arbitraria corresponde al factor de damping de 85%). 17
  • 18.
    PageRank: Ventajas  Luchacontra el spam. Una página es importante si las páginas que apuntan a ella también lo son.  Dado que no es fácil para el dueño de una página Web agregar enlaces en página desde otras páginas importantes, no es por lo tanto fácil de influenciar PageRank.  PageRank es una medida global independiente de las consultas.  Los valores de PageRank para todas las páginas son calculadas y guardas en forma off-line más que en tiempo de la consulta. 18
  • 19.
    HITS  HITS provienede Hypertext Induced Topic Search.  A diferencia de PageRank que es un algoritmo de ranking estático, HITS es dependiente a la consulta de búsqueda.  Cuando un usuario envia una consulta de búsqueda,  HITS primero expande la lista de páginas relevantes devueltas por el motor de búsqueda, y  produce 2 rankings del conjunto de páginas expandidas, ranking de autoridad y ranking 19
  • 20.
    Autoridad y Hubs Autoridad:a grandes rasgos, la autoridad es una página con muchos links entrantes.  La idea es que la página tenga un buen contenido o autoridad sobre un tema,  así que mucha gente confía en ella y enlazar con ella. Hub: Un hub es una página con muchos links salientes.  La página sirve como un organizador de la información de un tema en particular y  apunta a muchas páginas de autoridad sobre el 20
  • 21.
  • 22.
    Ideas claves deHITS 22  Un hub bueno apunta a muchas autoridades buenas, y  Una autoridad buena es apuntada por muchos hubs buenos.  Autoridades y hubs tienen una relación de refuerzo mutuo
  • 23.
    HITS: Algoritmo 23  Dadouna consulta de búsqueda q, HITS recolecta un conjunto de páginas con los siguientes pasos:  Envia la consulta q al motor de búsqueda.  Se recoge entonces t (t = 200 es usando en el paper de HITS) el valor más alto de páginas rankeadas. Esto es llamada el conjunto raiz W.  Crece W incluyendo cualquier página que apunte a una en W y cualquiera apuntada por W. Esto da lugar al conjunto S, conjunto base.
  • 24.
    Grafo G 24  HITStrabaja en las páginas en S y asigna a cada página S un score de autoridad y un score de hub.  Sea n el número de páginas en S.  Nuevamente se usa G = (V, E) para denotar el grafo de hyperlinks de S  Usamos L para denotar la matriz de adyacencia del grafo.      otherwise Ejiif Lij 0 ),(1
  • 25.
    HITS: Algoritmo 25  Seaa(i) el score de autoridad de una página i, y h(i) el score de hub de la página i.  La relación de refuerzo mutual de los dos scores están representado por:   Eij jhia ),( )()(   Eji jaih ),( )()(
  • 26.
    Ventajas y desventasde HITS 26  Ventajas: su habilidad de rankear páginas de acuerdo al tema de la consulta, puede ser capaz de proveer autoridades y hubs más relevantes.  Desventajas:  Spam. De hecho es facil de influenciar HITS desde afuera añadiendo enlaces de la propia página.  Derivación de temas. Muchas páginas en el conjunto expandido no pueden ser del mismo tema.  Tiempo de respuesta ineficiente. El tiempo de evaluación de la consulta es bajo. Recolectar el conjunto raiz, expandirlo y calcular el autovector de todas las operaciones es expansiva.