1. Juan Manuel Morales
Ciencias de la Complejidad
Universidad Autónoma de la Ciudad de México
(UACM - Campus del Valle)
Redes complejas
Instituto de Física - UNAM
Diciembre 1 del 2016
FUNDAMENTOS
MATEMÁTICOS DEL
MOTOR DE BÚSQUEDA
DE GOOGLE
3. WORLD WIDE WEB (WWW) 2
Red informática mundial
Nodos: documentos, páginas web (~
10 12 )
Vínculos: URL (Uniform Resource
Locators)
Robots: recogen todas las URL’s
encontradas en un documento y
las siguen recursivamente
Hypertext Transfer Protocol (http)
Hypertext Markup Language (html)
4. MOTORES DE BÚSQUEDA 3
Dos ejemplos de la técnica
matemática básica usada
por los motores de
búsqueda de páginas en
internet de acuerdo a su
orden de relevancia.
2 Redes de referencias
entre seis páginas de
WWW.
5. TOPOLOGÍA Y MATRIZ DE ADYACENCIA. 1
Topología de la red 1 A matriz de adyacencia 1
6. CADENAS DE MARKOV. 1
Vector de estado (en este
ejemplo sabemos con certeza
que al inicio estamos en la
página 2).
B matriz de transición 1
(incorpora la información de
probabilidad del avance al azar de
una página al siguiente con el clic
del ratón)
7. K CLICS Y VECTOR DE ESTADO. 1
Vector de estado x (k) (Da la probabilidad de que el navegador este en la i-
ésima página después de k clics de ratón al azar)
9. VECTOR PROPIO DE LA MATRIZ DE TRANSICIÓN. 1
Usando Maple o Mathematica se puede calcular el vector
propio de la matriz de transición.
Los valores
de estas
fracciones
son llamados
Page Ranks
(PR) y son
una medida
de la
importancia
relativa de las
páginas.
10. FACTOR DE AMORTIGUAMIENTO
Damping factor δ
Introducido para considerar la existencia de grupos no
conectados o circuitos sin regreso a otras páginas
11. TOPOLOGÍA Y MATRIZ DE ADYACENCIA. 2
Topología de la red 2 A matriz de adyacencia 2
12. VECTOR DE ESTADO Y MATRIZ DE TRANSICIÓN. 2
Vector de estado inicial
de 2 (en este ejemplo no se
sabe en que página estamos)
B matriz de transición 2
13. CADENA DE MARKOV CON FACTOR DE
AMORTIGUACIÓN. 2
El vector de estado después de k clics, incorpora una nueva matriz de
transición de la probabilidad M, a donde δ B representa una caminata
aleatoria y el factor (1-δ )/n permite saltar al azar de un página a otra
15. FÓRMULA DEL ALGORITMO PAGE RANK DE
GOOGLE 4
El factor d representa la probabilidad de que un navegante continúe pulsando links al navegar por internet en vez de
escribir un URL directamente o de pulsar uno de sus marcadores y es un valor establecido por Google (~0.85).
La probabilidad deje de pulsar links y navegue directamente a otra web aleatoria es (1- d).
La introducción del factor de amortiguación en la fórmula resta algo de peso a todas las páginas de Internet y
consigue que las páginas que no tienen enlaces a ninguna otra página no salgan especialmente beneficiadas.
Si un usuario aterriza en una página sin enlaces, lo que hará será navegar a cualquier otra página aleatoriamente,
lo que equivale a suponer que una página sin enlaces salientes tiene enlaces a todas las paginas de internet.
16. Google ordena los resultados de la
búsqueda utilizando su propio algoritmo
PageRank. A cada página web se le asigna
un número en función del número de
enlaces de otras páginas que la apuntan, el
valor de esas páginas y otros criterios no
públicos 4
EJEMPLO DE BÚSQUEDA EN GOOGLE
17. REFERENCIAS BIBLIOGRÁFICAS CONSULTADAS
1) Grandes hitos del internet .Retrieved November 28 2016, from
http://geektheplanet.net/wp-
content/uploads/2013/12/historiainternet-gtp-620x350.jpg
1) World Wide Web. Retrieved November 28, 2016, from
https://es.wikipedia.org/wiki/World_Wide_Web
3) Anton, H., & Rorres, C. (2013). Elementary linear algebra: with
supplemental applications. Wiley. Pages 706-712
4) PageRank. Retrieved November 28 2016, from
https://es.wikipedia.org/wiki/PageRank