Este documento compara empiricamente a topologia da Internet com o modelo Barabasi-Albert de redes complexas. Ele descreve o referencial teórico sobre grafos e redes complexas, apresenta trabalhos relacionados, e realiza experimentos para analisar as semelhanças topológicas entre a Internet e redes geradas pelo modelo Barabasi-Albert.
1. 1
Comparação Empírica Entre a Topologia da
Internet e o Modelo Barabasi-Albert
Rogério Minhano, Universidade Federal do ABC (UFABC), Mestrado em Engenharia da Informação.
atualizados de sistemas autônomos que compõem o esqueleto
Resumo — Em meados do ano 2000 uma série de artigos da Internet. O período de coleta foi de janeiro a março de
publicados tratava das características estruturais de redes 2010. A topologia foi gerada a partir de informações
complexas, como a Internet. Todos estes trabalham discutem a disponibilizadas pelo projeto Archipelago (Ark), mantido pela
dificuldade na coleta e a confiabilidade dos dados coletados.
Logo, a partir da observação de padrões comuns, diversos cooperativa CAIDA. O projeto Ark é tem por objetivo efetuar
modelos foram propostos para a geração de dados experimentais, coletas e análises da estrutura da Internet a partir de diversos
sendo o mais representativo dentre eles o modelo de conexões pontos de monitoramento [11].
preferenciais. O objetivo desse artigo é demonstrar, através de O Artigo está organizado da seguinte forma. Na sessão II
experimentos empíricos, quais as semelhanças topológicas da descreve o referencial teórico necessário para entendimento do
Internet com uma rede gerada a partir do modelo de conexões texto. A sessão III apresenta alguns trabalhos relacionados e
preferenciais.
suas implicações para nossos experimentos. A sessão IV trata
Índice de termos — grafos, grafos randômicos, small world, efetivamente das análises experimentais que efetuamos e suas
conexões preferenciais, redes complexas, internet. conclusões e, finalmente, a sessão V expõe nossas conclusões
finais.
I. INTRODUÇÃO
Seria possível utilizar um modelo de criação de redes II. REFERENCIAL TEÓRICO
complexas para estudarmos topologias como a Internet? Os
resultados seriam satisfatórios? Qual seria a validade deles? Redes complexas
O estudo de redes através da utilização da teoria dos grafos
Essas foram algumas das perguntas que motivaram este
é um dos pilares fundamentais da matemática discreta. Em
estudo. Em meados do ano 2000 uma série de artigos
1736, na cidade chamada Königsberg, localizada na antiga
publicados tratava das características estruturais de redes
Prússia, hoje Rússia, havia uma praça circundada por um rio e
complexas. Boa parte deles tratavam especificamente do
sete pontes que davam acesso. As pessoas que lá moravam
estudo topológico da Internet[1][2][6][7]. Todos estes
discutiam a possibilidade de atravessar todas as sete pontes
trabalham discutem a dificuldade na coleta e a confiabilidade
sem nenhuma repetição. Esse problema ficou conhecido como
dos dados coletados. Logo, um assunto bastante discutido era
as Sete Pontes de Königsberg2. Euler provou a impossibilidade
a criação de redes artificiais (modelos) para simulação de
da teoria através de um grafo. Desde então, a teoria dos grafos
topologias reais, como a Internet.
tem sido aplicada em inúmeros contextos. Independentemente
A observação de padrões comuns no comportamento de
da situação, sempre que tivermos um conjunto de objetos e
redes, mesmo as de natureza diferentes, estimulou diversos
relações entre esses objetos, poderemos utilizar grafos para
pesquisadores a desenvolverem modelos que descrevem e
obter informações relevantes dessa rede.
caracterizam tais comportamentos. Dois modelos criados
nessa época são muito conhecidos. O primeiro é cerca de um Enquanto a teoria dos grafos é um subcampo da matemática
ano mais velho que o segundo. Ele é conhecido por modelo discreta, redes complexas é uma área multidisciplinar que está
Watts-Strogatz[10]. Sua principal contribuição foi possibilitar relacionada intimamente com a física, biologia, matemática,
a criação de redes que possuíam o efeito pequenos mundos1. O estatística e computação. A maioria das redes sociais,
segundo, comummente chamado de Barabasi-Albert [9], além biológicas e tecnológicas possui características não-triviais,
de incorporar essa característica, possui um método para com padrões de conexões entre seus elementos que não são
agregação de novos vértices que traduz muito bem uma nem regulares, nem randômicos. Essas características incluem
característica das redes reais. Esse método chama-se o grau de distribuição dos vértices, o coeficiente de
preferential attachment, ou conexões preferenciais. agrupamento, comunidades e hierarquias nas redes. Logo,
Nesse contexto, o objetivo desse artigo é demonstrar, muitos trabalhos tem sido publicados nos mais diversos
através de experimentos empíricos, quais as semelhanças domínios. Alguns exemplos são:
topológicas da Internet com uma rede gerada a partir do
modelo Barabasi-Albert. Para isso utilizaremos os dados • World Wide Web [12]: links, rede de citações e blogs.
1 2
http://en.wikipedia.org/wiki/Small_world_experiment http://pt.wikipedia.org/wiki/Sete_pontes_de_K%C3%B6nigsberg
2. 2
• Redes sociais [13]: serviços de redes sociais redes de
: sociais, inicio de tudo, um anel unidimensional. A segunda fase (b) um
,
colaborações entre pesquisadores, rede de relações sexuais
sexuais. grafo um pouco maior, com 20 nós e 80 arestas, e a terceira (c)
• Redes tecnológicas [13]: matrizes energéticas,
: uma extrapolação do modelo com 100 nós e 600 arestas.
malhas aéreas, rodoviárias, fluviais, telefônicas e a Internet.
Internet Obviamente, todos com médias de caminhos mais curtos
inferiores a seis.
Distribuição Lei da Potência
A teoria das redes complexas tem sido usada vastamente no
estudo de interações humanas. Vários autores mostraram que
essas redes frequentemente seguem uma distribuição chamada
ch
Power-law, ou lei da potência [15]. Esta distribuição possui
.
uma função de densidade de probabilidade (PDF) da forma
, onde é a probabilidade de encontrarmos o
valor , é uma constante e é um parâmetro da distribuição (a) (b) (c)
chamado de parâmetro de escala. De forma geral, para todas Figura 1: Grafos gerados a partir do modelo SW. (a) grafo com
:
as redes encontradas na natureza, o parâmetro de escala 10 nós e 10 arestas, (b) grafo com 20 nós e 80 arestas e (c) grafo
encontra-se próximo dos limites dois e três isto é, 2
três, 3. com 100 nós e 600 arestas.
Um outro termo, que também caracteriza essas red redes, muito
comum encontrado na literatura é redes de escala livre. Simular situações em grafos usando essa técnica era muito
comum porque faltavam dados reais de grandes redes. Logo, a
altavam
Existem várias formas de se estimar o parâmetro de escala assertividade do modelo não era confrontada com redes do
de uma lei da potência. Uma abordagem bastante utilizada é mundo real. Nas últimas décadas o avanço da tecnologia nos
construir um histograma dos dados e traçar um gráfico em trouxe uma enorme massa de dados digitalizada e, com isso, a
escala logarítmica (log-log) dos valores. O resultado é uma quantidade de informação disponível para pesquisa se
nformação
linha muito próxima de uma reta. Contudo, em vários casos multiplicou. Logo, grafos que mediam entre mil e dois mil nós
esse método não é eficiente e a maioria de seus resultados são – como as pesquisas de opinião, questionários, etc. – agora
etc
pobres comparado a técnicas mais precisas como o Maximum alcançam facilmente os milhões de nós. Esse fato trouxe a
Likelihood Estimation (MLE), ou estimação da máxima
timação possibilidade de entendermos melhor a características
verossimilhança[15]. Neste artigo utilizaremos à técnica MLE.
. dinâmicas e topológicas de grandes redes.
Modelo Erdõs e Renyi Modelo conexões preferenciais
Tradicionalmente, redes de topologias complexas eram Uma característica comum dos modelos ER e SW é que a
descritas utilizando o modelo para grafos randômicos probabilidade de encontrarmos um vértice altamente
desenvolvido por Erdõs e Rényi (ER). Esse modelo é bastante conectado decresce exponencialmente conforme o grau do
simples porque leva em conta apenas uma probabilidade fixa vértice aumenta. Isso faz com que a chance de encontrarmos
umenta.
para um nó se conectar a outro. Isto é, assumindo que temos um vértice com grau muito alto inexista. Entretanto, são
nós, os nós são conectados com probabilidade . Logo, a infinitos os exemplos de redes reais que são de escala livre [9].
distribuição dos vértices do grafo resultante possui uma
o A principal característica de uma rede de escala livre é a
distribuição de Poisson / ! distribuição do grau de seus vértices. Poucos vértices
altamente conectados e muitos vértices com poucas conexões.
Modelo Pequenos Mundos
Outro modelo bastante conhecido é o small world [10], ou Outro aspecto importante é que os dois modelos de redes
modelo mundos pequenos (SW), criado por Watts e Strogatz.
, randômicas assumem uma quantidade inicial de vértices a
A característica mais importante desse modelo é que ele gera serem conectados (ER) ou reconectados (SW). Isso não
grafos em que, na média, os caminhos mais curtos3 não acontece na maioria das redes reais. Ao contrário, redes reais
passam de seis graus de separação. Sua mecânica é podem começar com uma quantidade muito pequena de
ligeiramente mais complexa que o modelo ER. Dado vértices 0 e crescer durante seu tempo de vida. Além disso,
vértices de um anel unidimensional (Figura 1), cada vértice
Figura redes randômicas assumem que existe uma probabilidade
pode ser conectado aos seus dois vizinhos mais próximos. uniforme de conexão entre os vértices. Redes reais se
Com probabilidade , cada aresta é reconectada a um vértice conectam através de conexões preferenciais. O modelo que
escolhido randomicamente. Com o tempo, esse processo faz
tempo trataremos agora é denominado Preferential Attachment, ou
com que a distância entre os nós diminua, gerando assim o conexões preferenciais. Ele foi desenvolvido por Barabasi e
efeito mundos pequenos. A distribuição dos graus de seus Albert (BA) e é o esquema que melhor representa as redes do
vértices também é de Poisson. A Figura 1 mostra três mundo real. No modelo BA a probabilidade de um vértice
exemplos gerados a partir desse modelo. Podemos imaginá
imaginá-los se conectar a outro depende da conectividade i do outro
onectar
em uma ordem cronológica. A primeira fase (a) demonstra o vértice. Logo, /∑ .
∑
3
Caminho mais curto, ou shortest path length, é a menor distância entre dois
,
nós em uma rede.
3. 3
2.917
(a) (b) (c) (d)
Figura 2:Grafos gerados a partir do modelo BA. (a) grafo com 10 vértices, (b) grafo com 100 vértices e (c) grafo com 500 vértices. Em
Grafos vértices,
(d) a distribuição dos graus dos vértices plotado em escala log
istribuição log-log. A linha tracejada mostra que o resultado é uma linha “reta”.
A Figura 2 (a, b e c) mostra três grafos gerados a partir do resultados. Ambos analisaram a Internet a partir de sistemas
modelo BA. Podemos visualizar esses grafos como uma autônomos e discutiram características relevantes da rede. Os
evolução temporal da mesma rede. A quantidade de vértices
olução dados utilizados foram coletados há uma década, então, nosso
década
são, respectivamente, 10, 100 e 500. O crescimento da rede interesse
nteresse está na reconstrução dos resultados.
resultados
acontece da seguinte forma: depois de passos, o modelo nos Desenvolveremos um estudo comparativo, baseados em
comparativo
leva a uma rede randômica com 0 vértices e arestas. informações atuais, das implicações e necessidades de um
,
Essa rede é envolvida em um estado crescimento com
vida modelo para geração de grafos para a topologia da Internet.
probabilidade de que um vértice tenha arestas, surgindo,
IV. ANÁLISES EXPERIMENTAI
EXPERIMENTAIS
assim, uma distribuição lei da potencia com parâmetro de
escala da ordem 2 3. A Figura 2 (d) demonstra a Os passos necessários para reproduzirmos o experimento
expe
distribuição em escala log-log para o grafo (c). Como
log (c) foram: coletar os dado, transformar as redes e calcular as
podemos ver, os pontos formam uma linha reta. Seu parâmetro métricas. Os cálculos matemáticos e estatísticos, assim como
de escala é 2.917. as imagens e gráficos, foram desenvolvidos no software R
statistics7 com auxílio da biblioteca Igraph8. Nesta sessão
III. TRABALHOS RELACIONADOS descreveremos a metodologia empregada ao desenvolvimento,
desenvolvimento
No artigo [1] Faloutsos demonstra as relações existentes assim como as análises e resultados encontrados.
omo encontrados
entre a rede formada pelos roteadores da internet e a
distribuição lei da potência. São relações probabilísticas, mas
. Coleta dos dados
o autor especula que existam de fato leis que regem o A rede da Internet foi gerada a partir de informações
crescimento deste sistema. Os dados utilizados são
. disponibilizadas pelo projeto Archipelago (Ark), mantido pela
disponibilizados pelo laboratório NLANR4. O projeto que cooperativa CAIDA. Utilizaremos os dados atualizados de
iniciou este laboratório acabou em junho de 2006. Desde então sistemas autônomos (AS) que compõem o esqueleto da
a associação CAIDA5 matem alguns projetos antigos e Internet. O período de coleta foi de janeiro a março de 2010. O
coordena as novas iniciativas. A informação para gerar o grafo projeto Ark é tem por objetivo efetuar coletas e análises da
foi retirada das tabelas de roteamento - BGP6 - de vários estrutura da Internet a partir de diversos pontos de ponto
roteadores geograficamente distribuídos. monitoramento [11]. Dado que uma representação exata da
.
O artigo [2] é um trabalho que também discute a topologia da Internet é operacionalmente impossível, dentre os
distribuição lei da potência na topologia da Internet. Em vários projetos existentes, o projeto Ark é o mais robusto que
A
contraste com o conjunto de dados utilizado por[2], os dados
por encontramos. Na página do projeto recuperamos os dados
utilizados por Faloutsos foram coletados nos servidores de (arquivo texto) sobre as tabelas de roteamento dos AS’s
roteamento da universidade de Oregon[3] o que representa
[3], monitorados no ano de 2010. As coletas são feitas dia a dia,
uma parte muito pequena de toda Internet. Os resultados sendo assim, temos um arquivo para cada dia coletado. Uma
demonstram que a Internet possui conectividade muito maior aplicação foi desenvolvida para tratar esses dados e gerar o
licação
do que pode ser observada. Além disso, comparativos entre o
comparativo grafo que chamaremos de rede AS.
crescimento do modelo BA e o crescimento topológico da A criação do grafo conforme o modelo BA foi baseada no
Internet são feitos. Ao final, os autores discutem a necessidade
. algoritmo disponível na biblioteca Igraph. Utilizamos apenas
de um novo modelo para criação de grafos mais fieis a um critério na nesta etapa, ccriar uma rede BA com a mesma
topologia da Internet. quantidade de vértices e arestas da rede AS.
Esses dois artigos são relevantes para nosso estudo porque a
base dos experimentos que efetuaremos aqui está em seus
4
National Laboratory for Applied Network Research - http://www.nlanr.net/ 7
http://www.r-project.org/
5
Cooperative Association for Internet Data Analysis - http://www.caida.org/ 8
http://igraph.sourceforge.net/
6
Border Gateway Protocol
4. 4
0
4
10
10
AS AS
BA BA
−1
10
3
10
−2
10
P(k)
knn
2
10
−3
10
1
10
−4
10
−5
0
10
10
0 1 2 3 4 5 0 1 2 3 4
10 10 10 10 10 10 10 10 10 10 10
k k
Figura 3: Distribuição acumulada de probabilidade em Figura 4 A conectividade média dos vizinhos mais
função da conectividade dos vértices para os grafos AS e BA. próximos em função da conectividade do vértice .
A lei da potência caracteriza as duas redes. O valor de alfa é o
parametro de escala.
Métricas de interesse podemos perceber as distribuições resultantes não são
Nós usamos apenas métricas para medidas estruturais das identicas, mas são bastante parecidas. Isso mostra que ambas
redes. Como todas elas são utilizadas e discutidas vastamente estão em conformidade com a lei da potência. Uma
na literatura não iremos defini-las uma a uma. Apenas nos constatação importante é que a conectividade preferencial
momentos essenciais para o entendimento do texto parece realmente ser uma lei que governa o crescimento
explicaremos o significado. Contudo, para um melhor topológico da Internet.
entendimento dos cálculos empregados na obtenção das Fazendo uma correlação entre os resultados demonstrados
medidas, indicamos a seguinte leitura [4][[5]. na Tabela 1, é fácil perceber que a Internet é uma rede mais
conectada que as redes geradas pelo modelo BA. Como
Tabela 1: Métricas gerais sobre as redes AS e BA. (G) Nome do
grafo, (V) Número de vértices, (A) Número de arestas, (D) podemos ver tanto a média dos menores caminhos quanto o
Diametro, (MC) Média dos menores caminhos, (CA) Média do diâmetro da rede AS são menores que os da rede BA. Da
coeficiente de agrupamento e (α) Parametro de escala. mesma forma, o coeficiente de agrupamento da Internet é,
proporcionalmente, muito maior que o coeficiente encontrado
G V A D MC CA α na rede BA.
AS 65535 150002 11 3.94 0.01269 2.07 Um comportamento mais claro sobre o relacionamento dos
vértices é demonstrado na Figura 4. A conectividade média
BA 65535 150002 16 4.76 0.00028 2.52
dos vizinhos mais próximos em função da conectividade
de um vértice torna evidente a essas relações. Em todos os
Resultados
pontos de os vértices da rede AS possuem vizinhos mais
O primeiro passo para uma caracterização mais detalhada
conectados que a rede BA. Este resultado claramente implica
das duas redes está na Tabela 1. Como podemos visualizar, a
na existência de uma correlação não trivial na Internet.
rede gerada pelo modelo BA possui medidas próximas das
características da rede da Internet. A média dos menores
V. DISCUSSÃO
caminhos (MC) das duas redes é pequena, ambos estão abaixo
de seis, portanto, são duas redes mundos pequenos. A A rede BA, apesar de ter a mesma quantidade de vértices e
topologia da Internet tem um MC ligeiramente menor, o que arestas, não é, de forma alguma, comparável à rede AS. As
demonstra que a distância entre dois pontos quaisquer na rede duas estruturas, vistas de certa distância, se parecem. Mas
é mais curta que na rede BA. numa visão mais detalhista, em nada se assemelham.
O coeficiente de agrupamento (CA) da rede BA é muito Modelos para criação de redes sociais foram muito
menor que o calculado na rede AS. Isso implica numa discutidos há alguns anos. De forma geral, precisamos de bons
transitividade menor da informação entre os vértices da rede. modelos para poder simular situações que podem acontecer
O diâmetro (D) também é menor na Internet. em redes reais. Mas isso tudo acontecia somente porque não
O parâmetro de escala das redes AS e BA são 2.07 e 2.52, havia dados reais disponíveis para pesquisa. Hoje, existe uma
respectivamente. A ERROR! REFERENCE SOURCE NOT infinidade de conjunto de dados que podem ser estudados
FOUND. mostra a distribuição acumulada de probabilidade livremente. Um exemplo disso é o projeto Ark.
em função da conectividade dos vértices . Como
5. 5
Levando essa visão a um nível mais abstrato, modelos para
criação de grafos não podem representar de forma alguma
redes reais. Apesar de a conectividade preferencial ser uma
característica muito importante e que parece governar o
crescimento de boa parte das redes, ela parece ser o único
ponto de concordância entre redes reais e o modelo. O cerne
do problema, que são os motivos pelo qual as conexões entre
os vértices existem não pode ser modelado porque elas não
seguem nenhuma lei. Portanto, se em algum caso for
realmente necessário à utilização de um modelo para estudo de
redes, isso somente poderá ser feito sob um conjunto vasto de
restrições.
REFERÊNCIAS
[1] C. Faloutsos, P. Faloutsos, and M. Faloutsos, “On Power-Law
Relationships of the Internet Topology,” in Proceedings of the ACM
SIGCOMM, Sept. 1999.
[2] Q. Chen, H. Chang, R. Govindan, S. Jamin, S. Shenker, and W.
Willinger. The Origin of Power Laws in Internet Topologies Revisited,
Proc. IEEE INFOCOM 2002.
[3] Route Views, “University of Oregon Route Views Project”,
http://www.routeviews.org/
[4] S. Boccaletti, V. Latora, Y. Moreno, M. Chavez, and D. Hwang.
Complex networks: structure and dynamics. Physics Reports, volume
424, pages 175 – 308, 2006.
[5] Luciano F. Costa, Francisco A. Rodrigues, Gonzalo Travieso, and P.R.
Villas Boas, Characterization of complex networks: A survey of
measurements, Advances in Physics, volume 56, pp 167-242, 2007.
[6] Pastor-Satorras, R., V¶azquez, A., and Vespignani, A., Dynamical and
correlation properties of the Internet, Phys. Rev. Lett. 87, 2001.
[7] Govindan, R. and Tangmunarunkit, H., Heuristics for Internet Map
Discovery, Proceedings of the 2000 IEEE INFOCOM Conference, Tel
Aviv, Israel, March, 1371-1380, 2000.
[8] Newman, M. E. J., Strogatz, S. H., and Watts, D. J., Random graphs
with arbitrary degree distributions and their applications, Phys. Rev. E
64, 026118, 2001.
[9] Barabasi, A.-L. and Albert, R., Emergence of scaling in random
networks, Science 286, 509-512, 1999.
[10] Watts, D. J. and Strogatz, S. H., Collective dynamics of ‘small-world’
networks, Nature 393, 440-442, 1998.
[11] k. claffy, Y. Hyun, K. Keys, M. Fomenkov, and D. Krioukov, “Internet
mapping: from art to science,” in Proc. IEEE Cybersecurity Applications
and Technologies Conference for Homeland Security (CATCH), 2009.
[12] A.-L. Barabasi. The origin of bursts and heavy tails in human dynamics.
Nature, volume 435, pages 207-211, 2005.
[13] Y.-Y. Ahn, S. Han, H. Kwak, S. Moon, and H. Jeong. Analysis of
topological characteristics of huge online social networking services.
WWW’07: Proceedings of the 16th international conference on World
Wide Web, pages 835-844, 2007.
[14] R. Albert, and A.-L. Barabasi. Statistical mechanics of complex
networks. Reviews of Modern Physics, volume 74, 2002.
[15] A. Clauste, C. R. Shalizi, and M. E. J. Newman. Power-law distributions
in empirical data. SIAM Review, 2009.