Investigação de Predição de Fluxos em Redes de Computadores

UNIVERSIDADE FEDERAL DO ABC
ORLANDO DA SILVA JUNIOR
INVESTIGA¸CÃO DE PREDI ¸CÃO DE FLUXOS
EM REDES DE COMPUTADORES
Santo André – SP
2014

UNIVERSIDADE FEDERAL DO ABC
Pós-gradua¸cão em Engenharia da Informa¸cão
Mestrado em Engenharia da Informa¸cão
Orlando da Silva Junior
INVESTIGA¸CÃO DE PREDI ¸CÃO DE FLUXOS
EM REDES DE COMPUTADORES
Disserta¸cão de Mestrado apresentada à Universidade Federal
do ABC como parte dos requisitos necessários para a obten¸cão
do t´ıtulo de Mestre em Engenharia da Informa¸cão, orientada
pela Prof.a
Dr.a
Ana Carolina Lorena e coorientada pelo Prof.
Dr. Carlos Alberto Kamienski.
Santo André – SP
2014

A meus irm˜aos, Jacquelyne e Rodrigo.

Agradecimentos
A Deus, Uno e Trino, e à Maria Sant´ıssima.
Aos meus pais, Orlando e Silvia, e aos meus irmãos, Jacquelyne e Rodrigo.
Ao Revmo. Pe. Marcus Muscatelle pela dire¸cão espiritual e conselhos de estudo.
À minha orientadora, Prof.a
Dr.a
Ana Lorena, pela orienta¸cão neste trabalho,
pelo aux´ılio durante toda a minha pós-gradua¸cão na Universidade Federal do ABC
(UFABC) e pela dire¸cão em meus estudos. Ao meu coorientador, Prof. Dr. Carlos
Kamienski, pelo aceite em me coorientar e pelas sugestões à minha pesquisa.
Aos professores Ronaldo Prati, Edson Pimentel, David Martins e Cesar Marcon-
des pelas sugestões e cr´ıticas ao meu trabalho.
Aos alunos e ex-alunos de meus orientadores pelo suporte técnico e cient´ıfico.
À equipe do Laboratório de Biologia Computacional e Bioinformática (LBCB)
pelo espa¸co concedido às minhas pesquisas.
Aos amigos e familiares que colaboraram de alguma forma para a realiza¸cão deste
trabalho.
Aos alunos de gradua¸cão da UFABC que me mostraram o valor do ser docente.
Este trabalho foi apoiado financeiramente pelo Conselho Nacional de Desenvolvimento Cient´ıfico e Tecnológico
(CNPq) sob o processo no 133068/2012-9. As opiniões, hipóteses e conclusões ou recomenda¸cões expressas neste
material são de responsabilidade do autor e não necessariamente refletem a visão do CNPq.

Omni enim habenti dabitur, et abundabit;
ei autem, qui non habet, et quod habet,
auferetur ab eo.
—Evangelium secundum
Matthaeum XXV, XXIX

Resumo
Um importante desafio na área de Redes Definidas por Software é a minimiza¸cão
das consultas enviadas pelo switch ao controlador, que produzem um atraso inicial
na comunica¸cão. Esse problema pode ser resolvido se o controlador instalar anteci-
padamente os fluxos nos switches, autorizando a comunica¸cão antes da chegada do
primeiro pacote. Com essa motiva¸cão, este trabalho investiga o problema da pre-
di¸cão de fluxos em redes de computadores. Duas redes de aplica¸cão são mapeadas
em diversos modelos topológicos de Redes Complexas para representar o tráfego das
informa¸cões das redes de aplica¸cão nas redes f´ısicas subjacentes. Diversos algoritmos
tradicionais de Predi¸cão de Links são utilizados separadamente para predizer os flu-
xos em cada uma das redes e também como entrada para técnicas de Aprendizado
de Máquina. O problema é ainda modelado em uma nova abordagem de Predi¸cão de
Links que prediz em conjunto as conexões da rede que se manterão ou se formarão
em um instante futuro. Os resultados experimentais mostram que as técnicas de
Aprendizado de Máquina podem ser usadas para a predi¸cão de fluxos com desempe-
nho significativo em muitas situa¸cões.
Palavras-chave: predi¸cão de links, aprendizado de máquina, redes definidas por
software.
i

Abstract
A major challenge for Software-Defined Network area is to minimize the number of
queries sent by switches to the controller, that produce an initial delay on commu-
nication. This problem can be solved if the controller installs the flows on switches
in advance, enabling the communication before the arrival of the first packet. From
this motivation, this work investigates the problem of flow prediction in computer
networks. Two application networks are mapped into several topological models
from Complex Network Theory to represent the network traffic information of those
networks on the physical underlying networks. Several traditional algorithms of Link
Prediction are used independently and as input for supervised Machine Learning te-
chniques to predict flows in all network. The problem is still modelled in a new
approach that predicts the persisted and the new connections together. Experimen-
tal results show that the Machine Learning techniques can be used to predict flows
with a significant performance in many situations.
Keywords: link prediction, machine learning, software-defined network.
ii

Lista de Figuras
2.1 Exemplos de redes complexas. . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Diagramas de constru¸cão do conjunto de dados para Predi¸cão de Links. 13
2.3 Arquitetura geral de SDN. . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1 Metodologia experimental. . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2 Ilustra¸cão do processo de mapeamento. . . . . . . . . . . . . . . . . . 31
4.1 Desempenho dos algoritmos de PL nos modelos sem topologia e alea-
tório para a rede P2P. . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2 Desempenho dos algoritmos de PL nos modelos de mundo pequeno e
sem escala para a rede P2P. . . . . . . . . . . . . . . . . . . . . . . . 40
4.3 Desempenho dos algoritmos de AM para a rede P2P. . . . . . . . . . 42
4.4 Desempenho dos algoritmos de PL nos modelos sem topologia e alea-
tório para a rede de e-mails. . . . . . . . . . . . . . . . . . . . . . . . 45
4.5 Desempenho dos algoritmos de PL nos modelos de mundo pequeno e
sem escala para a rede de e-mails. . . . . . . . . . . . . . . . . . . . . 46
4.6 Desempenho dos algoritmos de AM para a rede de e-mails. . . . . . . 47
iii

Lista de Tabelas
2.1 Racioc´ınio para a constru¸cão dos conjuntos de aprendizado conforme
a tarefa de Predi¸cão de Links. . . . . . . . . . . . . . . . . . . . . . . 14
3.1 Caracter´ısticas das redes . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Caracteriza¸cão do conjunto de dados para a rede P2P. . . . . . . . . . 32
3.3 Caracteriza¸cão do conjunto de dados para a rede de e-mails. . . . . . 32
A.1 Desempenho dos algoritmos de PL na rede P2P. . . . . . . . . . . . . 65
A.2 Desempenho dos algoritmos de AM na rede P2P. . . . . . . . . . . . 66
A.3 Desempenho dos algoritmos de PL na rede de e-mails. . . . . . . . . . 67
A.4 Desempenho dos algoritmos de AM na rede de e-mails. . . . . . . . . 68
iv

Lista de Abreviaturas
AA Coeficiente de Adamic/Adar
AM Aprendizado de Máquina
ARC Análise de Redes Complexas
AUC Área Abaixo da Curva ROC
CMC Caminho Mais Curto
CN Vizinhos Comuns
HDI Índice do Hub Deprimido
HPI Índice do Hub Promovido
KZ Medida Katz
k-NN k-Vizinhos Mais Próximos
JC Coeficiente de Jaccard
P2P Peer-to-Peer
PA Conexão Preferencial
PF PropFlow
PL Predi¸cão de Links
PR Precisão
RAI Índice de Aloca¸cão de Recursos
RV Revoca¸cão
SVM Máquina de Vetor de Suporte
v

Sumário
1 INTRODU ¸CÃO 1
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Organiza¸cão do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 CONCEITOS FUNDAMENTAIS 6
2.1 Análise de Redes Complexas . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.1 Modelos de Redes Complexas . . . . . . . . . . . . . . . . . . 7
2.1.2 Medidas Estat´ısticas . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Predi¸cão de Links . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1 Modelagem de Tarefas . . . . . . . . . . . . . . . . . . . . . . 12
2.2.2 Algoritmos de Predi¸cão de Links . . . . . . . . . . . . . . . . 14
2.3 Redes Definidas por Software . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Aprendizado de Máquina . . . . . . . . . . . . . . . . . . . . . . . . . 20
3 PREDI ¸CÃO DE FLUXOS EM REDES DE COMPUTADORES 24
3.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.2 Gerenciamento de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.1 Dados das Redes de Aplica¸cão . . . . . . . . . . . . . . . . . . 26
3.2.2 Dados das Redes F´ısicas . . . . . . . . . . . . . . . . . . . . . 28
vi

3.3 Mapeamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.4 Predi¸cão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.4.1 Sele¸cão e Configura¸cão de Algoritmos . . . . . . . . . . . . . . 33
3.4.2 Avalia¸cão de Desempenho . . . . . . . . . . . . . . . . . . . . 34
4 RESULTADOS 38
4.1 Resultados da Rede P2P . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1.1 Algoritmos de Predi¸cão de Links Tradicionais . . . . . . . . . 38
4.1.2 Algoritmos de Aprendizado de Máquina . . . . . . . . . . . . 41
4.1.3 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2 Resultados da Rede de E-mails . . . . . . . . . . . . . . . . . . . . . 44
4.2.1 Algoritmos de Predi¸cão de Links Tradicionais . . . . . . . . . 44
4.2.2 Algoritmos de Aprendizado de Máquina . . . . . . . . . . . . 47
4.2.3 Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.3 Considera¸cões Finais . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5 CONCLUSÃO 52
5.1 Principais Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Contribui¸cões e Limita¸cões . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
REFERÊNCIAS 57
A RESULTADOS DOS EXPERIMENTOS 64
vii

Cap´ıtulo 1
INTRODU ¸CÃO
As aplica¸cões de redes de computadores, incluindo a Internet, geram tráfegos de
dados que podem ser usados para construir redes lógicas sobrepostas à rede f´ısica.
Em aplica¸cões peer-to-peer (P2P), por exemplo, quando um usuário pertencente a
uma rede decide transferir um arquivo para outro usuário, o sistema P2P registra a
ocorrência da transferência e realiza uma conexão entre os dois usuários. Após um
determinado intervalo de tempo, várias outras conexões são formadas entre esses e
outros usuários, estruturando uma rede lógica. Essa rede pode ser modelada como
um grafo, onde os nós são os usuários e a ocorrência de transferências entre os usuários
são as arestas.
Existe também, intermediando e efetivamente realizando as transmissões, uma
rede f´ısica, que é formada por dispositivos interligados, como roteadores e switches.
As informa¸cões trocadas na rede lógica efetivamente trafegam por uma rede f´ısica
subjacente, que nem sempre possui a mesma topologia da rede lógica. Por exemplo,
a transferência de um arquivo entre dois usuários de uma rede P2P não implica em
seus dispositivos estarem diretamente conectados para realizarem essa transferência.
1

Deve ser observado ainda que a rede lógica, em geral, não possui informa¸cões a
respeito do tráfego da rede subjacente.
Essa abstra¸cão pode ser aplicada a qualquer arquitetura de rede. Atualmente,
diversas pesquisas em redes de computadores têm se voltado para o paradigma das
Redes Definidas por Software (Software Defined Networks, ou SDN) [ONF, 2012] em
razão das possibilidades amplas de sua aplica¸cão. A arquitetura SDN é formada por
dois planos desacoplados: um plano de dados e um plano de controle. Enquanto
o plano de dados é o responsável pelo encaminhamento dos dados das aplica¸cões,
o plano de controle tem a fun¸cão de programar os caminhos que esses dados irão
trafegar na rede.
Nas arquiteturas tradicionais, esses planos são combinados, o que torna a rede
menos flex´ıvel. Com a separa¸cão dos planos em SDN, os elementos da rede que
trabalham no plano de dados (switches) têm apenas a fun¸cão de encaminhar os
pacotes com base em uma tabela que armazena esses caminhos, chamada de tabela
de fluxos. Nos casos em que o switch não tem informa¸cões suficientes para tratar com
o pacote, uma solicita¸cão é enviada pelo switch ao controlador da rede, que tem a
fun¸cão de executar o plano de controle de maneira logicamente centralizada [Guedes
et al., 2012].
Um importante desafio da área é a minimiza¸cão das consultas enviadas pelo switch
ao controlador, que produzem um atraso inicial na comunica¸cão e geram sobrecarga
no próprio controlador [Sezer et al., 2013]. Uma maneira de tratar esse problema é
fazer com que o controlador instale fluxos antecipadamente nos switches, autorizando
a comunica¸cão antes da chegada do primeiro pacote do fluxo no switch.
Essa situa¸cão, no entanto, gera um trade-off entre a quantidade de requisi¸cões
enviadas ao controlador e a quantidade de memória do switch ocupada pelos fluxos
não concretizados. Esse impasse pode ser superado se o controlador realizar predi¸cões
2

de tráfego na rede. Deste modo, se, apesar da perda de memória, ainda houver
benef´ıcios em termos de redu¸cão de requisi¸cões ao controlador, é poss´ıvel afirmar que
a predi¸cão de fluxos soluciona o problema da minimiza¸cão de consultas em SDN.
Uma das formas de realizar predi¸cão é fluxos é utilizando o arcabou¸co da Pre-
di¸cão de Links (PL) [Liben-Nowell e Kleinberg, 2007], uma área em expansão da
Análise de Redes Complexas (ARC). Contudo, a solu¸cão é dificultada pelo fato de
a topologia das redes lógicas que geram as informa¸cões nem sempre possu´ırem as
mesmas caracter´ısticas e estruturas das redes f´ısicas. Por outro lado, as conexões da
rede lógica podem colaborar para a solu¸cão desse problema, indicando o padrão de
forma¸cão das conexões das aplica¸cões e, por conseguinte, do fluxo das informa¸cões
na rede f´ısica. Esse não é um trabalho trivial e uma solu¸cão adequada precisa ser
investigada.
Este trabalho aborda esse problema mapeando duas redes de aplica¸cão – uma
rede P2P e uma rede de e-mails – em diversos modelos topológicos comuns da ARC,
como as redes de mundo pequeno e sem escala [Newman, 2003]. O mapeamento re-
presenta a conexão entre a rede f´ısica de computadores e a rede lógica formada pelas
aplica¸cões e resulta em uma nova rede, cujas conexões entre os nós designam o fluxo
das informa¸cões presente na rede f´ısica. A ideia central do trabalho é combinar os re-
sultados de algoritmos de PL como entrada para diferentes técnicas de Aprendizado
de Máquina (AM) supervisionado e comparar os resultados com abordagens tradicio-
nalmente utilizadas em PL. Este trabalho contribui principalmente para impulsionar
futuras solu¸cões de predi¸cão de fluxos em SDN e na modelagem de problemas de
PL, utilizando uma nova abordagem de predi¸cão. Usualmente, as tarefas de PL vi-
sam predizer as liga¸cões futuras ou aquelas que irão persistir no tempo [Silva-Junior
et al., 2013]. Neste trabalho é adotada uma abordagem conjunta, que prediz simul-
taneamente quais conexões se manterão e quais surgirão em um instante futuro. Os
3

resultados experimentais mostram que as técnicas de AM podem ser usadas para a
predi¸cão de fluxos com desempenho significativo.
1.1 Objetivos
O objetivo geral deste trabalho é investigar a predi¸cão de fluxos em redes com-
putadores. Essa investiga¸cão se fundamenta nos conceitos de Redes Definidas por
Software. A partir desse enfoque, os objetivos espec´ıficos deste trabalho são:
• Elaborar um método de mapeamento entre a rede f´ısica e a rede de aplica¸cão;
• Investigar uma nova forma de predizer simultaneamente liga¸cões que se formam
ou se mantêm na rede;
• Experimentar diferentes algoritmos de Predi¸cão de Links e Aprendizado de
Máquina supervisionado no problema de predi¸cão de fluxos;
• Comparar os resultados dos algoritmos de Predi¸caõ de Links tradicionais com
os resultados das técnicas de AM supervisionado.
1.2 Organiza¸cão do Trabalho
Os demais cap´ıtulos deste trabalho encontram-se organizados do seguinte modo:
• O Cap´ıtulo 2 apresenta os conceitos fundamentais para a compreensão geral do
trabalho;
• O Cap´ıtulo 3 descreve a proposta de trabalho e metodologia experimental em-
pregada em sua avalia¸cão;
4

• O Cap´ıtulo 4 apresenta e discute os resultados dos experimentos conduzidos
para a rede P2P e a rede de e-mails;
• O Cap´ıtulo 5 apresenta as conclus˜oes do trabalho.
5

Cap´ıtulo 2
CONCEITOS FUNDAMENTAIS
Neste cap´ıtulo são abordados os conceitos fundamentais deste trabalho relaci-
onados às redes complexas, às SDNs e também às técnicas de AM adotadas nos
experimentos.
2.1 Análise de Redes Complexas
A Análise de Redes Complexas é uma das áreas mais interdisciplinares das ci-
ências atualmente. Diversos campos de conhecimento têm trabalhado juntos para
conceituar e investigar o comportamento das rela¸cões sociais humanas ou analisar a
estrutura f´ısica dos relacionamentos entre diferentes tipos de entidades.
Uma rede pode ser definida como um conjunto de itens com conexões entre eles
[Newman, 2003], sendo, em geral, modeladas como grafos do tipo G = (V, E), onde
V é o conjunto de nós e E é o conjunto de arestas. Quandos os grafos são orientados,
eles são do tipo G = (V, A), onde A é o conjunto de pares ordenados de nós, chamados
de arcos ou arestas.
6

Os nós do grafo representam as entidades do mundo real e as arestas representam
as intera¸cões entre essas entidades, que podem representar pessoas, grupos, organi-
za¸cões ou dispositivos. As intera¸cões podem designar qualquer for¸ca ou influência
exercida por essas entidades em outras entidades. A estrutura de interconexão da
Internet e a World Wide Web são os exemplos mais populares de redes complexas
que seguem essa formula¸cão.
2.1.1 Modelos de Redes Complexas
Diversos modelos de redes complexas foram propostos para prover maior com-
preensão a respeito do comportamento das redes existentes no mundo real. Este
trabalho utiliza três modelos populares de redes para atuarem como uma rede f´ısica
de computadores:
• Modelo Erdös-Rényi: é um modelo para a gera¸cão de grafos aleatórios
[Erdös e Rényi, 1959] do tipo G(n, p), em que n é o número de vértices do
grafo e p é a probabilidade de existência de cada aresta. Neste modelo, as ares-
tas são adicionadas com probabilidade independente e de maneira aleatória. A
distribui¸cão de arestas conectadas segue a distribui¸cão de Poisson [Montgomery
et al., 2003] limitada em n;
• Modelo Watts-Strogatz: é um modelo de gera¸cão de grafos aleatórios [Watts
e Strogatz, 1998] bastante similar ao modelo Erdös-Rényi. Seu principal ob-
jetivo é gerar grafos com propriedades de mundo pequeno, for¸cando a rede a
formar conexões entre nós mais próximos. Essas propriedades estão presen-
tes em muitas redes do mundo real. O modelo Watts-Strogatz possui ainda
duas caracter´ısticas próprias, ao contrário do simples modelo Erdös-Rényi: um
7

tamanho médio de caminho m´ınimo pequeno e uma alta probabilidade de for-
ma¸cão de grupos. Essas duas propriedades implicam na forma¸cão topológica
da rede, cujas novas arestas são formadas entre nós já conectados;
• Modelo Barabási-Albert: este modelo [Barabasi e Albert, 1999] gera grafos
aleatórios usando o mecanismo da conexão preferencial. Esse mecanismo tende
a formar conexões em nós com elevado número de conexões. As redes Barabási-
Albert, chamadas também de redes sem escala, possuem poucos nós altamente
conectados, chamados hubs, e muitos nós com poucas conexões. Neste modelo,
a distribui¸cão de arestas conectadas segue a fun¸cão de probabilidade P(k) =
k−γ
, que é chamada lei de potência, onde γ é um parâmetro que varia conforme
a topologia da rede.
Figura 2.1: Exemplos de redes complexas.
Os três modelos podem ser melhor visualizados na Figura 2.1, que ilustra a to-
pologia das redes aleatória (Figura 2.1(a)), formada pelo modelo Erdös-Rényi, de
mundo pequeno (Figura 2.1(b)), formada pelo modelo Watts-Strogatz, e sem escala
(Figura 2.1(c)), gerada conforme o modelo Barabási-Albert.
As redes podem ser geradas por meio dos modelos descritos ou ainda pela coleta de
dados e observa¸cão de uma situa¸cão real do mundo. Uma rede pode ser representada
de diversas maneiras, independentemente de como ela é formada. A representa¸cão
8

gráfica, ilustrada anteriormente na Figura 2.1, é uma das maneiras de observar a
topologia de um grafo. No entanto, ela pode não ser a melhor op¸cão quando é
desejável compreender e avaliar a estrutura da rede em termos matemáticos. Nesse
sentido, as medidas estat´ısticas descritas a seguir podem colaborar de modo mais
eficiente [Oliveira e Gama, 2012].
2.1.2 Medidas Estat´ısticas
Entre as medidas estat´ısticas mais usadas para caracterizar as redes complexas
estão:
• Grau Médio (g): o grau g de um nó u é a quantidade de arestas que ele
possui. O grau médio da rede corresponde à média dos graus de todos os nós
N da rede e pode ser calculado deste modo:
g =
1
N
N
i=1
g(ui) (2.1)
• Diâmetro (D): corresponde ao maior valor de caminho m´ınimo CMC entre
dois nós u e v. O diâmetro pode ser medido como:
D = max {CMC(u, v)} (2.2)
• Densidade (DS): quantifica o n´ıvel de conectividade presente na rede. Valores
altos de densidade estão associados a redes densas, que são redes que tendem
a ter todos os nós conectados entre eles. A densidade pode ser medida como
a propor¸cão entre a quantidade m de arestas presentes na rede e o número
9

máximo poss´ıvel mmax de arestas que poderiam ser formadas:
DS =
m
mmax
(2.3)
• Coeficiente de Assortatividade (AS): é uma medida que varia entre -1
e 1 e indica a tendência em encontrar nós altamente conectados que estão
conectados uns com os outros. Coeficientes negativos indicam que nós com
alto grau tendem a se conectar com nós de baixo grau. Coeficientes positivos
indicam que nós com graus semelhantes tendem a se conectarem. O coeficiente
de assortatividade pode ser calculado deste modo, onde euv é a fra¸cão das
arestas que conectam os nós u e v:
AS =
N
u=1 euu − N
u=1
N
v=1 euv
N
u=1 euv
1 − N
u=1
N
v=1 euv
N
u=1 euv
(2.4)
• Coeficiente Médio de Agrupamento (C): é o cálculo da média de todos
os valores de agrupamento local C para a vizinhan¸ca e do nó u. O coeficiente
de agrupamento local indica o n´ıvel de coesão de um nó com seus vizinhos. É
uma das medidas mais importantes da ARC e pode ser calculada conforme as
seguintes equa¸cões:
C =
1
N
N
i=1
C(ui) (2.5)
C(u) =
2|eu|
g(u)(g(u) − 1)
(2.6)
Neste trabalho essas medidas são utilizadas para descrever estatisticamente a
topologia das redes de aplica¸cão utilizadas nos experimentos.
10

2.2 Predi¸cão de Links
Uma das áreas originadas da Análise de Redes Complexas e em maior expansão
atualmente é a Predi¸cão de Links [Getoor e Diehl, 2005], que investiga a probabilidade
de associa¸cões futuras entre entidades de uma rede. Ela tem sido utilizada em duas
principais tarefas: na predi¸cão de novos links [Hasan et al., 2006] ou na predi¸cão
de links que permanecerão conectados no futuro [Fire et al., 2011], chamada de
persistência de links. Embora o termo “predi¸cão de links” refira-se geralmente à
primeira tarefa, o texto deste trabalho utiliza-o genericamente para indicar ambas as
tarefas. Os termos espec´ıficos serão explicitados quando necessário.
Neste trabalho é adotada uma abordagem conjunta para o problema da PL, em
que a predi¸cão e a persistência de links são realizadas simultaneamente, e não de
maneira isolada. Deste modo, os preditores inferem os links futuros e também aqueles
que persistem no tempo.
Entre os métodos usualmente utilizados para solucionar a PL estão aqueles que
estimam escores para todos os pares de nós da rede [Liben-Nowell e Kleinberg, 2007].
Esses métodos predizem os links com base no valor do escore, que indica a proba-
bilidade de presen¸ca do link em um instante futuro da rede. Por não apresentarem
um parâmetro temporal, os preditores tradicionais de PL são chamados muitas ve-
zes de não-supervisionados [Lu et al., 2010, Wang et al., 2011]. Por outro lado,
quando esse parâmetro temporal existe na rede, é comum as pesquisas [Benchettara
et al., 2010b, Feyessa et al., 2011, Scellato et al., 2011] indicarem o uso de técni-
cas de Aprendizado de Máquina como uma alternativa para a obten¸cão de melhores
resultados.
11

2.2.1 Modelagem de Tarefas
Em problemas de PL é dada uma rede complexa representada por um grafo do
tipo G = (V, E), onde V é o conjunto de nós e E é o conjunto de arestas da rede.
Cada aresta em E é do tipo e = (u, v) e representa um par de nós (u, v), tal que u e
v fazem parte do conjunto de vértices V de G.
O método de modelagem adotado neste trabalho visa construir um conjunto de
dados para a tarefa de predi¸cão conjunta de links novos e links que persistem. Ele
resulta em um conjunto formado por apenas duas categorias: links positivos e negati-
vos. Os links que se formam ou persistem são chamados de links positivos, enquanto
os links que não existem mais ou deixam de existir são chamados de links negativos
A modelagem binária, ou seja, a modelagem com apenas duas classes, é a forma pre-
dominante para a caracteriza¸cão do problema de PL [Hasan et al., 2006, Benchettara
et al., 2010a, Sun et al., 2012].
Na Figura 2.2 são ilustrados os métodos utilizados para a constru¸cão dos conjun-
tos de dados de PL no tempo. Neste caso, dados exemplos descrevendo uma rede e
suas conexões em um intervalo de tempo δt, deseja-se predizer o padrão de forma¸cão
de conexões em um instante posterior ∆t+σ. Na Figura 2.2, X representa o conjunto
de nós presentes na rede no intervalo ∆t. O conjunto U corresponde ao conjunto de
todas as arestas que poderiam existir entre os nós do grafo formado pelo conjunto
X. E Y representa o conjunto das arestas presentes na rede do intervalo seguinte.
Em X −Y estão os links deixam de existir porque não existiam ou não se formaram.
Na interseçcão de X e Y estão os links que persistem com o tempo. E em Y − X
estão os novos links formados. Tem-se, então, que:
• A Figura 2.2(a) representa a predi¸cão de novos links;
• A Figura 2.2(b) representa a persistência de links; e
12

• A Figura 2.2(c) indica a abordagem que une as duas tarefas.
Figura 2.2: Diagramas de constru¸cão do conjunto de dados para Predi¸cão de Links.
A Tabela 2.1 apresenta o racioc´ınio utilizado para a composi¸cão dos conjuntos de
aprendizado em cada tarefa de PL. Usando essas configura¸cões é poss´ıvel construir
um conjunto rotulado para treinamento das técnicas de PL. Ele será, então, composto
por pares de nós e sua rotula¸cão será apresentada a algum algoritmo de modelagem
para a constru¸cão de um preditor. Esse preditor deve ser capaz de realizar predi¸cões
futuras de links existentes ou não existente na rede.
Uma caracter´ıstica inerente da PL é o alto desbalanceamento na propor¸cão de
links positivos e links negativos [Shibata et al., 2012]. Um conjunto de dados é consi-
derado desbalanceado se cada classe não está representada de modo aproximado. Em
PL, a existência de exemplos negativos é usualmente muito maior que de exemplos
positivos. Isso acontece porque, muitas vezes, as entidades da rede não esbelecem
13

Tabela 2.1: Racioc´ınio para a constru¸cão dos conjuntos de aprendizado conforme a tarefa
de Predi¸cão de Links.
Tarefa Conjunto de dados Positivos Negativos
Predi¸cão de novos links U − X Y − X U − (X + Y )
Persistência de links X U ∩ X X − (X ∩ Y )
Abordagem conjunta U Y U − Y
conexões de fato. Neste trabalho, o desbalanceamento é amenizado por meio meio do
mapeamento entre as rede de aplica¸cão e os modelos topológicos, que ainda contribui
para a eficácia da predi¸cão.
2.2.2 Algoritmos de Predi¸cão de Links
Os algoritmos tradicionais de PL são preditores que atribuem um escore a cada um
dos pares de nós de um conjunto de dados, representando o grau com que cada aresta
entre eles pode ser formada. Os escores visam qualificar a topologia da rede ou indicar
a probabilidade de um determinado par de nós estar conectado. Para calcular essa
probabilidade, os algoritmos podem ser baseado em um dos três seguintes métodos
[Lü e Zhou, 2011]:
• Baseado no grau do nó: observa apenas a quantidade de conexões que cada
nó possui;
• Baseado na vizinhan¸ca do nó: calcula o escore com base na afinidade entre
as conexões de cada nó;
• Baseado no caminho entre nós: calcula o escore a partir de uma sequência
consecutiva e não repetida de vértices ligados por uma aresta que possam ser
percorridos.
14

Em geral, diversos preditores são experimentados a fim de investigar qual dentre
os selecionados alcan¸ca o melhor desempenho. Neste trabalho são adotados onze
preditores baseados em escores diferentes e usualmente mencionados na literatura
de PL [Lichtenwalter et al., 2010, Lü e Zhou, 2011, Silva-Junior e Lorena, 2013].
Nos algoritmos listados a seguir, Γ(u) define o conjunto de vizinhos do nó u, ou
Γ(x) = {y | y ∈ V, (x, y) ∈ E}:
• Grau do Nó (g): é uma medida de centralidade que indica a popularidade
do nó no grafo, podendo ser calculada como:
g(u) = |Γ(u)| (2.7)
• Caminho Mais Curto (CMC): corresponde à distância geodésica entre os
nós. A medida representa o número m´ınimo de arestas existentes em paths s
u,v
que parte do nó u e atinge o nó v. Ela pode ser definida genericamente como:
CMC(u, v) = min s | paths s
u,v > 0 (2.8)
• Vizinhos Comuns (CN): é uma das medidas mais importantes em PL. O
número de vizinhos comuns informa a probabilidade de uma aresta ser formada
ou ser removida entre dois nós, e é definida como:
CN(u, v) = |Γ(u) ∩ Γ(v)| (2.9)
• Conexão Preferencial (PA): fornece a probabilidade de novos nós poderem
se conectar a cada vértice. Nas redes de aplica¸cão, indica a tendência dos
15

usuários em terem mais conexões no futuro. Pode ser definida como:
PA(u, v) = |Γ(u)| · |Γ(v)| (2.10)
• Índice de Jaccard (JAC): calcula a similaridade entre diferentes conjuntos
de amostras e definine o estado da liga¸cão entre dois nós. O ´ındice de Jaccard
expressa a for¸ca de uma liga¸cão e pode ser definido como:
JAC(u, v) =
|Γ(u) ∩ Γ(v)|
|Γ(u) ∪ Γ(v)|
(2.11)
• Coeficiente de Adamic/Adar (AA): define um escore de similaridade entre
dois nós por meio da pondera¸cão dos vizinhos comuns mais raros e com maior
peso. O coeficiente de Adamic/Adar informa o grau de exclusividade ou esta-
bilidade entre um vizinho comum e o par de nós sendo analisado. A medida é
definida como:
AA(u, v) =
w ∈ Γ(u)∩Γ(v)
1
log |Γ(w)|
(2.12)
• Índice de Aloca¸cão de Recursos (RAI): é um ´ındice de similaridade moti-
vado pela aloca¸cão dinâmica de recursos em redes complexas. Dados dois nós
não conectados, seus vizinhos comuns atuam como transmissores de recursos
entre esses dois nós. Cada um dos transmissores distribui igualmente entre
os vizinhos seus recursos dispon´ıveis [Lü e Zhou, 2011]. A medida pode ser
calculada do seguinte modo:
RAI(u, v) =
w ∈ Γ(u)∩Γ(v)
1
|Γ(w)|
(2.13)
16

• Medida Katz (KZ): é uma medida de centralidade de redes que aprimora
o cálculo do caminho mais curto entre dois nós. A medida realiza a soma
direta ponderada de todos os caminhos entre os nós e é computada pelo cálculo
da equa¸cão 2.14, onde paths
l
x,y designa o conjunto de todos os caminhos de
tamanho l entre o nó u e o nó v. O parâmetro β colabora para o cálculo dos
caminhos. A medida Katz é expressa como:
KZ(u, v) =
∞
l=1
βl
· |paths l
u,v| (2.14)
• Índice do Hub Promovido (HPI): é um ´ındice que quantifica as sobreposi-
¸cões topológicas dos pares de nós em conjuntos de amostras. Ele verifica se as
conexões adjacentes aos hubs são suscet´ıveis a receber altos escores, uma vez
que o denominador da equa¸cão é determinado pelo menor grau entre os nós. O
HPI é calculado como:
HPI(u, v) =
|Γ(u) ∩ Γ(v)|
min {|Γ(u)|, |Γ(v)|}
(2.15)
• Índice do Hub Deprimido (HDI): é um ´ındice oposto ao HPI. Ele é utili-
zado neste trabalho para medir o valor das conexões de valor oposto ao HPI,
auxiliando-as em sua forma¸cão.
HDI(u, v) =
|Γ(u) ∩ Γ(v)|
max {|Γ(u)|, |Γ(v)|}
(2.16)
• PropFlow (PF): considerado o estado-da-arte entre os métodos baseados em
caminho, o PropFlow calcula a probabilidade de existir um passeio aleatório
restrito path de u para v com uma quantidade máxima de passos, usando pesos
17

nos links como probabilidades de transi¸cão. Pode ser expressa como:
PF(u, v) =
∞
path∈P


|path|−1
x=1
f(pathx, pathx+1)
c(pathx)

 (2.17)
Neste trabalho, os algoritmos apresentados são utilizados como preditores de ma-
neira independente, como tradicionalmente é feito em PL, e também como atributos
de entrada para os algoritmos de AM supervisionado adotados.
2.3 Redes Definidas por Software
Embora este trabalho não se proponha a resolver o problema existente em SDN
apresentado no Cap´ıtulo 1, mas apenas a orientar a uma das diversas solu¸cões pos-
s´ıveis, é relevante descrever alguns dos aspectos fundamentais desse novo paradigma
para melhor compreensão das motiva¸cões do trabalho.
SDN emerge no cenário atual ante as dificuldades das redes tradicionais. O cres-
cimento no volume de dados, os servi¸cos baseados em nuvem, a dinamicidade da
computa¸cão e a complexidade dos servi¸cos são algumas das limita¸cões que as ar-
quiteturas de redes atuais vêm enfrentando [ONF, 2012]. A necessidade de um novo
paradigma como SDN parece ser a solu¸cão mais eficaz para lidar com esses problemas.
Em geral, as arquiteturas de redes são formadas por dois componentes principais
[Yang et al., 2004]: um plano de controle e um plano de dados. O plano de controle
é responsável pela configura¸cão dos nós existentes na rede e pela programa¸cão dos
caminhos a serem usados pelos fluxos de dados. O plano de dados é responsável
pelo encaminhamento dos dados, que são originados pelo tráfego das informa¸cões
nas aplica¸cões. Tradicionalmente, o plano de controle é combinado com o plano de
18

dados, sendo ambos alocados em um nó da rede. Nos paradigmas em que isso ocorre,
o plano de controle é também responsável pela configura¸cão do nó.
Figura 2.3: Arquitetura geral de SDN.
Um problema existente nesse formato é a complexidade da manuten¸cão dos ca-
minhos uma vez definida a pol´ıtica de encaminhamento de dados [Sezer et al., 2013].
SDN resolve esse problema com a divisão dos planos, separando-os logicamente e
utilizando um controlador centralizado que se torna responsável pelas opera¸cões que
acontecem na rede. Esse controlador manipula os dispositivos de rede e possui uma
visão global do estado da rede, além de fornecer alta abstra¸cão para o desenvolvedor
das aplica¸cões.
A divisão de planos e a utiliza¸cão de um controlador centralizado são as prin-
cipais caracter´ısticas [Feamster et al., 2013] da arquitetura SDN. Uma arquitetura
geral desse novo paradigma pode ser ilustrada como na Figura 2.3, que apresenta os
19

principais componentes de rede em camadas. A primeira camada é a infraestrutura,
que agrega os dispositivos de rede, como os roteadores e os switches. A camada in-
termediária é composta pelos controladores, que obtêm informa¸cões dos dispositivos
de rede para configurar os fluxos. A última camada é constitu´ıda pelas aplica¸cões
que atuam na rede.
Um desafio presente na área é a necessidade de minimizar a quantidade de consul-
tas enviadas pelo switch. Essas consultas produzem um atraso no estabelecimento da
comunica¸cão e ainda geram sobrecarga no controlador. Uma maneira de tratar esse
problema é fazer com que o controlador realize predi¸cões de tráfego e instale anteci-
padamente os fluxos nos switches, autorizando a comunica¸cão antes que o primeiro
pacote do fluxo chegue. Como toda predi¸cão é um indicador de probabilidades que
acontecem no futuro, ou seja, apresenta elementos incertos, uma certa quantidade de
fluxos poderia ser instalada e nunca utilizada. Essa situa¸cão gera um trade-off entre
a quantidade de requisi¸cões enviadas ao controlador e a quantidade de memória do
switch ocupada pelos fluxos não concretizados. Neste caso, a predi¸cão seria justifi-
cada se, apesar da perda de memória, ainda houver benef´ıcios em termos de redu¸cão
de requisi¸cões ao controlador.
Neste trabalho são utilizados os conceitos de SDN apresentados como motiva¸cão
para a investiga¸cão do problema de predi¸cão de fluxos em redes de computadores.
2.4 Aprendizado de Máquina
O aumento da complexidade de problemas tratados computacionalmente e o cres-
cente volume de dados gerados a partir de diferentes setores exigiram a existência
de ferramentas computacionais mais sofisticadas. Com o surgimento da Inteligência
Artificial (IA) moderna na década de 70, novas técnicas foram desenvolvidas. Essas
20

técnicas analisavam inicialmente o problema e tinham como objetivo criar hipóteses
a partir de experiências passadas para solucioná-lo. Em IA, essa indu¸cão de hipóte-
ses a partir de experiências passadas ficou conhecida como Aprendizado de Máquina
[Faceli et al., 2011].
Dado um conjunto de dados com informa¸cões passadas, as técnicas de AM buscam
a solu¸cão de um problema por meio de um processo indutivo, em que conclusões
genéricas são inferidas a partir de situa¸cões particulares. Um algoritmo de AM que
induz hipóteses se utiliza de um conjunto de dados em que cada elemento incluso
descreve um exemplo contendo atributos que qualificam as caracter´ısticas espec´ıficas
do conjunto.
A indu¸cão de hipóteses é um processo que pode ser obtido por meio de tarefas
preditivas ou descritivas. As tarefas preditivas têm por meta encontrar uma hipótese
a partir dos valores dos atributos dos dados de treinamento. Em geral, os algorit-
mos dessa categoria pertencem ao paradigma supervisionado. Nesse paradigma, o
algoritmo aprende a hipótese a partir de um conjunto de dados pré-classificados para
utilizá-la em casos futuros. Nas hipóteses obtidas por meio das tarefas descritivas,
os algoritmos seguem o paradigma não-supervisionado, que agrupa os dados que não
são classificados para encontrar padrões. A partir dessa busca de padrões, as tarefas
descritivas exploram ou descrevem o conjunto de dados [Faceli et al., 2011].
Este trabalho utilizadas técnicas do paradigma supervisionado para atingir os
objetivos descritos no Cap´ıtulo 1. Nas tarefas supervisionadas, a etapa de indu¸cão é
denominada treinamento e consiste no aprendizado de uma hipótese que relacione os
atributos de entrada de um exemplo com seu respectivo atributo de sa´ıda, chamado
rótulo. Quando o algoritmo aprende uma hipótese válida também para os dados
fora do subconjunto de treinamento, diz-se que essa hipótese possui capacidade de
generaliza¸cão. Este trabalho utiliza quatro algoritmos de AM para inferir hipóteses
21

sobre os conjuntos gerados a partir das redes de aplica¸cão. Cada um dos seguintes
algoritmos foi escolhido com base nas aplica¸cões realizadas de PL [Hasan et al.,
2006, Shibata et al., 2012] e em experimentos passados [Silva-Junior et al., 2013]:
• Algoritmo C5.0: o algoritmo C5.0 é a versão atual do conhecido algoritmo
C4.5 [Quinlan, 1993], uma técnica de AM que infere hipóteses construindo
modelos de árvores de decisão. A árvore de decisão gerada pelo C5.0 é um
grafo ac´ıclico direcionado, em que cada nó da árvore é um nó folha ou um
nó de divisão. Os nós folha são rotulados com uma fun¸cão, indicando uma
classifica¸cão. No caso abordado neste trabalho, o nó folha indica se um link é
positivo ou negativo. Por outro lado, os nós de divisão são aqueles que agregam
testes condicionais, baseados nos valores dos atributos dos exemplos;
• Máquinas de Vetores de Suporte (do inglês, Support Vector Machi-
nes (SVM)): as SVMs são baseadas na Teoria do Aprendizado Estat´ıstico
[Vapnik, 1995], que determina um conjunto de princ´ıpios para a obten¸cão de
classificadores com boa capacidade de generaliza¸cão. Neste trabalho é empre-
gada uma SVM linear, que procura um hiperplano linear capaz de separar os
dados de duas classes com erro m´ınimo e margem de separa¸cão máxima;
• Na¨ıve Bayes: é um dos métodos probabil´ısticos mais simples em AM. O
na¨ıve Bayes é baseado no teorema de Bayes sobre probabilidades condicionais
e assume que os atributos de entrada do conjunto de dados são independentes
entre si;
• Algoritmo dos k-Vizinhos Mais Próximos (k-NN): no k-NN, cada re-
gistro é representado como um ponto em um espa¸co de entrada, sendo poss´ıvel
calcular a distância entre dois pontos. Usualmente a distância euclidiana é
22

usada para esse cálculo. Na fase de treinamento, o algoritmo memoriza os
exemplos de treinamento rotulados. Para obter previsões, é feito o cálculo da
distância entre o vetor de atributos do exemplo não rotulado e cada exemplo
presente no conjunto de treinamento. Os exemplos mais próximos fornecem a
previsão final. O k-NN é um dos algoritmos mais simples em AM.
Cada um dos algoritmos apresentados dispõe de uma série de parâmetros que po-
dem ser configurados. A parametriza¸cão de cada um deles é apresentada no Cap´ıtulo
3.
23

Cap´ıtulo 3
PREDI ¸CÃO DE FLUXOS EM
REDES DE COMPUTADORES
Neste cap´ıtulo é apresentada a metodologia proposta neste trabalho para o ma-
peamento das redes lógicas sobre as redes f´ısicas. A PL é realizada no resultado desse
mapeamento. Também é apresentado o procedimento experimental adotado na rea-
liza¸cão dos experimentos deste trabalho, cujos resultados são discutidos no Cap´ıtulo
4.
3.1 Metodologia
A metodologia descreve os métodos empregados no trabalho para a avalia¸cão dos
modelos preditivos gerados a instala¸cão dos fluxos em redes de computadores. Foram
testadas duas categorias de preditores: algoritmos tradicionais de PL e técnicas de
AM supervisionado. Outras caracter´ısticas importantes para a elabora¸cão da meto-
dologia incluem a aplica¸cão de uma modelagem conjunta para a predi¸cão de novos
24

fluxos e de fluxos que persistem e ainda um método de mapeamento entre a rede
de aplica¸cão e a rede f´ısica. A metodologia adotada é ilustrada na Figura 3.1, que
descreve os procedimentos executados:
• Gerenciamento de Dados: consiste no pré-processamento dos dados e na
gera¸cão das redes complexas;
• Mapeamento: compreende o processo de mapeamento das redes lógicas e,
consequentemente, a modelagem prévia à predi¸cão; e
• Predi¸cão: consiste na predi¸cão de links pelos preditores e na avalia¸cão dos
resultados obtidos nessa tarefa.
Figura 3.1: Metodologia experimental.
25

As se¸cões seguintes detalham cada um desses procedimentos e as tarefas envolvi-
das em cada um deles.
3.2 Gerenciamento de Dados
Nesta etapa foram coletados e organizados todos os dados necessários para a re-
aliza¸cão dos experimentos. Inicialmente foram coletados dados para a forma¸cão das
redes de aplica¸cão. Para a modelagem das redes f´ısicas foram gerados modelos topo-
lógicos baseados na Teoria de Redes Complexas. As subse¸cões seguintes descrevem
esse procedimentos.
3.2.1 Dados das Redes de Aplica¸cão
Para representar as informa¸cões das redes de aplica¸cão foram utilizados dados
de uma rede P2P e de uma rede de e-mails. Esses tipos de redes são comumente
responsáveis pela gera¸cão de tráfegos de redes de computadores. Os dados de ambas
as redes representam situa¸cões reais.
Os dados da rede P2P foram coletados a partir das informa¸cões dispon´ıveis na
base de dados Can-O-Sleep [Fast et al., 2005], que foram recolhidas de um servidor
OpenNap entre fevereiro e maio de 2003. A base de dados possui registros de todas
as transferências de arquivos entre os usuários da rede P2P Gnutella naquele per´ıodo
e ela está dispon´ıvel publicamente no formato XML.
A base Can-o-Sleep é composta por dados registrados entre 80 dias. No entanto,
verificou-se que apenas 10 dias apresentam registros completos ao longo de 24 horas.
Observou-se ainda que a maior parte dos dias dentre os 10 dias apresentados não
possui um sucessor ou antecessor com registros completos, o que pode impossibi-
26

litar para uma predi¸cão de liga¸cões mais acurada. Assim, optou-se por selecionar
apenas os dois dias de números na sequência (60/61 e 68/69) que apresentaram, ao
menos, um dia posterior de registros, para gerar redes complexas. Todos os dias
selecionados foram pré-processados para permitir a gera¸cão de diversos conjuntos de
dados representando diferentes instantes da rede. Esses conjuntos são chamados de
snapshots. Em seguida, gerou-se as redes complexas para cada um dos conjuntos
de dados. Cada uma das redes é um grafo orientado, em que os nós representam
os peers e as arestas representam a transferência de arquivos entre os usuários da
rede. Por fim, escolheu-se a rede com maior densidade (dia 69) para ser utilizada nos
experimentos.
Para a composi¸cão dos dados da rede de e-mails foram utilizadas as informa¸cões
do conhecido corpus Enron [Klimt e Yang, 2004], que contém comunica¸cões de e-
mails corporativos dessa empresa desde 1979. Os dados do corpus foram inicialmente
pré-processados, resultando em um grafo orientado, em que os nós representam os
usuários de e-mails e as arestas representam o envio de e-mails entre esses usuários.
Para os experimentos foram selecionados apenas os últimos 4 anos, que condensam
as informa¸cões mais atualizadas sobre a troca de e-mails entre os usuários da rede.
Tanto nas redes P2P modeladas quanto na rede de e-mails foi inclu´ıdo um atri-
buto, procedente das bases de dados originais, para auxiliar a predi¸cão conforme o
paradigma supervisionado. Esse atributo consiste em um timestamp [ISO, 2004] que
registra a ocorrência temporal de cada evento. Na rede P2P, o evento corresponde
ao instante em que um arquivo foi transferido. Na rede de e-mails, o evento é a data
de envio do e-mail.
Por fim, a Tabela 3.1 mostra algumas caracter´ısticas das redes modeladas: os
números de nós e arestas, o grau médio total, o diâmetro e a densindade da rede,
e os coeficientes de assortatividade e médio de agrupamento. Os valores maiores de
27

Tabela 3.1: Caracter´ısticas das redes
Rede P2P Rede de E-mails
Nós 1097 144
Arestas 3679 1311
Grau Médio Total 6,707 9,104
Diâmetro 9 7
Densidade 0,003 0,064
Assortatividade -0,119 0,096
Coef. Médio de Agrupamento 0,016 0,384
grau médio, densidade e quantidade de grupos da rede de e-mails mostram que as
informa¸cões topológicas dessa rede estão mais organizadas em rela¸cão à rede P2P.
No entanto, a rede P2P apresenta um número maior de informa¸cões, o que pode co-
laborar na acurácia predi¸cão. As redes complexas modeladas de ambas as aplica¸cões
estão dispon´ıveis em [Silva-Junior, 2013].
3.2.2 Dados das Redes F´ısicas
A segunda parte do gerenciamento de dados corresponde à gera¸cão dos dados dos
modelos topológicos, que representam a rede f´ısica. Optou-se por gerar topologias
de três diferentes modelos da ARC e utilizar um modelo sem topologia definida. Ao
contrário das redes geradas, o modelo sem topologia não apresenta uma estrutura de
conexão. Nesse modelo, os vértices são um conjunto previamente definido de nós,
enquanto que o conjunto de arestas é formado pelas conexões existentes na rede de
aplica¸cão que foram mapeadas de acordo com uma determinada configura¸cão de nós.
Para todos os modelos foi adotada a mesma topologia, exceto pela quantidade
de nós (Nc = {10, 15, 25, 50, 100, 200}). Com exce¸cão do modelo sem topologia,
os parâmetros de todas redes foram configurados para permitir a existência de, ao
menos, uma aresta para cada nó da rede. Assim, as rede foram geradas deste modo:
28

• Rede Aleatória: gera¸cão de uma rede segundo o modelo Erdös-Rényi, com
25% de chance de um nó formar arestas (p = 0, 25);
• Rede de Mundo Pequeno: gera¸cão de uma rede conforme o modelo Watts-
Strogatz com grau médio igual a 2 e 25% de chances de um nó formar arestas;
• Rede Sem Escala: utiliza¸cão do modelo Barabási-Albert com conexão prefe-
rencial linear.
3.3 Mapeamento
Uma das principais contribui¸cões deste trabalho é o método de mapeamento entre
a rede de aplica¸cão e a rede f´ısica. O método consiste na associa¸cão dos nós e das
arestas entre ambas as redes e resulta em um conjunto de pares de nós, que é com-
preendido neste trabalho como um modelo de tráfego de informa¸cões. As principais
vantagens do mapeamento são a ameniza¸cão do desbalanceamento natural existente
em PL e a possibilidade de verifica¸cão de influências entre duas redes complexas.
Antes do método ser aplicado, as redes de aplica¸cão geradas foram divididas para
se ajustarem ao procedimento usual em PL, descrito no Cap´ıtulo 2.2. Os dados de
cada uma das redes foram, então, divididos em dois subconjuntos não-sobrepostos,
chamados de subconjunto de treinamento X e subconjunto de avalia¸cão Y . Para a
rede P2P, os subconjuntos foram divididos igualmente, ficando com dados de 12 horas
cada um deles. Para a rede de e-mails, o subconjunto de treinamento abrangeu os
três primeiros anos (1998-2000), enquanto subconjunto de avalia¸cão ficou apenas com
o último ano (2001). Primeiramente, os pares de nós presentes na rede de avalia¸cão
mas ausentes na rede de treinamento foram eliminados. Esse processo visou adequar
29

a predi¸cão de links à predi¸cão que será realizada para a rede mapeada, chamada de
predi¸cão de fluxos.
Formalmente, o mapeamento consiste na distribui¸cão uniforme e aleatória dos
nós de uma rede GA para uma rede não orientada GF . Cada nó presente na rede
GA corresponde a um nó da rede GF . Esse procedimento resulta em um conjunto
com
|VGF |·(|VGF |−1)
2
pares de nós, onde VGF
é o conjunto de nós da rede GF . Os nós
associados podem se repetir caso a quantidade de nós em GF seja menor que em GA.
Além disso, a distribui¸cão uniforme é adotada a fim de manter a distribui¸cão das
informa¸cões originais da rede de aplica¸cão. Esse procedimento também mantêm na
nova rede a forma¸cão de conexões da rede de aplica¸cão.
A primeira etapa do método é o mapeamento da rede de aplica¸cão completa, que
fornece os nós que centralizam e emitem os fluxos de dados. Todos os nós da rede de
aplica¸cão são distribu´ıdos de maneira uniforme e aleatória a cada um dos nós da rede
f´ısica. Em seguida são mapeados os subconjuntos de treinamento e avalia¸cão, que
fornecem as conexões e representam a existência ou não dos fluxos. Para exemplificar,
considerar uma rede de aplica¸cão GA com 500 nós e 600 arestas, e uma rede f´ısica
GF com 100 nós. O mapeamento consiste em associar cada nó de GA a um dos 100
poss´ıveis nós de GF .
A Figura 3.2 ilustra o procedimento adotado, onde P1 a P6 são os nós da rede de
aplica¸cão e S1 a S4 são os nós da rede f´ısica. Na prática, os nós PN podem designar
computadores pessoais e os nós SN podem representar switches de borda. O seguinte
mapeamento aleatório foi, então, realizado: P1 e P3 foram conectados a S4, P4 e P5
a S1, P2 a S2 e P6 a S3. Na Figura 3.2(b), a comunica¸cão entre P1 e P6, por exemplo,
gerará os seguintes fluxos na rede da Figura 3.2(a): P1 transmite a informa¸cão a S4,
que solicita, então, ao controlador SDN que instale um fluxo para S3. Esse nó f´ısico
encontra o nó P6 conectado a ele e transmite a informa¸cão a esse nó.
30

Figura 3.2: Ilustra¸c˜ao do processo de mapeamento.
31

Independentemente da topologia adotada, o mapeamento é capaz de gerar con-
juntos com a mesma quantidade total de exemplos, incluindo o mesmo número de
links positivos e negativos, para o cálculo das probabilidades de predi¸cão de fluxos.
As Tabelas 3.2 e 3.3 apresentam, respectivamente, a quantidade de exemplos nos
conjuntos gerados a partir da rede P2P e de e-mails. Para ambas as redes, a quan-
tidade de links negativos existentes cresce à medida que o número de nós aumenta,
mostrando o desbalanceamento dos conjuntos. Observa-se também que nem sempre
o conjunto de dados a ser empregado nos experimentos de predi¸cão terá a quanti-
dade máxima de exemplos dispon´ıveis. Isso porque o mapeamento restrige-se aos
nós da rede de treinamento, que pode ter menos exemplos que a rede de avalia¸cão e
ocasionar na perda de algumas conexões.
Tabela 3.2: Caracteriza¸cão do conjunto de dados para a rede P2P.
Nós Máx. Exemplos Exemplos Positivos Negativos
10 45 45 44 (97,78%) 1 (2,22%)
15 105 105 91 (86,67%) 14 (13,33%)
25 300 300 171 (57%) 129 (43%)
50 1225 1225 243 (19,84%) 982 (80,16%)
100 4950 4851 326 (6,72%) 4525 (93,28%)
200 19900 14365 305 (2,12%) 14060 (97,88%)
Tabela 3.3: Caracteriza¸cão do conjunto de dados para a rede de e-mails.
Nós Máx. Exemplos Exemplos Positivos Negativos
10 45 45 45 (100%) 0 (0%)
15 105 105 76 (72,38%) 29 (13,33%)
25 300 300 29 (9,67%) 271 (90,33%)
50 1225 1081 258 (23,86%) 823 (76,13%)
100 4950 2926 300 (10,25%) 2626 (89,75%)
200 19900 5151 330 (6,41%) 4821 (93,59%)
32

As tabelas também mostram um alto desbalanceamento entre links positivos e
negativos. Na rede P2P, a quantidade de positivos decai com o aumento no número
de nós (Nc). O melhor balanceamento ocorre nos modelos com Nc = 25. Na rede de
e-mails, ao contrário, a majoritariedade do número de links positivos é dependente
de Nc. O balanceamento menos favorável à predi¸cão ocorre no modelo com Nc = 10,
onde não há nenhum link negativo que sirva como exemplo contrário à forma¸cão de
links. As melhores situa¸cões ocorrem nos modelos em Nc = {15, 50}.
Porém, observa-se também que o modelo com 10 nós possui apenas 1 registro na
rede P2P e nenhum registro na rede de e-mails. Por falta de exemplos, os conjuntos de
dados desse modelo foram descartados. Alguns experimentos prévios nos conjuntos
com 15 nós mostraram também que essa caracteriza¸cão não gera hipóteses por falta
de exemplos contrários necessários à predi¸cão. Esse motivo ocasionou o descarte dos
conjuntos com 15 nós.
3.4 Predi¸cão
A etapa de predi¸cão compreende a aplica¸cão dos algoritmos, suas configura¸cões
e os métodos de análise de resultados. Esta se¸cão descreve os métodos empregados
para a etapa de predi¸cão.
3.4.1 Sele¸cão e Configura¸cão de Algoritmos
Este trabalho utiliza duas categorias de algoritmos para a predi¸cão de links: algo-
ritmos tradicionais de PL e técnicas de AM. Neste trabalho foram usados os seguintes
algoritmos tradicionais de PL:
33

• Baseados no grau do nó: Grau do Nó de Entrada, Grau do Nó de Sa´ıda,
Conexão Preferencial;
• Baseados na vizinhan¸ca do nó: Vizinhos Comuns, Índice de Jaccard, Co-
eficiente de Adamic/Adar, Índice de Aloca¸cão de Recursos, Índice do Hub
Promovido e Índice do Hub Deprimido; e
• Baseados no caminho entre os nós: Caminho Mais Curto, Medida Katz e
PropFlow.
Todos os algoritmos que trabalham com o grau da rede foram configurados para
utilizar o grau de sa´ıda do nó. Para o cálculo do caminho mais curto (CMC) foi em-
pregado o algoritmo de busca em largura, que procura pelo melhor resultado em uma
árvore transversal percorrendo-a em sentido pós-ordem [McConnell, 2008]. O algo-
ritmo Katz foi parametrizado com l = 5 e α = 0, 05. O PropFlow foi parametrizado
para ter, no máximo, 5 passos aleatórios.
Entre os algoritmos de AM supervisionado empregados estão o C4.5, a SVM, o
na¨ıve Bayes e o k-NN. Dentre esses, apenas a SVM e o k-NN tiveram seus parâmetros
alterados em rela¸cão à op¸cão padrão da ferramenta R [R Core Team, 2013]. O
algoritmo SVM foi ajustado para ser uma SVM com kernel linear. E para o algoritmo
k-NN foi adotado k = 1, baseando-se em experimentos anteriores [Silva-Junior et al.,
2013].
3.4.2 Avalia¸cão de Desempenho
A avalia¸cão de desempenho consiste em mensurar a precisão p de um determinado
preditor H. Esse preditor observa as conexões de uma determinada rede em um
34

instante de tempo ∆t e prediz as conexões dessa mesma rede durante um instante
de tempo posterior ∆t + σ.
Na avalia¸cão dos preditores, primeiramente amostrou-se o conjunto de dados se-
gundo alguma metodologia para a gera¸cão de subconjuntos de treinamento e teste.
Geralmente as aplica¸cões de PL adotam a valida¸cão cruzada [Lü e Zhou, 2011], que
particiona o conjunto de dados em K subconjuntos de tamanho aproximadamente
igual. Enquanto os K −1 primeiros subconjuntos são designados como um único con-
junto de treinamento, o subconjunto restante é designado como conjunto de teste.
Esse processo é repetido K vezes, alternando o conjunto de teste. Este trabalho
adotou K = 10 para os experimentos.
Os escores presentes no conjunto de teste representam as probabilidades das co-
nexões que se formaram ou se mantiveram. Segundo a metodologia usual em PL [Lü
e Zhou, 2011, Lichtnwalter e Chawla, 2012], a predi¸cão consiste em obter um valor
das probabilidades calculadas e extrair o menor valor entre elas, que é chamado de
limiar. Esse valor indica a probabilidade m´ınima para que uma aresta se forme ou
se mantenha no grafo no instante futuro posterior. Em geral, o limiar é obtido por
meio do ranqueamento em ordem decrescente dos escores do conjunto de teste. Para
realizar a predi¸cão, a abordagem usual confere o valor limiar com o escore de todos
os pares de nós do conjunto de treinamento, seguindo esta regra:
• Se o valor do limiar é menor ou igual ao valor do escore do par de nós, então
esse par de nós é contabilizado como formado ou mantido;
• Senão, o par de nós é contabilizado como não formado ou não mantido;
Na segunda etapa da avalia¸cão de desempenho é realizado o cálculo das métricas
de desempenho sobre os conjuntos de teste. As métricas empregadas na área visam
35

calcular a quantidade de links que o preditor acerta em cada uma das classes. A
maior parte dos trabalhos em PL adota a curva ROC ou a sua área (AUC) [Fawcett,
2006] para avaliar os preditores [Silva-Junior e Lorena, 2013]. Alguns trabalhos
incluem também a medida escalar de precisão [Faceli et al., 2011], que fornece a
quantidade de links corretamente preditos. Mais recentemente as pesquisas têm
advogado [Lichtnwalter e Chawla, 2012] pelo uso da curva Precisão-Revoca¸cão [Davis
e Goadrich, 2006], que fornece uma visão mais discriminante do desempenho do
preditor em contextos altamente desbalanceados, como é o caso dos conjuntos de
dados de PL.
Neste trabalho optou-se por adotar uma métrica escalar que permitisse analisar
graficamente o desempenho em rela¸cão aos acertos e erros do preditor ao longo de
diferentes momentos da rede. Essa métrica deveria ainda focar-se nos links positivos,
que são os de maior interesse. Assim, escolheu-se a medida F1 [Faceli et al., 2011],
que resulta em um valor escalar entre 0 e 1 e pode ser obtida por meio dos seguintes
cálculos:
• Medida F1 (F1): é a média harmônica ponderada da precisão e da revoca¸cão,
as quais possuem o mesmo grau de importância no cálculo da medida. Ela pode
ser expressa deste modo:
F1(H) = 2 ·
PR(H) · RV (H)
PR(H) + RV (H)
(3.1)
• Precisão (PR): é a razão entre os links positivos preditos corretamente e
todos os links preditos como positivos. É expresso pela seguinte fórmula:
PR(H) =
|links preditos corretamente ∩ links preditos como positivos|
|links preditos como positivos|
(3.2)
36

• Revoca¸cão (RV): é a razão entre os links positivos preditos corretamente e
todos os links positivos existentes. A revoca¸cão é expressa pela fórmula:
RV (H) =
|links preditos corretamente ∩ links positivos|
|links positivos|
(3.3)
37

Cap´ıtulo 4
RESULTADOS
Neste cap´ıtulo são apresentados e discutidos os resultados dos experimentos reali-
zados para a predi¸cão de fluxos em redes de computadores utilizando a metodologia.
As se¸cões seguintes descrevem os resultados para a rede P2P e a rede de e-mails,
assim como uma discussão a respeito da predi¸cão de fluxos e algumas considera¸cões
finais. Os resultados completos de todos os experimentos podem ser consultados no
Apêndice A.
4.1 Resultados da Rede P2P
Esta se¸cão apresenta os resultados dos algoritmos tradicionais de PL e das técnicas
de AM adotadas para os experimentos na rede P2P.
4.1.1 Algoritmos de Predi¸cão de Links Tradicionais
As Figuras 4.1 e 4.2 apresentam os resultados obtidos em cada um dos modelos
topológicos experimentados. Nas figuras e nas análises seguintes, os algoritmos foram
38

categorizados de acordo com o método no qual eles são desenvolvidos, conforme
explicado no Cap´ıtulo 2.2: métodos baseados no grau do nó, na vizinhan¸ca do nó ou
no caminho entre nós.
Figura 4.1: Desempenho dos algoritmos de PL nos modelos sem topologia e aleatório
para a rede P2P.
Na rede sem topologia definida, os algoritmos baseados no grau do nó (Graus do
nó de entrada e sa´ıda e Conexão Preferencial) come¸caram apresentando os melhores
resultados, em termos de F1. Porém, o aumento no número de nós (Nc) acabou
deteriorando o desempenho dos preditores. Os algoritmos baseados em vizinhan¸ca
(Vizinhos Comuns, Jaccard, Adamic/Adar, RAI, HPI e HDI) são os de mais fraco
desempenho em todas as varia¸cões de Nc. Essa situa¸cão também acontece com
39

Figura 4.2: Desempenho dos algoritmos de PL nos modelos de mundo pequeno e sem
escala para a rede P2P.
aqueles baseados em caminho (CMC, Katz e PropFlow), exceto pelo CMC, que
apresenta o melhor desempenho geral na rede e pouca deteriora¸cão.
Na rede aleatória, o algoritmo CMC não apenas é o melhor entre os preditores
como é o de melhor estabilidade, pois seus resultados variam menos para diferentes
configura¸cões de números de nós. Outros algoritmos similares, como o Katz e o
PropFlow, permanecem abaixo dos algoritmos de outras categorias. As medidas de
grau de nó e os Vizinhos Comuns foram os preditores com melhor desempenho inicial
e com menor deteriora¸cão para redes com mais nós.
Na rede de mundo pequeno observa-se que a situa¸cão se altera. Embora o CMC
e os Vizinhos Comuns comecem apresentando bons resultados, o desempenho de
40

ambos os preditores deteriora à medida que Nc cresce. Outra observa¸cão nessa rede
é o desempenho máximo obtido em Nc = 200 pelo seguinte conjunto de preditores:
Vizinhos Comuns, Coeficientes de Jaccard e Adamic/Adar, RAI, HPI e HDI. Todos
esses preditores são algoritmos baseados em vizinhan¸ca.
Os resultados na rede sem escala aproximam-se dos resultados na rede de mundo
pequeno. As medidas de grau do nó e os Vizinhos Comuns são os que apresentam
melhor desempenho inicial. No entanto, observa-se que a partir de Nc = 50 o conjunto
de preditores baseados em vizinhan¸ca atinge desempenho máximo (F1 = 1, 0). Esse
desempenho é seguido até Nc = 200, mostrando estabilidade na predi¸cão.
4.1.2 Algoritmos de Aprendizado de Máquina
O desempenho das técnicas de AM adotadas é ilustrado na Figura 4.3, que mostra,
a princ´ıpio, baixa estabilidade dos algoritmos consoante às taxas F1 para redes com
número crescente de nós. Em geral, a estabilidade dessas redes acontece quando o
desempenho obtido é nulo (F1 = 0, 0).
O modelo sem topologia é o único que não apresenta essas caracter´ısticas. A rede
sem topologia apresenta os melhores resultados em compara¸cão com as demais redes.
As técnicas C5.0 e SVM mostram resultados bastante similares e foram aquelas com
os melhores resultados preditivos. O na¨ıve Bayes mostra queda no desempenho com
o aumento do número de nós, mas lenta deteriora¸cão. O k-NN, ao contrário, mostra
uma rápida deteriora¸cão após Nc = 25, mas aumento da estabilidade e melhora de
resultados a partir de Nc = 50. Nas demais redes, o melhor desempenho é alcan¸cado
em Nc = 25. Em outros momentos de Nc, o desempenho é inferior. De forma geral,
os desempenhos das técnicas de AM foram melhores para redes pequenas.
41

Figura 4.3: Desempenho dos algoritmos de AM para a rede P2P.
4.1.3 Discussão
A primeira observa¸cão a respeito dos resultados apresentados corresponde à se-
le¸cão dos preditores. Observa-se que nem sempre um determinado preditor será a
melhor op¸cão para cada valor de Nc. Por exemplo, o CMC é o melhor preditor na
rede de mundo pequeno entre os preditores de PL quando Nc = 25, mas se encon-
tra entre os piores quando Nc = 200. Essa observa¸cão mostra que há existência de
influências entre as redes mapeadas. Caso os preditores apresentassem resultados se-
melhantes em casos iguais, mostraria-se a não existência dessa influência. Por essas
razões considerou-se ainda avaliar o desempenho dos preditores por sua estabilidade
com o aumento dos tamanhos das redes e desempenhos máximo e nulo.
42

Em uma outra análise ampla nota-se que nem todos os algoritmos têm seu desem-
penho alterado com o incremento de Nc. Em certos casos, o desempenho é deteriorado
quando Nc é incrementado apenas uma vez, mas melhorado quando incrementado
novamente. Por exemplo, na rede sem escala, o desempenho do grau do nó de destino
é deteriorado em Nc = 100, mas aperfei¸coado em Nc = 200.
As redes sem topologia e aleatória têm resultados semelhantes entre elas, assim
como as redes de mundo pequeno e sem escala. Desta forma, analisam-se dois gru-
pos. Nas redes do primeiro grupo, formadas pelas redes sem topologia e aleatória,
destaca-se o algoritmo CMC, que não sofreu influências do desbalanceamento do con-
junto de dados. Ao contrário, o CMC é afetado negativamente apenas quando há
o melhor balanceamento do conjunto, que é em Nc = 25. Observando as redes do
segundo grupo, formadas pelas redes de mundo pequeno e sem escala, nota-se que a
topologia das redes evolui e passa a ignorar informa¸cões que antes eram importan-
tes. Compreende-se isso melhor analisando a rede sem escala, onde os nós de um
determinado valor de Nc deixam de ser hubs quando Nc muda.
Nas redes do segundo grupo observou-se o destaque de um conjunto de preditores
em razão de seu desempenho máximo. Todos os preditores desse conjunto são ba-
seados em vizinhan¸ca. Deste modo, nota-se que os modelos topológicos desse grupo
fornecem boas informa¸cões a respeito da estrutura local do nó. Por outro lado, nos
casos em que o desempenho não é máximo, destacam-se os demais. Na rede de
mundo pequeno, o CMC volta a ser o melhor preditor, exceto em Nc = 200.
Com a aplica¸cão dos algoritmos de AM, os resultados mudaram na maior parte
das redes. A rede sem topologia é a que apresenta os melhores resultados e os menos
semelhantes em rela¸cão às demais redes. Nela, as técnicas de AM supervisionado
superaram sem dificuldades os algoritmos tradicionais. Nas demais redes, os resul-
tados aproximam-se. Os melhores desempenhos são obtidos em Nc = 25 em razão
43

da boa proporcionalidade entre links positivos e negativos no conjunto de dados. A
queda no desempenho após esse valor de Nc pode ser solucionada por meio de téc-
nicas de pré-processamento para a corre¸cão do desbalanceamento dos dados, como
mostrado em [Lichtenwalter et al., 2010, Silva-Junior et al., 2013]. Este trabalho, no
entanto, não utiliza essas técnicas para verificar o comportamento do mapeamento,
que, como observado inicialmente, ameniza a despropor¸cão entre exemplos positivos
e negativos.
Os algoritmos que melhor sustentaram a queda no desempenho, ou seja, com
deteriora¸cão mais lenta para redes maiores, foram o na¨ıve Bayes e o k-NN. Na rede
de mundo pequeno, por exemplo, o desempenho de ambos os algoritmos é bastante
superior em rela¸cão aos demais nos intervalos centrais (Nc = {50, 100}). Por outro
lado, o C5.0 e a SVM são aqueles com melhor desempenho nos casos balanceados,
mostrando que esses algoritmos são mais sens´ıveis ao balanceamento de exemplos
para a predi¸cão de fluxos.
4.2 Resultados da Rede de E-mails
Esta se¸cão apresenta os resultados dos algoritmos tradicionais de PL e das técnicas
de AM adotadas para os experimentos na rede de e-mails.
4.2.1 Algoritmos de Predi¸cão de Links Tradicionais
As Figuras 4.4 e 4.5 apresentam os resultados obtidos a partir dos experimentos na
rede de e-mails. Assim como na rede P2P, uma compara¸cão inicial entre os modelos
mostra uma aproxima¸cão entre as redes sem topologia e aleatória e também entre as
redes de mundo pequeno e sem escala.
44

Na rede sem topologia, apenas o algoritmo CMC destaca-se para a predi¸cão de
fluxos, obtendo seu melhor desempenho em Nc = 50. Nos números de nós seguintes,
o CMC ainda é o preditor com o melhor resultado. No entanto, seu desempenho
aproxima-se dos demais em Nc = 25. Na rede aleatória, o CMC continua como o
melhor algoritmo. Além disso, ele apresenta melhor estabilidade, com mais de 70%
de acertos em 75% dos valores de Nc.
Figura 4.4: Desempenho dos algoritmos de PL nos modelos sem topologia e aleatório
para a rede de e-mails.
Na rede de mundo pequeno, o CMC come¸ca em Nc = 25 com o melhor resultado.
Ele mantem-se deste modo até Nc = 100, aproximando-se do grau do nó de origem,
que cresce à medida que Nc é incrementado. No entanto, o conjunto de preditores
baseados em vizinhan¸ca destacado na rede P2P também se destaca para a rede
45

Figura 4.5: Desempenho dos algoritmos de PL nos modelos de mundo pequeno e sem
escala para a rede de e-mails.
de e-mails em Nc = 200. Esse conjunto também apresentou desempenho máximo
(F1 = 1, 0). A situa¸cão se repete na rede sem escala, onde esse conjunto de preditores
alcan¸ca máximo desempenho a partir de Nc = 100. O algoritmo CMC e as medidas
de grau não figuram mais como bons preditores. À medida que Nc é incrementado,
o desempenho desses preditores decresce. Um algoritmo que também se destaca em
Nc = 200 é a medida Katz. Embora não tenha atingido o desempenho máximo, ela
apresenta um resultado superior em compara¸cão aos demais, que acertaram menos
de 20% dos exemplos.
46

4.2.2 Algoritmos de Aprendizado de Máquina
Os resultados usando as técnicas de AM são ilustrados na Figura 4.6. Uma
análise geral das redes mostra que os melhores resultados são obtidos em Nc = 50.
Novamente, o desempenho tende a ser melhor em rede pequenas.
Figura 4.6: Desempenho dos algoritmos de AM para a rede de e-mails.
Observa-se ainda que a rede sem topologia definida tem os melhores desempenhos.
Com exce¸cão da SVM, todas as técnicas apresentaram bons resultados e regular
estabilidade. O na¨ıve Bayes é o algoritmo com o desempenho mais elevado em 75%
dos valores de Nc. O k-NN também se destaca nessa rede por ser a técnica mais
estável ao apresentar maior constância em seu desempenho ao longo da varia¸cão no
número de nós. A estabilidade do k-NN também é observada na rede aleatória, que
47

mostra valores constantes para o algoritmo. Apesar de as demais técnicas atingirem o
desempenho nulo muito rapidamente, o k-NN mantém-se estável e com desempenho
não nulo em todas as varia¸cões de nós.
O algoritmo SVM apresentou desempenho nulo na maior parte das situa¸cões
(Nc = {25, 100, 200}), indicando que não é uma boa técnica para problemas de pre-
di¸cão de fluxos em conjuntos muito desbalanceados. Por outro lado, os demais algo-
ritmos mostraram-se menos sens´ıveis ao desbalanceamento. Em especial, destacou-se
o algoritmo na¨ıve Bayes, que não apenas obteve o melhor desempenho em 75% das
situa¸cões como apresentou a menor deteriora¸cão de desempenho entre os algoritmos.
4.2.3 Discussão
A análise dos resultados para os algoritmos de PL pode ser dividida em dois
grupos: o primeiro, relacionado às redes sem topologia e aleatória; o segundo, rela-
cionado às redes de mundo pequeno e sem escala. Em geral, os melhores preditores
em cada grupo apresentaram boa eficiência para ambos os modelos do grupo.
Em uma análise espec´ıfica, as redes do primeiro grupo apresentam o CMC como o
melhor dentre os algoritmos de PL. Essa escolha pode ser explicada pela simplicidade
do cálculo empregado e pelo desconhecimento parcial sobre o desbalanceamento entre
links positivos e negativos, que não é ignorado totalmente pelos demais preditores.
Essa explica¸cão só pode ser observada nas redes apresentadas, uma vez que ela não
segue nas redes do segundo grupo.
Nas redes do segundo grupo, destacam-se principalmente o conjunto de predito-
res baseado em vizinhan¸ca, que obtêm desempenho máximo. Assim como na rede
P2P, compreende-se que os modelos favorecem a predi¸cão em razão da forma¸cão de
conexões locais. Apesar de não obterem desempenho máximo, outros algoritmos
48

destacam-se pela estabilidade e melhora de resultados à medida que Nc cresce. Na
rede de mundo pequeno, os algoritmos mais simples, como as medidas de grau e os Vi-
zinhos Comuns, apresentam os melhores resultados. Assim, a eficácia de algoritmos
triviais [Zhou et al., 2009, Sarkar et al., 2011] é corroborada neste trabalho.
Em rela¸cão aos algoritmos de AM, observa-se novamente que eles apresentam, em
geral, melhores resultados que os baselines usados tradicionalmente em PL. Contudo,
eles são bastante afetados pelo desbalanceamento dos conjuntos de dados. Quanto
mais proporcional é o balanceamento, melhores são os resultados. Um caso interes-
sante a ser analisado é o algoritmo k-NN nas redes de mundo pequeno e sem escala.
Em ambas as redes, os resultados foram obtidos a partir de conjuntos de dados com
quase 90% de links negativos (Nc = {25, 100}), ou seja, bastante desbalanceados.
Esse caso particular pode ser explicado em razão de o k-NN adaptar-se bem a mar-
gens de decisão irregulares [Hastie et al., 2009]. Isso significa que os exemplos dos
conjuntos não são facilmente categorizados, que é o caso dos conjuntos de predi¸cão
de fluxos. De modo contrário, essa situa¸cão se inverte na SVM linear adotada, que
só conseguiu discriminar as classes dos conjuntos balanceados.
4.3 Considera¸cões Finais
Para alcan¸car os objetivos deste trabalho, os experimentos verificaram a eficiên-
cia preditiva de diversos algoritmos em modelos topológicos usuais da ARC. Esses
modelos foram configurados com base em duas redes reais de aplica¸cão: uma rede
P2P e uma rede de e-mails. As duas redes de aplica¸cão forneceram informa¸cões a
respeito do tráfego de dados em determinado momento, permitindo que esses dados
fossem utilizados pelos modelos topológicos como fluxos de redes de computadores.
49

Os experimentos foram conduzidos separamente para cada rede de aplica¸cão, sendo
experimentadas diversas técnicas tradicionais de PL e AM supervisionado.
Os resultados mostram que as técnicas de AM são, em geral, superiores às técnicas
de PL, especialmente para redes menores. Embora a deteriora¸cão do desempenho seja
mais rápida naquelas técnicas, os preditores de PL ainda apresentaram desempenho
inferior na maior parte dos casos. Isso indica que, apesar da melhor estabilidade dos
baselines, é prefer´ıvel a ado¸cão das técnicas de AM por apresentarem os melhores
desempenhos gerais.
Uma observa¸cão a ser feita a respeito dos modelos topológicos é o bom desempe-
nho da maior parte dos preditores na rede sem topologia definida. Explica-se, então,
que o bom desempenho é caracterizado pela proximidade entre a distribui¸cão das
informa¸cões da rede e a distribui¸cão real na rede de aplica¸cão utilizada. No entanto,
o modelo sem topologia pode não representar fielmente uma situa¸cão real, uma vez
que a sua topologia está condicionada à topologia de uma única rede superjacente.
Apesar de não terem apresentado, de maneira geral, os melhores resultados, os mo-
delos de mundo pequeno e sem escala parecem estar mais próximos das situa¸cões
reais.
Os experimentos ainda visaram a compara¸cão entre os algoritmos de PL, entre
as técnicas de AM adotadas e entre essas duas categorias de preditores. Na primeira
compara¸cão destacam-se dois algoritmos simples: o CMC e as medidas de grau do
nó. Deste modo, conclui-se que a predi¸cão de fluxos obtém bons resultados a partir
de técnicas simples, sejam baseadas no grau, na vizinhan¸ca ou no caminho do nó.
Embora essa conclusão possa se opor ao desempenho máximo de algoritmos que não
são triviais, nota-se que esses algoritmos apresentaram bons resultados nas redes de
mundo pequeno e sem escala, que não são redes parcialmente aleatórias. Deste modo,
os algoritmos triviais representam melhor as caracter´ısticas da rede de aplica¸cão e,
50

por conseguinte, das informa¸cões que nela trafegam. Também em AM observa-se que
o uso de técnicas simples permite uma melhor predi¸cão de fluxos. Entre elas, o k-NN
e o na¨ıve Bayes foram os que apontaram os melhores resultados.
Há casos em que os algoritmos tradicionais de PL são mais vantajosos que as técni-
cas de AM. Porém, este trabalho advoga pelo uso das técnicas de AM supervisionado
para o problema da predi¸cão de fluxos. Entre suas vantagens, estão a possibilidade de
abranger mais informa¸cões a respeito da rede a ser predita e a utiliza¸cão dos rótulos
dos conjuntos de dados, que funcionam como avaliadores da predi¸cão, e não como
preditores agnósticos [Lichtenwalter et al., 2010].
Por fim, os experimentos mostraram que nem sempre um determinado preditor
apresentará resultados próximos para diferente tamanhos de uma determinada rede.
Deste modo, conclui-se que a rede f´ısica subjacente também influencia na predi¸cão
de fluxos.
51

Cap´ıtulo 5
CONCLUSÃO
Este cap´ıtulo discute as conclusões deste trabalho, que investiga o problema de
predi¸cão de fluxos em redes de computadores, motivando-se em conceitos de SDN.
A solu¸cão adotada para esse problema mapeia duas redes de aplica¸cão em quatro
modelos topológicos da Análise de Rede Complexas. Esse mapeamento consiste na
associa¸cão de nós entre as duas rede que resulta em uma nova forma¸cão topológica,
onde as arestas seguem ou não um padrão pré-definido. Essa nova rede é, então,
utilizada em uma modelagem de problemas de Predi¸cão de Links que abrange duas
diferentes tarefas ao mesmo tempo: predi¸cão de novos links e persistência de links.
Nessa abordagem conjunta, diversas técnicas de Predi¸cão de Links são empregadas
como baselines para a compara¸cão com técnicas de Aprendizado de Máquina Super-
visionado. Os desempenhos obtidos de cada uma das técnicas é calculado por meio
da métrica de desempenho F1, que enfatiza a precisão e revoca¸cão na predi¸cão dos
links formados. Os resultados são comparados e uma discussão é realizada para duas
redes de aplica¸cão reais: P2P e de e-mails.
52

As conclusões mais gerais são apresentadas neste cap´ıtulo. Nas próximas se¸cões
são apresentados os principais resultados obtidos, as contribui¸cões do trabalho, suas
limita¸cões e os trabalhos futuros.
5.1 Principais Resultados
O principal resultado obtido foi a corrobora¸cão da influência preditiva entre as
redes mapeadas. Os quatro modelos de redes complexas adotados para a rede f´ı-
sica mostraram que nem sempre um determinado preditor apresentará os mesmos
resultados em diferentes varia¸cões topológicas. Tanto os resultados preditivos dos
algoritmos tradicionais de Predi¸cão de Links quanto das técnicas de Aprendizado
de Máquina confirmaram essa influência. Esse resultado mostra a importância em
utilizar diferentes técnicas para um problema de Predi¸cão de Links.
Outros resultados importantes estão relacionados aos objetivos espec´ıficos do tra-
balho. Para alcan¸car o objetivo principal, que é investigar a predi¸cão de fluxos em
redes de computadores, elaborou-se inicialmente um método para mapear a rede de
aplica¸cão sobre a rede f´ısica, exemplificando uma situa¸cão real. O método de mape-
amento tem como resultado uma uma rede que denota o tráfego das informa¸cões da
rede de aplica¸cão na rede f´ısica subjacente. Desta forma, os experimentos conduzidos
levaram à principal conclusão obtida deste trabalho, que é a influência preditiva dos
modelos topológicos nos resultados.
É também resultado deste trabalho a abordagem que une as predi¸cões das liga¸cões
que se formam e das liga¸cões que se mantêm em uma mesma rede. Usualmente
essas predi¸cões são realizadas separadamente. Contudo, essa abordagem conjunta
foi empregada neste trabalho, permitindo a inclusão de uma maior quantidade de
exemplos e, por conseguinte, de mais links a serem preditos.
53

Como discutido, nenhum preditor obteve o melhor desempenho geral em todos os
casos. Observou-se, porém, que as técnicas de Predi¸cão de Links tradicionais se so-
bressaem em redes maiores. Por outro lado, observou-se também que os algoritmos
de Aprendizado de Máquina, apesar de serem mais sens´ıveis ao alto desbalancea-
mento dos conjuntos de dados, predisseram com maior precisão os fluxos da rede
que os baselines. Assim, este trabalho é obrigado a advogar pelo uso das técnicas
supervisionadas na finalidade de uma melhor solu¸cão para os problemas de predi¸cão
de fluxos.
5.2 Contribui¸cões e Limita¸cões
A primeira contribui¸cão deste trabalho é a realiza¸cão de uma revisão de literatura
em Predi¸cão de Links que inclu´ısse técnicas de Aprendizado de Máquina supervisio-
nado entre as solu¸cões da área. A revisão identifica as metodologias de modelagem
usuais e os preditores tradicionalmente empregados no problema. O texto deste tra-
balho limita-se a descrever os principais métodos do arcabou¸co de Predi¸cão de Links
que sustentam a predi¸cão de fluxos em redes de computadores. Uma versão mais
detalhada dessa revisão pode ser lida em [Silva-Junior e Lorena, 2013].
O inter-relacionamento de conceitos de diversas áreas também é uma contribui¸cão
importante deste trabalho. Os conceitos de Redes Definidas por Software, que são
os principais motivadores da pesquisa, conduziram os todos experimentos. Nesses
experimentos foram selecionadas redes de aplica¸cão para serem modeladas como redes
complexas e, em seguida, empregadas nas abordagens de Predi¸cão de Links. Os
resultados são obtidos e comparados com aqueles obtidos por técnicas de Aprendizado
de Máquina, uma área da Inteligência Artificial. Esse conjunto de áreas e diferentes
técnicas que se relacionam mostra como os conceitos foram aplicados nesta pesquisa
54

e podem colaborar para uma ciência mais interdisciplinar, ampliando as teorias e
métodos que têm essa finalidade.
Uma importante contribui¸cão é a investiga¸cão da predi¸cão de fluxos realizada
em redes de computadores. Apesar deste trabalho não apresentar uma aplica¸cão
concreta, ele contribui para as solu¸cões de predi¸cão na área, que ainda são incipientes.
O arcabou¸co deste trabalho ainda permite estender os experimentos às aplica¸cões de
Redes Definidas por Software.
Outra contribui¸cão é o dom´ınio de aplica¸cão adotado. Poucos trabalhos utilizam
redes de computadores como redes complexas. Com dificuldades, este trabalho co-
letou duas redes de aplica¸cão reais para os experimentos. Uma dessas redes (P2P)
foi formatada de maneira topológica e temporal e, junto com a rede de e-mails, se
encontra agora disponibilizada em [Silva-Junior, 2013] para pesquisas futuras.
Por fim, a aplica¸cão simultânea de duas categorias de predi¸cão de links é uma
contribui¸cão relacionada à area de Predi¸cão de Links. O método de modelagem
deste trabalho é empregado nos experimentos em razão da preferência em se predizer
a forma¸cão de liga¸cões que se formam ou se mantêm em redes de computadores. A
flexibilidade do método permite que ele seja estendido a outros dom´ınios de aplica¸cão.
5.3 Trabalhos Futuros
O principal trabalho a ser realizado é a confirma¸cão prática deste trabalho. Como
apresentado na se¸cão anterior, este trabalho limitou-se a investigar a predi¸cão de
fluxos por meio de redes complexas, sem analisar o comportamento da predi¸cão em
redes de computadores reais. O primeiro passo a ser dado com este trabalho é uma
simula¸cão desse comportamento.
55

Outro trabalho futuro é a experimenta¸cão da abordagem conjunta em diferentes
conjunto de dados. Este trabalho emprega o método de modelagem apenas em
poucas redes e de um único dom´ınio, que são as redes de computadores. Além disso,
o método é assumido como melhor prática, sem, no entanto, ter seu seu desempenho
comparado previamente com uma abordagem disjunta.
A partir desta pesquisa também podem ser experimentados outros algoritmos de
Aprendizado de Máquina. Um passo nessa dire¸cão indica o uso de técnicas semelhan-
tes ao k-NN ou ao na¨ıve Bayes. A simplicidade desses algoritmos mostra um futuro
para a predi¸cão de fluxos a partir de métodos simples. Também seria apropriado
realizar um pré-processamento nos dados de aplica¸cão para diminuir o desbalancea-
mento entre as classes. Esse tipo de prática poderia levar a melhoras significativas
dos resultados alcan¸cados por essas técnicas triviais.
56

Referˆencias
[Barabasi e Albert, 1999] Barabasi, A. L. e Albert, R. (1999). Emergence of scaling
in random networks. Science (New York, N.Y.), 286(5439):509–512. Citado em
[8].
[Benchettara et al., 2010a] Benchettara, N., Kanawati, R., e Rouveirol, C. (2010a).
Supervised machine learning applied to link prediction in bipartite social networks.
In Proceedings of the 2010 International Conference on Advances in Social
Networks Analysis and Mining, ASONAM ’10, p. 326–330, Washington, DC, USA.
IEEE Computer Society. Citado em [12].
[Benchettara et al., 2010b] Benchettara, N., Kanawati, R., e Rouveirol, C. (2010b).
A supervised machine learning link prediction approach for academic collaboration
recommendation. In Proceedings of the fourth ACM conference on Recommender
systems, RecSys ’10, p. 253–256, New York, NY, USA. ACM. Citado em [11].
[Davis e Goadrich, 2006] Davis, J. e Goadrich, M. (2006). The relationship between
precision-recall and roc curves. In Proceedings of the 23rd international conference
on Machine learning, ICML ’06, p. 233–240, New York, NY, USA. ACM. Citado
em [36].
57

[Erdös e Rényi, 1959] Erdös, P. e Rényi, A. (1959). On random graphs, I. Publica-
tiones Mathematicae (Debrecen), 6:290–297. Citado em [7].
[Faceli et al., 2011] Faceli, K., Lorena, A. C., Gama, J., e de Carvalho, A. C. (2011).
Inteligência Artificial: Uma Abordagem de Aprendizado de Máquina. LTC, Rio de
Janeiro. Citado em [21, 36].
[Fast et al., 2005] Fast, A., Jensen, D., e Levine, B. N. (2005). Creating social
networks to improve peer-to-peer networking. In Proceedings of the eleventh ACM
SIGKDD international conference on Knowledge discovery in data mining, KDD
’05, p. 568–573, New York, NY, USA. ACM. Citado em [26].
[Fawcett, 2006] Fawcett, T. (2006). An introduction to {ROC} analysis. Pattern
Recognition Letters, 27(8):861 – 874. {ROC} Analysis in Pattern Recognition.
Citado em [36].
[Feamster et al., 2013] Feamster, N., Rexford, J., e Zegura, E. (2013). The road to
sdn. Queue, 11(12):20. Citado em [19].
[Feyessa et al., 2011] Feyessa, T., Bikdash, M., e Lebby, G. (2011). Node-pair feature
extraction for link prediction. In Privacy, security, risk and trust (passat), 2011
ieee third international conference on and 2011 ieee third international conference
on social computing (socialcom), p. 1421 –1424. Citado em [11].
[Fire et al., 2011] Fire, M., Tenenboim, L., Lesser, O., Puzis, R., Rokach, L., e Elo-
vici, Y. (2011). Link prediction in social networks using computationally efficient
topological features. In Privacy, security, risk and trust (passat), 2011 ieee third
international conference on and 2011 ieee third international conference on social
computing (socialcom), p. 73 –80. Citado em [11].
58

[Getoor e Diehl, 2005] Getoor, L. e Diehl, C. P. (2005). Link mining: a survey.
SIGKDD Explor. Newsl., 7(2):3–12. Citado em [11].
[Guedes et al., 2012] Guedes, D., Vieira, L., Vieira, M., Rodrigues, H., e Nunes,
R. V. (2012). Redes definidas por software: uma abordagem sistêmica para o
desenvolvimento de pesquisas em redes de computadores. Minicursos do Simpósio
Brasileiro de Redes de Computadores-SBRC 2012, 30(4):160–210. Citado em [2].
[Hasan et al., 2006] Hasan, M. A., Chaoji, V., Salem, S., e Zaki, M. (2006). Link
prediction using supervised learning. In In Proc. of SDM 06 workshop on Link
Analysis, Counterterrorism and Security. Citado em [11, 12, 22].
[Hastie et al., 2009] Hastie, T., Tibshirani, R., Friedman, J., Hastie, T., Friedman,
J., e Tibshirani, R. (2009). The elements of statistical learning. Number 1. Sprin-
ger. Citado em [49].
[ISO, 2004] ISO, I. (2004). 8601: 2004 data elements and interchange formatsinfor-
mation interchangerepresentation of dates and times. International Organisation
for Standardisation. Citado em [27].
[Klimt e Yang, 2004] Klimt, B. e Yang, Y. (2004). Introducing the Enron corpus. In
First Conference on Email and Anti-Spam (CEAS). Citado em [27].
[Lü e Zhou, 2011] Lü, L. e Zhou, T. (2011). Link prediction in complex networks: A
survey. Physica A: Statistical Mechanics and its Applications, 390(6):1150 – 1170.
Citado em [14, 15, 16, 35].
[Liben-Nowell e Kleinberg, 2007] Liben-Nowell, D. e Kleinberg, J. (2007). The link-
prediction problem for social networks. Journal of the American Society for In-
formation Science and Technology, 58(7):1019–1031. Citado em [3, 11].
59

[Lichtenwalter et al., 2010] Lichtenwalter, R. N., Lussier, J. T., e Chawla, N. V.
(2010). New perspectives and methods in link prediction. In Proceedings of the
16th ACM SIGKDD international conference on Knowledge discovery and data
mining, KDD ’10, p. 243–252, New York, NY, USA. ACM. Citado em [15, 44, 51].
[Lichtnwalter e Chawla, 2012] Lichtnwalter, R. e Chawla, N. (2012). Link prediction:
Fair and effective evaluation. In Advances in Social Networks Analysis and Mining
(ASONAM), 2012 IEEE/ACM International Conference on, p. 376–383. Citado
em [35, 36].
[Lu et al., 2010] Lu, Z., Savas, B., Tang, W., e Dhillon, I. S. (2010). Supervised link
prediction using multiple sources. In Proceedings of the 2010 IEEE International
Conference on Data Mining, ICDM ’10, p. 923–928, Washington, DC, USA. IEEE
Computer Society. Citado em [11].
[McConnell, 2008] McConnell, J. J. (2008). Analysis of algorithms. Jones & Bartlett
Learning. Citado em [34].
[Montgomery et al., 2003] Montgomery, D. C., Runger, G. C., e Calado, V. (2003).
Estat´ıstica aplicada e probabilidade para engenheiros. Livros Técnicos e Cient´ıficos.
Citado em [7].
[Newman, 2003] Newman, M. E. J. (2003). The structure and function of complex
networks. SIAM REVIEW, 45:167–256. Citado em [3, 6].
[Oliveira e Gama, 2012] Oliveira, M. e Gama, J. (2012). An overview of social
network analysis. Wiley Interdisciplinary Reviews: Data Mining and Knowledge
Discovery, 2(2):99–115. Citado em [9].
60

[ONF, 2012] ONF (2012). Software-defined networking: The new norm for networks.
ONF White Paper. Palo Alto, US: Open Networking Foundation. Citado em [2,
18].
[Quinlan, 1993] Quinlan, J. R. (1993). C4.5: programs for machine learning. Morgan
Kaufmann Publishers Inc., San Francisco, CA, USA. Citado em [22].
[R Core Team, 2013] R Core Team (2013). R: A Language and Environment for
Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria.
Citado em [34].
[Sarkar et al., 2011] Sarkar, P., Chakrabarti, D., e Moore, A. W. (2011). Theoretical
justification of popular link prediction heuristics. In Proceedings of the Twenty-
Second International Joint Conference on Artificial Intelligence - Volume Volume
Three, IJCAI’11, p. 2722–2727. AAAI Press. Citado em [49].
[Scellato et al., 2011] Scellato, S., Noulas, A., e Mascolo, C. (2011). Exploiting place
features in link prediction on location-based social networks. In Proceedings of the
17th ACM SIGKDD international conference on Knowledge discovery and data
mining, KDD ’11, p. 1046–1054. ACM. Citado em [11].
[Sezer et al., 2013] Sezer, S., Scott-Hayward, S., Chouhan, P. K., Fraser, B., Lake,
D., Finnegan, J., Viljoen, N., Miller, M., e Rao, N. (2013). Are we ready for
sdn? implementation challenges for software-defined networks. Communications
Magazine, IEEE, 51(7). Citado em [2, 19].
[Shibata et al., 2012] Shibata, N., Kajikawa, Y., e Sakata, I. (2012). Link prediction
in citation networks. Journal of the American Society for Information Science and
Technology, 63(1):78–85. Citado em [13, 22].
61

[Silva-Junior, 2013] Silva-Junior, O. (2013). http://sites.google.com/site/
orlandodasilvajr/data-sets. Citado em [28, 55].
[Silva-Junior e Lorena, 2013] Silva-Junior, O. e Lorena, A. C. (2013). Aprendizado
de máquina supervisionado na predi¸cão de links em redes complexas - uma revi-
são sistemática. Technical Report 01/2013, Universidade Federal do ABC, Santo
André, Brasil. Citado em [15, 36, 54].
[Silva-Junior et al., 2013] Silva-Junior, O., Lorena, A. C., e Kamienski, C. A. (2013).
Predi¸cão de links em redes p2p. In Anais do I Simpósio da Pós-gradua¸cão da
Universidade Federal do ABC, Santo André, Brasil. Citado em [3, 22, 34, 44].
[Sun et al., 2012] Sun, Y., Han, J., Aggarwal, C. C., e Chawla, N. V. (2012). When
will it happen?: relationship prediction in heterogeneous information networks.
In Proceedings of the fifth ACM international conference on Web search and data
mining, WSDM ’12, p. 663–672, New York, NY, USA. ACM. Citado em [12].
[Vapnik, 1995] Vapnik, V. N. (1995). The Nature of Statistical Learning Theory.
Springer-Verlag New York, Inc., New York, NY, USA. Citado em [22].
[Wang et al., 2011] Wang, D., Pedreschi, D., Song, C., Giannotti, F., e Barabasi,
A.-L. (2011). Human mobility, social ties, and link prediction. In Proceedings
of the 17th ACM SIGKDD international conference on Knowledge discovery and
data mining, KDD ’11, p. 1100–1108, New York, NY, USA. ACM. Citado em [11].
[Watts e Strogatz, 1998] Watts, D. e Strogatz, S. (1998). Collective dynamics of
’small-world’ networks. Nature, p. 440–442. Citado em [7].
[Yang et al., 2004] Yang, L., Dantu, R., Anderson, T., e Gopal, R. (2004). Forwar-
ding and control element separation (forces) framework. Citado em [18].
62

[Zhou et al., 2009] Zhou, T., L¨u, L., e Zhang, Y.-C. (2009). Predicting missing links
via local information. The European Physical Journal B - Condensed Matter and
Complex Systems, 71(4):623–630. Citado em [49].
63

Apêndice A
RESULTADOS DOS
EXPERIMENTOS
A seguir são apresentados os resultados de todos os experimentos realizados na
rede P2P e de e-mails. As tabelas apresentam o desempenho obtido por meio da
medida F1, sendo destacados os melhores desempenhos em cada conjunto de nós,
por topologia.
64

Tabela A.1: Desempenho dos algoritmos de PL na rede P2P.
N´os Algoritmo Sem Topologia Aleat´oria Mundo Pequeno Sem Escala
25
Gr. Entrada 0.247 0.240 0.193 0.157
Gr. Sa´ıda 0.280 0.323 0.187 0.237
CMC 0.177 0.110 0.447 0.153
Viz. Comuns 0.120 0.250 0.403 0.217
Conex. Pref. 0.160 0.100 0.160 0.123
Jaccard 0.103 0.107 0.170 0.120
Adamic/Adar 0.100 0.100 0.223 0.123
RAI 0.100 0.107 0.223 0.123
Katz 0.107 0.103 0.100 0.123
HPI 0.113 0.107 0.230 0.180
HDI 0.110 0.107 0.223 0.127
PropFlow 0.100 0.100 0.100 0.147
50
Gr. Entrada 0.144 0.181 0.131 0.117
Gr. Sa´ıda 0.117 0.106 0.149 0.226
CMC 0.621 0.738 0.265 0.192
Viz. Comuns 0.106 0.215 0.214 0.149
Conex. Pref. 0.107 0.103 0.100 0.103
Jaccard 0.101 0.103 0.122 0.104
Adamic/Adar 0.100 0.100 0.131 0.149
RAI 0.100 0.100 0.131 0.149
Katz 0.100 0.100 0.100 0.105
HPI 0.100 0.109 0.105 0.123
HDI 0.103 0.100 0.121 0.111
PropFlow 0.100 0.100 0.100 0.131
100
Gr. Entrada 0.103 0.114 0.148 0.108
Gr. Sa´ıda 0.123 0.126 0.114 0.209
CMC 0.282 0.750 0.185 0.218
Viz. Comuns 0.149 0.152 0.104 1.000
Conex. Pref. 0.101 0.103 0.116 0.112
Jaccard 0.102 0.102 0.102 1.000
Adamic/Adar 0.100 0.100 0.104 1.000
RAI 0.100 0.100 0.104 1.000
Katz 0.100 0.100 0.104 0.102
HPI 0.132 0.100 0.101 1.000
HDI 0.102 0.107 0.101 1.000
PropFlow 0.100 0.100 0.100 0.113
200
Gr. Entrada 0.119 0.136 0.304 0.106
Gr. Sa´ıda 0.111 0.135 0.119 0.261
CMC 0.159 0.748 0.132 0.150
Viz. Comuns 0.294 0.125 1.000 1.000
Conex. Pref. 0.101 0.101 0.150 0.148
Jaccard 0.108 0.101 1.000 1.000
Adamic/Adar 0.106 0.100 1.000 1.000
RAI 0.106 0.100 1.000 1.000
Katz 0.100 0.100 0.102 0.207
HPI 0.135 0.101 1.000 1.000
HDI 0.106 0.101 1.000 1.000
PropFlow 0.100 0.100 0.100 0.118
65

Tabela A.2: Desempenho dos algoritmos de AM na rede P2P.
N´os Algoritmo Sem Topologia Aleat´oria Mundo Pequeno Sem Escala
25
C5.0 0.788 0.623 0.665 0.673
SVM 0.819 0.713 0.720 0.660
Na¨ıve Bayes 0.759 0.565 0.682 0.546
k-NN 0.677 0.560 0.642 0.618
50
C5.0 0.660 0.000 0.026 0.000
SVM 0.709 0.000 0.000 0.000
Na¨ıve Bayes 0.695 0.221 0.155 0.044
k-NN 0.357 0.193 0.239 0.132
100
C5.0 0.771 0.000 0.000 0.000
SVM 0.763 0.000 0.000 0.000
Na¨ıve Bayes 0.670 0.000 0.090 0.120
k-NN 0.351 0.069 0.081 0.038
200
C5.0 0.676 0.000 0.000 0.000
SVM 0.705 0.000 0.000 0.000
Na¨ıve Bayes 0.592 0.000 0.023 0.022
k-NN 0.434 0.027 0.025 0.006
66

Investigação de Predição de Fluxos em Redes de Computadores

Investigação de Predição de Fluxos em Redes de Computadores

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (6)

Similar a Investigação de Predição de Fluxos em Redes de Computadores

Similar a Investigação de Predição de Fluxos em Redes de Computadores (20)

Más de Orlando Junior

Más de Orlando Junior (20)

Investigação de Predição de Fluxos em Redes de Computadores