Enrutamiento seguro DHT

ENRUTAMIENTO SEGURO EN SISTEMAS P2P BASADOS EN DHT
RICARDO LUIS VILLANUEVA POLANCO
UNIVERSIDAD DE LOS ANDES
FACULTAD DE INGENIERÍA
DEPARTAMENTO DE INGENIERÍA DE SISTEMAS Y COMPUTACIÓN
2010
1

ENRUTAMIENTO SEGURO EN SISTEMAS P2P BASADOS EN DHT
RICARDO LUIS VILLANUEVA POLANCO
Trabajo de Grado Presentado como Requisito para Optar por el Titulo de:
Mag´ıster en Ingenier´ıa de Sistemas y Computación
ASESOR:
MARÍA DEL PILAR VILLAMIL GIRALDO
UNIVERSIDAD DE LOS ANDES
FACULTAD DE INGENIERÍA
DEPARTAMENTO DE INGENIERÍA DE SISTEMAS Y COMPUTACIÓN
2010
2

Dedico este trabajo a mi familia
3

Agradecimientos
A Dios, ser Supremo y Todopoderoso, porque es el motor de mi vida, quien me gu´ıa y me
ilumina.
A mis padres, RICARDO VILLANUEVA T. y DORIS POLANCO R., quienes con su
apoyo incondicional me permiten hoy culminar con éxito este proyecto. A mi hermano,
SAMIR VILLANUEVA POLANCO, por mostrarme una manera distinta de ver la vida
lo cual me ayudó a desestresarme.
A mi directora de tesis, Mar´ıa del Pilar Villamil Giraldo, por la oportunidad que me
ofreció para trabajar en este tema, por sus aportes y consejos los cuales me ayudaron a
organizar, construir y culminar con éxito este trabajo de grado.
A los profesors, Yesid Donoso y Harold Castro, por darme la oportunidad de trabajar con
ellos, el cual fue esencial para alcanzar este objetivo.
A Mile Arnedo, por sus consejos, paciencia y colaboración que me ayudaron a sobrepon-
erme en momentos dificiles.
4

Tabla de Contenido
1. INTRODUCCIÓN 9
2. OBJETIVOS 10
3. GENERALIDADES EN SISTEMAS P2P Y TEMÁTICA DE SEGURI-
DAD 11
3.1. Sistemas P2P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1.1. Sistemas P2P basados en DHT . . . . . . . . . . . . . . . . . . . . 11
3.1.2. Estilos de enrutamiento tradicionales . . . . . . . . . . . . . . . . . 13
3.2. Conceptos de Seguridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.1. Confidencialidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.2. Integridad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.3. Disponibilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3. Criptograf´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3.1. Algoritmos de cifrado . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3.2. Funciones hash . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3.3. Códigos de autenticación de mensajes (MAC) . . . . . . . . . . . . 17
3.3.4. Firma digital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.3.5. Técnicas para compartir un secreto . . . . . . . . . . . . . . . . . . 18
3.3.6. Criptograf´ıa basada en identidad (CBI) . . . . . . . . . . . . . . . 18
4. SEGURIDAD EN SISTEMAS P2P DHT 19
4.1. Generalidades de seguridad en sistemas P2P DHT . . . . . . . . . . . . . . 19
4.1.1. Disponibilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.1.2. Autenticidad de los datos . . . . . . . . . . . . . . . . . . . . . . . 20
4.1.3. Anonimidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.1.4. Control de acceso . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2. Ataques en la capa de enrutamiento . . . . . . . . . . . . . . . . . . . . . . 22
4.2.1. Ataques de identidad . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2.2. Ataques de enrutamiento . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2.3. Ataque de entrada/salida de nodos . . . . . . . . . . . . . . . . . . 24
4.3. Ataques en las capas de almacenamiento y aplicación . . . . . . . . . . . . 24
4.3.1. Almacenamiento y recuperación de información . . . . . . . . . . . 24
4.3.2. Comportamiento inconsistente . . . . . . . . . . . . . . . . . . . . . 25
4.3.3. Generación de mensajes no solicitados . . . . . . . . . . . . . . . . 25
4.4. Discusión sobre ataques en sistemas P2P . . . . . . . . . . . . . . . . . . . 25
5. SOLUCIONES A ATAQUES DE IDENTIDAD Y ECLIPSE 27
5.1. Ataques de asignación de identificadores y sybil . . . . . . . . . . . . . . . 27
5.1.1. Estrategias centralizadas . . . . . . . . . . . . . . . . . . . . . . . . 27
5.1.2. Estrategias jerárquicas . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.1.3. Estrategias descentralizadas . . . . . . . . . . . . . . . . . . . . . . 30
5.1.4. Discusión de las soluciones al ataque de identidad . . . . . . . . . . 31
5.2. Ataque Eclipse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2.1. Estrategias basadas en restricciones sobre los nodos . . . . . . . . . 33
5.2.2. Estrategias basadas en indución de entradas y salidas de nodos . . . 34
5

5.2.3. Discusión de las soluciones al ataque eclipse . . . . . . . . . . . . . 35
6. SOLUCIONES A ATAQUE DE ENRUTAMIENTO 37
6.1. Estrategias basadas en Redundancia . . . . . . . . . . . . . . . . . . . . . 37
6.1.1. Multi-path . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.1.2. Wide-path . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.2. Estrategias basadas en Detección . . . . . . . . . . . . . . . . . . . . . . . 42
6.3. Estrategias basadas en Calidad del Camino . . . . . . . . . . . . . . . . . . 44
6.3.1. Información del propio sistema . . . . . . . . . . . . . . . . . . . . 44
6.3.2. Información de otros sistemas . . . . . . . . . . . . . . . . . . . . . 45
6.4. Discusión de las soluciones al ataque de enrutamiento . . . . . . . . . . . . 47
7. SecureRoutingDHT: ENRUTAMIENTO SEGURO EN SISTEMAS P2P
DHT 49
7.1. Nivel Funcional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
7.1.1. Estructura de nodos y protocolo de enrutamiento . . . . . . . . . . 49
7.1.2. Mecanismo de reputación . . . . . . . . . . . . . . . . . . . . . . . 52
7.2. Nivel de atributos de calidad en seguridad . . . . . . . . . . . . . . . . . . 57
7.2.1. Compatibilidad con estrategias de sybil . . . . . . . . . . . . . . . . 57
7.2.2. Ataque de almacenamiento y recuperación de información . . . . . 58
8. EVALUACIÓN 59
8.1. Análisis teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
8.1.1. Enrutamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
8.1.2. Mantenimiento de la estructura de quorums . . . . . . . . . . . . . 60
8.1.3. Tolerancia a nodos maliciosos . . . . . . . . . . . . . . . . . . . . . 61
8.2. Simulación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
8.2.1. Escenarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
8.2.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
9. CONCLUSIONES Y TRABAJO FUTURO 66
9.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
9.2. Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6

Lista de Tablas
1. Resumen de estilos de enrutamiento . . . . . . . . . . . . . . . . . . . . . . 15
2. Ataques a sistemas P2P . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3. Soluciones del ataque Sybil . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
4. Soluciones del ataque Eclipse . . . . . . . . . . . . . . . . . . . . . . . . . 35
5. Estrategias basadas en multi-path . . . . . . . . . . . . . . . . . . . . . . . 40
6. Estrategias basadas en wide-path . . . . . . . . . . . . . . . . . . . . . . . 42
7. Estrategias basadas en detección . . . . . . . . . . . . . . . . . . . . . . . . 44
8. Estrategias basadas en calidad del camino . . . . . . . . . . . . . . . . . . 46
9. Valores de reputación que mantiene N1 . . . . . . . . . . . . . . . . . . . . 54
10. Número de mensajes esperado . . . . . . . . . . . . . . . . . . . . . . . . . 59
7

Lista de Figuras
1. Estilos de enrutamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2. Clasificación y relación de los ataques en sistemas P2P . . . . . . . . . . . 22
3. Tabla de enrutamiento del nodo 1030220 en Pastry . . . . . . . . . . . . . 32
4. Tabla de enrutamiento del nodo N8 en Chord . . . . . . . . . . . . . . . . 33
5. Taxonom´ıa de soluciones al ataque de enrutamiento . . . . . . . . . . . . . 37
6. Proceso de enrutamiento de Cyclone . . . . . . . . . . . . . . . . . . . . . 39
7. Proceso de enrutamiento en la topolog´ıa de quorum con enrutamiento re-
cursivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
8. Enrutamiento de SecureRoutingDHT . . . . . . . . . . . . . . . . . . . . . 51
9. Número de mensajes esperado . . . . . . . . . . . . . . . . . . . . . . . . . 60
10. Comparación de probabilidades de éxito . . . . . . . . . . . . . . . . . . . 63
11. Simulación del número de mensajes . . . . . . . . . . . . . . . . . . . . . . 64
12. Simulación de la tolerancia a nodos maliciosos . . . . . . . . . . . . . . . . 65
8

1. INTRODUCCIÓN
Los sistemas peer-to-peer (P2P) basados en tablas de hash distribuidas (DHT, por sus si-
glas en inglés) son una clase especial de sistemas distribuidos con caracter´ısticas interesantes
como escalabilidad, descentralización y auto-organización, para el desarrollo de aplicaciones so-
bre redes públicas. De manera general, los sistemas P2P se caracterizan por proveer diversas
funciones al nivel de aplicación, tales como localización y mensajer´ıa de nodos (enrutamiento),
y almacenamiento y recuperación de datos. Los niveles de aplicación y almacenamiento utilizan
los métodos que provee el nivel de enrutamiento para realizar sus funciones.
Las funciones de enrutamiento en un sistema P2P basado en DHT son determinantes para
que las funciones en niveles superiores se realizan de manera correcta. Sin embargo, éstas no
proveen niveles de seguridad que permitan construir aplicaciones robustas. De hecho, el problema
de seguridad en sistemas P2P basados en DHT es cr´ıtico porque no sólo existen problemas
inherentes al sistema P2P, sino que también se derivan los problemas de seguridad en la red
subyacente (red IP) y los requerimientos de seguridad de cierto tipo de aplicaciones. Esto es
común a todos los sistemas distribuidos, pero la naturaleza abierta y autónoma de un sistema
P2P lo hace más vulnerable a varios tipos de ataque
Dentro del componente que maneja la localización y mensajer´ıa entre nodos, existen varias
funciones como la asignación de identificadores de red, procesos de mantenimiento de la infor-
mación de enrutamiento y procesos de enrutamiento, que se pueden ver afectados en presencia
de adversarios con propósitos espec´ıficos. Es importante que se controlen la mayor´ıa de estos
procesos porque de esta manera se disminuye el impacto sobre el desempeño del sistema. Se
han definido varios estilos de enrutamiento en el contexto de sistemas P2P basados en DHT,
donde cada uno provee caracter´ısticas espec´ıficas que permiten definir protocolos seguros para
el proceso de enrutamiento.
Se han propuesto varios estilos de soluciones, pero comúnmente enfocadas a resolver o dis-
minuir el impacto de un ataque espec´ıfico, lo cual seguramente se hace as´ı por la complejidad que
requiere resolver más de un problema. Algunas estrategias utilizan mecanismos que no pueden
ser implementados fácilmente sobre otros sistemas P2P basados en DHT, lo cual dificulta la ex-
tensibilidad de las soluciones. Finalmente, algunas estrategias al incluir seguridad a los procesos
de enrutamiento, disminuyen la eficiencia del sistema, evidenciando la necesidad de hacer un
balance entre la eficiencia y el nivel de seguridad requerido por el proceso
En este trabajo se presenta un protocolo de enrutamiento seguro en sistemas P2P basados en
DHT llamado SecureRoutingDHT, que afecta de manera controlada la eficiencia del proceso de
enrutamiento. Este protocolo tiene como objetivo mitigar ataques en los niveles de enrutamiento
y de almacenamiento. Adicionalmente, es escalable, compatible con soluciones a otros ataques
y extensible a diferentes sistemas P2P basados en DHT.
Este documento se organiza de la siguiente manera. La sección 2 presenta los objetivos de
este trabajo. La sección 3 presenta generalidades sobre los sistemas P2P basados en DHT y la
temática de seguridad. La sección 4 presenta la temática de seguridad en sistemas P2P basados
en DHT, espec´ıficamente los ataques a los cuales es vulnerable un sistema P2P. Las secciones 5 y 6
presentan las soluciones que se han propuesto a los ataques en el componente de enrutamiento.
La sección 7 presenta el protocolo de enrutamiento seguro SecureRoutingDHT. La sección 8
muestra la evaluación de desempeño y por último, la sección 9 concluye y da perspectivas sobre
el trabajo futuro.
9

2. OBJETIVOS
Este trabajo está enmarcado en las temáticas de sistemas P2P y seguridad. Los sistemas P2P
basados en DHT son naturalmente abiertos y autónomos, lo cual da entrada a una gran canti-
dad de amenazas que pueden degradar el buen desempeño de estos sistemas. Las aplicaciones
construidas sobre estos sistemas funcionan correctamente cuando las propiedades ofrecidas por
el sistema P2P DHT subyacente se mantienen en el tiempo de manera correcta. Es necesario
entonces, proveer mecanismos que garanticen el buen funcionamiento del sistema, el cual es el
objetivo de este trabajo. El énfasis sobre las soluciones que se presentan en este trabajo se realiza
sobre aquellas que mitigan ataques en el nivel de localización de nodos y mensajer´ıa.
Objetivo general
Diseñar y desarrollar un protocolo de enrutamiento seguro en sistemas P2P basados en DHT.
Objetivos espec´ıficos
1. Identificar las vulnerabilidades de los sistemas P2P DHT.
2. Analizar las diferentes estrategias de solución propuestas para mitigar los ataques sistemas
P2P basados en DHT.
3. Proponer una clasificación para las soluciones a los ataques estudiados en el nivel de
enrutamiento.
4. Proponer una estrategia de enrutamiento seguro que mitigue los efectos del ataque de
enrutamiento.
5. Evaluar el funcionamiento de la estrategia propuesta mediante simulaciones.
10

3. GENERALIDADES EN SISTEMAS P2P Y TEMÁTICA DE
SEGURIDAD
3.1. Sistemas P2P
Según [2] los sistemas P2P son sistemas distribuidos que consisten en nodos interconectados
capaces de auto-organizarse en alguna topolog´ıa de red con el propósito de compartir recursos
tales como contenidos, ciclos de CPU, almacenamiento y ancho de banda. Además, son capaces
de tolerar fallos sin la intervención de entidades centralizadas o intermediarios. Por esto, han
sido utilizados para desplegar aplicaciones para compartir archivos, música y otros datos sobre
Internet. El núcleo de estos sistemas es un red de millones de usuarios o sistemas, que de manera
dinámica descubren datos almacenados en cualquier nodo.
Existen dos grandes grupos de sistemas P2P, los no estructurados y estructurados. Los
primeros no imponen ninguna restricción sobre la ubicación de nodos y datos en la red. Por
esto, para la localización de datos utilizan técnicas tales como inundación y random walks.
Pero en general, son bastante impredecibles para encontrar items en el sistema y para algunas
aplicaciones en tiempo real. Por el contrario, los sistemas estructurados imponen restricciones
sobre la ubicación de nodos y datos en la red, lo cual hace los procesos de búsqueda más eficientes.
En particular, este trabajo se enfoca en sistemas P2P basados en DHT, los cuales se presentan
a continuación.
3.1.1. Sistemas P2P basados en DHT
Un sistema P2P basado en DHT es un sistema distribuido que utiliza funciones hash para
la localización de nodos y datos. Este sistema es estructurado ya que impone restricciones en la
forma como se organizan los nodos y como se distribuyen los datos en el sistema mediante el
uso de una función hash. Usualmente un sistema DHT tiene las siguientes propiedades:
1. Eficiencia en enrutamiento. Como utilizan funciones hash para la localización de nodos
y objetos, las búsquedas se pueden resolver fácilmente. Estos sistemas proveen O(log n)
como l´ımite superior en la longitud del camino de búsqueda.
2. Balanceo de carga. Existen un balanceo entre el número de datos asignados a los nodos
del sistema. Esto se debe al uso de una función hash de distribución uniforme tal como
SHA-1. Con esto, la sobrecarga en almacenamiento y mantenimiento de nodos crece sólo
logar´ıtmicamente de acuerdo al número de nodos en el sistema.
3. Auto-organización. El sistema DHT es totalmente distribuido. La entrada y salida de
los nodos se maneja automáticamente sin la necesidad de la coordinación de una entidad
central.
A continuación se presentan Chord [50], Pastry [38] y Kademlia [32], tres ejemplos de sis-
temas P2P basados en DHT proveedores de servicios de localización de nodos, que ilustran las
caracter´ısticas presentadas anteriormente. Para cada uno se describe el espacio de direcciones,
la información de la tabla de enrutamiento y los procesos de estabilización.
11

Chord.
Chord [50] fue uno de los primeros sistemas basados en DHT que fueron creados. Éste utiliza
una función de hash consistente para asignar a cada nodo y llave un identificador de m bits del
espacio de identificadores, donde m es un parámetro pre-definido del sistema. Los identificadores
caen sobre un rango entre 0 y 2m − 1. Los nodos se ordenan en un c´ırculo de identificadores
módulo 2m. Una llave se almacena en su nodo sucesor, el cual se define como el siguiente nodo
en el c´ırculo en dirección a las manecillas del reloj. El nodo predecesor a un nodo o llave es el
próximo nodo en el c´ırculo en dirección contraria de las manecillas del reloj.
La tabla de enrutamiento de los nodos en Chord contiene un conjunto m fingers (entradas),
y el predecesor de este nodo. Asuma que el identificador de un nodo es n. La i-ésima entrada en
la tabla de fingers de n, es el sucesor del identificador n + 2i - 1. Se puede notar que la primera
entrada en la tabla de cada nodo es su sucesor. Toda esa información (predecesor y tabla de
fingers) garantiza el funcionamiento del servicio de lookup. La segunda parte de la tabla de
enrutamiento es una lista de sucesores de tamaño r.
Un nuevo nodo que ingresa a Chord, primero usa la función de hash para generar su iden-
tificador. Luego contacta al nodo bootstrap (un nodo que ya se encuentra en la red), para que
localice al sucesor de su identificador, quien se convierte en el sucesor del nuevo nodo. La fun-
ción de estabilización, que le permite actualizar sus sucesores, predecesores y fingers, se realiza
periódicamente.
Pastry.
Pastry [38] es uno de los sistemas basados en DHT más utilizado actualmente. Varias aplica-
ciones tales como SCRIBE [11] y PAST [39], se han desplegado utilizando Pastry como el sistema
DHT subyacente. Cada nodo en Pastry tiene un único identificador de 128 bits. Los identifi-
cadores se escogen de manera aleatoria y uniforme. Una manera de generar identificadores para
los nodos es aplicando una función de hash a las direcciones IP.
Pastry utiliza prefix-matching para enrutar mensajes. Cada nodo mantiene una tabla de
enrutamiento con logb
2 N filas y 2b − 1 columnas. Las entradas en la fila n, de la tabla de
enrutamiento de un nodo, comparten los primeros n d´ıgitos con ese nodo. Además, cada nodo
mantiene un conjunto de leaf que contiene las direcciones IP de los l
2 nodos cuyos identificadores
son los más cercanos numéricamente máyores, y los l
2 nodos cuyos identificadores son los más
cercanos numéricamente menores.
Para ingresar al sistema, un nuevo nodo debe conocer a algún nodo que hace parte del
sistema. El nuevo nodo puede inicializar su estado contactando al nodo existente y enviando
un mensaje de ingreso con su identificador como la llave. El mensaje se enruta a otro nodo
existente cuyo identificador es numéricamente más cercano al del nuevo nodo. Luego, todos los
nodos encontrados durante el camino env´ıan sus tablas de enrutamiento al nuevo nodo. Éste
luego inicializa sus propias tablas basadas en la información recibida. Finalmente, el nuevo nodo
informa a aquellos nodos que necesitan saber de su llegada.
12

El proceso de mantenimiento se maneja periódicamente intercambiando mensajes de vida
entre los nodos vecinos. Cuando se detecta una falla de un nodo, todos los miembros del conjunto
leaf del nodo que ha fallado son notificados y estos actualizan sus respectivos conjuntos.
Kademlia.
El principio básico de Kademlia [32] es encontrar los nodos que están a la mitad de distancia
al nodo destino. Kademlia se diferencia de Pastry y otros sistemas simlares en dos aspectos
principalmente. Una diferencia es la nueva noción de cercan´ıa entre nodo basada en la operación
XOR de los identificadores de los nodos. La otra diferencia es que los nodos en Kademlia con-
tienen listas de entradas (buckets), las cuales son usadas para enviar solicitudes paralelas.
El sistema Kademlia asigna identificadores de 160 bits. El algoritmo de búsqueda usa cercan´ıa
basada en la operacón XOR con el objetivo de reducir el espacio de lookup. La idea intuitiva
detrás de esta operación es que los identificadores de nodos que son diferentes en los bits de orden
superior importan más que los que son diferentes en los bits de orden inferior, y por tanto, la
distancia ser´ıa mayor XOR. Usando esta métrica, la topolog´ıa de Kademlia ordena nodos como
un árbol donde los nodos de los sub-árboles están más cercanos entre ellos que otros sub-árboles.
Las tablas de enrutamiento contienen listas separadas para cada bit en el identificador del
nodo. Por esto, si la red usa 128 bits, cada nodo tendrá 128 listas. Cada lista corresponde a una
distancia particular a nodos. La distancia se mide en el nivel de emparejamiento de los bits en
los identificadores. Kademlia usa métricas XOR para definir distancia entre nodos. El resultado
de la operación XOR aplicados a dos identificadores de nodos (retorna 0 para bits dénticos y
1 para bits diferentes) es la distancia entre dos nodos. Como Chord, los nodos en Kademlia
conocen más acerca de nodos más cercanos y menos de nodos lejanos.
Cuando un nodo p que desea ingresar al sistema, añade a un nodo conocido, q, a su bucket y
realiza un lookup de nodo. Esto permite llenar su tabla de enrutamiento basado en las respuestas
y se inserta en los k buckets de otros nodos en el sistema. A continuación se presentan los estilos
de enrutamiento tradicionales utilizados por los sistemas P2P basados en DHT.
3.1.2. Estilos de enrutamiento tradicionales
Los mecanismos de enrutamiento requieren de dos procesos importantes: mantenimiento de
tablas de enrutamiento y env´ıo de mensajes. Existen tres estilos de implementación para el env´ıo
de mensajes: recursivo, iterativo y tracer.
En el enrutamiento recursivo, un nodo x, utilizando su información de enrutamiento, env´ıa
una solicitud por una llave k a un nodo intermedio y, el cual verifica si es responsable por la
llave. Si la respuestas es negativa, se repite el proceso anterior. Cuando la solicitud llega al nodo
responsable por k, digamos r, el puede enviar el resultaso directamente al iniciador o usar el
camino inverso. Ver Figura 1(a). Usando el enrutamiento recursivo, el nodo iniciador no tiene
ningún control. sobre el proceso de enrutamiento, y por tanto, detección de nodos malicious no
puede realizarse fácilmente. Trabajos que usan este estilo son Pastry [38], Chord [50] y Kademlia
[32].
13

(a) Recursivo (b) Iterativo
(c) Tracer
Figura 1: Estilos de enrutamiento
A diferencia del estilo recursivo, en el enrutamiento iterativo, cada nodo intermedio y env´ıa
de vuelta a x (iniciador), la dirección IP del siguiente salto. Ver Figura 1(b). Utilizando este
estilo, x tiene control total sobre el proceso de enrutamiento. De esta manera, puede detectar
nodos maliciosos. Algunas soluciones que utilizan este estilo son SeChord [34] y Myrmic [52].
Finalmente, el enrutamiento tracer es una combinación de los estilos recursivo e iterativo
[53]. Aqu´ı, cada nodo intermedio y env´ıa dos mensajes, uno al siguiente salto con la solicitud
y otro, al iniciador x, con la información acerca del siguiente salto. Ver Figura 1(c). Este estilo
provee cierto conocimiento al iniciador, pero no control total.
La Tabla 1 resume los estilos de enrutamiento presentados, describiendo su latencia, número
de mensajes generados y el control que permiten sobre el proceso de enrutamiento, donde h
y l representan el número de saltos esperados y la latencia entre dos nodos, respectivamente.
Por una parte, el estilo recursivo ofrece menor latencia y número de mensajes, pero sin control
sobre el proceso de enrutamiento. De esta manera, la detección de nodos maliciosos no se puede
realizar de manera fácil. Por otra parte, los estilos iterativo y tracer proveen más control sobre
el proceso de enrutamiento pero aumentando el número de mensajes. Éste último mejora la
latencia sobre el estilo iterativo.
14

Número de Control sobre el proceso
Estilo mensajes Latencia de enrutamiento
Recursivo
(Directo) h + 1 l(h + 1) Ninguno
Recursivo
(Camino inverso) 2h 2lh Ninguno
Iterativo 2h 2lh Total
Tracer 2h l(h + 1) Medio
Tabla 1: Resumen de estilos de enrutamiento
3.2. Conceptos de Seguridad
La seguridad en computación tiene tres pilares fundamentales: confidencialidad, integridad y
disponibilidad. A continuación se describe cada concepto en las subsecciones 3.2.1, 3.2.2 y 3.2.3,
respectivamente [6].
3.2.1. Confidencialidad
La confidencialidad consiste en ocultar información o recursos de entidades no autorizadas. La
necesidad de mantener dicha información secreta se deriva del uso de computadores en campos
sensitivos tales como el gobierno o la industria. De hecho, el primer trabajo formal en este
ámbito estuvo motivado por necesidades militares. Los mecanismos de control de acceso soportan
confidencialidad. Un mecanismo que ayuda a preservar la confidencialidad es la criptograf´ıa, la
cual busca encapsular los datos con el objetivo de hacerlos incomprensibles. Una llave de cifrado
controla el acceso a la información cifrada, pero esto hace que la llave se convierta en otro dato
que debe protegerse.
3.2.2. Integridad
La integridad hace referencia a la confiabilidad de los datos o recursos, y está orientado en
términos de prevenir cambios inapropiados o no autorizados. Este concepto incluye integridad
en dos niveles: en los datos, se refiere al contenido de la información, y en el origen, se refiere a
la fuente de los datos (autenticación). En ésta última, la fuente de información puede influir en
la exactitud y credibilidad de los datos en cuestión.
Existen dos tipos de mecanismos para asegurar la integridad: los de prevención y los de
detección. Por una parte, los mecanismos de prevención buscan mantener la integridad de los
datos mediante el bloqueo a dos tipos de acciones: el cambio de información por entidades no
autorizadas y el cambio de información de manera no autorizada. Por otra parte, los mecanismos
de detección se encargan de reportar que la integridad de un dato ha dejado de ser confiable.
Estos mecanismos pueden analizar eventos del sistema (acciones de los usuarios o del sistema)
para detectar algún problema. El reporte puede proveer varios tipos de información: la causa de
la violación de integridad o sólo reportar que el dato ahora está corrupto.
15

Como la integridad necesita que los datos además de correctos sean confiables, existen varios
factores que afectan la integridad: el origen de los datos (cómo y de donde se obtienen), la forma
como se protege la información antes que llegue a la entidad actual y la forma como se protege
la información en la entidad actual.
3.2.3. Disponibilidad
La disponibilidad se refiere a la capacidad de usar la información o el recurso deseado cuando
se solicita. Este concepto es importante para el aspecto de confiabilidad y del buen funcionamien-
to de un sistema, porque el que un sistema no esté disponible produce el mismo efecto que si
no existiera. El aspecto de disponibilidad que es relevante en el ámbito de seguridad es que, un
adversario podr´ıa deliberadamente disponer lo necesario para negar el acceso a los datos o a un
servicio haciendo que no esté disponible.
3.3. Criptograf´ıa
Criptograf´ıa es el estudio de las técnicas matemáticas relacionadas con aspectos de seguridad
de la información tales como confidencialidad, integridad de los datos, autenticación de entidades
y autenticación de la fuente de los datos. Sus objetivos son 4: (1) privacidad o confidencialidad,
(2) integridad de los datos, (3) autenticación y (4) no repudio [7]. El concepto de confidencialidad
fue presentado en la subsección 3.2.1 , por su parte los conceptos de integridad de los datos y
autenticación fueron discutidos en la subsección 3.2.2. El no repudio es el servicio que previene
que una entidad niegue acciones previas, un caso particular de integridad. A continuación se
presentan, de forma general, las caracter´ısticas de las estrategias desarrolladas para solucionar
aspectos relacionados con la criptograf´ıa.
3.3.1. Algoritmos de cifrado
Comúnmente, para lograr confidencialidad, se utilizan esquemas de cifrado, los cuales con-
sisten de 3 conjuntos: uno de llaves K, otro de mensajes M y otro de textos cifrados C. Además
utiliza tres algoritmos que se enumeran a continuación.
1. Algoritmo para generar un par de llaves, una para cifrado, k, y otra para descifrado, k−1.
2. Algoritmo de cifrado que toma como entrada un mensaje m ∈ M y una llave de cifrado
k ∈ K y retorna un mensaje cifrado c ∈ C, donde c = Ek{m}.
3. Algoritmo de descifrado que toma como entrada un mensaje cifrado c ∈ C y una llave de
descifrado k−1 ∈ K y retorna un mensaje m ∈ M, donde m = Dk−1 {m}.
Y se cumple que Dk−1 {Ek{m}} = m. De esta definición, se identifican dos estilos de cifrado,
simétrico y asimétrico. Un algoritmo con par de llaves k y k−1 se dice simétrico, si es computa-
cionalmente fácil calcular k−1 dada k y viceversa. Ejemplos de algoritmos simétricos son: AES
(Advanced Encryption Standard), DES (Data Encryption Standard) y 3DES.
16

Por el contrario, si es dif´ıcil obtener k−1 (llave privada) dada k (llave pública), el algoritmo
es asimétrico. Ejemplos de algoritmos asimétricos son: RSA (Rivest, Shamir, Adleman), ElGa-
mal y ECIES (Elliptic Curve Integrated Encryption Scheme). Es claro que, para los algoritmos
simétricos es fundamental mantener el par de llaves de manera secreta porque al comprometer
una, se obtiene la otra rápidamente. Por su parte, en los asimétricos solo hay que mantener k−1
de manera secreta.
3.3.2. Funciones hash
Para lograr integridad de los datos se define el concepto de funciones hash. Una función hash
es una función computacionalmente eficiente que mapea cadenas binarias de longitud variable a
cadenas binarias de longitud fija. Además para el uso en criptograf´ıa, cumple con las siguientes
propiedades: (1) dado h, es dif´ıcil computar un m tal que h = H(m), (2) dado m es dif´ıcil
encontrar m tal que H(m) = H(m ) y (3) es computacionalmente dif´ıcil encontrar dos cadenas
m1 y m2, tales que H(m1) = H(m2).
De esta definición es fácil ver que un cambio en la cadena de entrada m, genera otro valor
H(m). Por lo tanto, para garantizar la integridad de m el algoritmo toma la cadena recibida
m y H(m), y verifica si H(m ) = H(m). En tal caso, acepta la cadena. En caso contrario, la
rechaza. SHA-1, RIPEMD-160 son ejemplos de funciones hash [49].
3.3.3. Códigos de autenticación de mensajes (MAC)
Para lograr autenticación de origen de los datos se define una función llamada códigos de
autenticación de mensajes (MAC, por sus siglas en inglés), la cual es una función hash que recibe
una cadena de caracteres y una llave y obtiene MACk{m}. Al enviar un mensaje se agrega el
valor MAC y el receptor puede recalcular el valor MAC del mensaje con la llave compartida y
comparar con lo recibido.
3.3.4. Firma digital
La propiedad de no repudio se provee a través de mecanismos de firma digital. Las firmas
digitales también proveen autenticación e integridad de los datos por el uso de llaves públicas
en su implementación. Un algoritmo de firma digital consiste de tres conjuntos: uno de llaves
K, otro de mensajes M y otro de firmas S. Además utiliza tres algoritmos que se enumeran a
continuación.
1. Un algoritmo de generación de llaves que retorna una llave válida para firmar k y una llave
válida para verificación k−1.
2. Un algoritmo de generación de firma, la cual recibe como entrada un mensaje m y una
llave para firmar k ∈ K, y retorna una firma s ∈ S. SigA{m} denota la firma de la entidad
A sobre el mensaje m.
3. Un algoritmo de verificación que recibe como entrada una firma s ∈ S, un mensaje m y
una llave de verificación k−1 ∈ K, y retorna un valor binario que representa la validez de
la firma.
17

La firma digital necesita de otros requerimientos para que pueda ser implementada, tales
como: facilidad computacional de generación y verificación de las firmas y debe ser computa-
cionalmente dif´ıcil falsificar una firma digital. En ambientes reales, el mensaje m puede tener
longitud variable, por esto se utilizan funciones hash para reducir el tamaño a un valor fijo
pequeño y la firma digital se hace sobre el valor el hash obtenido. Algunos ejemplos de firmas
digitales son RSA y ECDSA (Elliptic Curve Digital Signature Algorithm) [49].
3.3.5. Técnicas para compartir un secreto
Las técnicas para compartir un secreto permiten que el propietario de un secreto distribuya
partes del mismo (shares) entre un grupo de participantes. Cada parte por separado no ayuda a
recuperar el secreto, pero un subconjunto de participantes de manera colectiva pueden encontrar
el secreto.
Un esquema de umbral Tn es un esquema para compartir llaves en la cual n partes se
distribuyen de tal manera que cualquier conjunto de t participantes es suficiente para obtener
el secreto, mientras que t − 1 o menos participantes no pueden reconstruir el secreto. El más
conocido esquema de umbral fue propuesto por Shamir y se basa en interpolación de polinomios
[49].
3.3.6. Criptograf´ıa basada en identidad (CBI)
La idea principal de CBI es que la llave pública de un usuario u se obtiene a través de una
función hash pública que se aplica sobre una cadena de caracteres asociada a la identidad del
usuario. La correspondiente llave privada se genera por una autoridad central (AC). Esta llave
se le entrega al usuario después que éste prueba su identidad a AC. La generación de esta llave
reemplaza la expedición de certificados. Este par de llaves pueden ser usados para propósitos de
cifrado, firmas digitales u otro esquema criptográfico. El esquema de cifrado basado en identidad
Cocks [49] es un ejemplo de estos esquemas. Su seguridad reside en la intratabilidad de encontrar
residuos cuadráticos compuestos en Zn.
18

4. SEGURIDAD EN SISTEMAS P2P DHT
La seguridad en sistemas P2P permite que este tipo de sistemas se utilicen en un may-
or número de aplicaciones. Desafortunadamente, proveer seguridad en aplicaciones desplegadas
sobre sistemas P2P es más dif´ıcil que hacerlo en esquemas cliente/servidor o aplicaciones dis-
tribuidas tradicionales. En este cap´ıtulo se presenta la temática de seguridad en sistemas P2P
DHT. En particular, los atributos de calidad de las aplicaciones en seguridad y las vulnerabil-
idades que poseen los sistemas P2P DHT en las capas de enrutamiento, de almacenamiento y
aplicación.
4.1. Generalidades de seguridad en sistemas P2P DHT
Proveer seguridad a las aplicaciones desplegadas sobre sistemas P2P es un reto debido a su
naturaleza abierta y autónoma. Comparado con sistemas cliente/servidor en los cuales se pueden
confiar que las entidades seguirán los protocolos definidos, los nodos en sistemas P2P no proveen
esa garant´ıa. El ambiente en el cual cada nodo debe funcionar es uno en donde cualquier nodo es
bienvenido a la red, no se puede confiar que los demás nodos van a enrutar consultas y respuestas
correctamente, ni que guardarán los objetos cuando se les solicite, o responderán a consultas de
las cuales son responsables. A continuación se presentan los atributos de calidad en seguridad
que las aplicaciones actuales requieren: disponibilidad, autenticidad de objetos, anonimidad y
control de acceso.
En la actualidad, los sistemas P2P no proveen todos los atributos de calidad en seguridad
necesarios en cualquiera de estas áreas. Para cada área, es importante desarrollar técnicas que
permitan la prevención, detección, manejo y recuperación de los ataques. Es importante el diseño
de protocolos que no dejen puertas abiertas a nuevas oportunidades de ataques.
4.1.1. Disponibilidad
Cada nodo en el sistema P2P debe ser capaz de comunicarse con otros nodos y proveer acceso
a los recursos por los cuales es responsable. El ataque de denegación de servicio (DoS) busca
que un nodo y sus recursos no estén disponibles, para lo cual utiliza la sobrecarga. Este ataque
es similar al ataque DoS tradicional de la capa de red. Si el ancho de banda disponible de un
nodo se usa para transferir mensajes inservibles que son creados directa o indirectamente por
un nodo malicioso, los demás recursos que el nodo ofrece no estarán disponibles para el resto de
los nodos en el sistema.
Un nodo malicioso puede atacar directamente cualquiera de los recursos de un nodo. La
disponibilidad de CPU de un nodo se puede atacar enviando un número considerable de consultas
complejas para disminuir la capacidad de respuesta a otras solicitudes. La disponibilidad de
almacenamiento se puede atacar por nodos maliciosos que tienen la capacidad de solicitar el
almacenamiento de objetos falsos. Aún cuando se asegure la disponibilidad de los objetos en el
sistema, un ataque de denegación de servicio puede hacerse en contra de la calidad del servicio
con la cual están disponibles, por ejemplo, un nodo podr´ıa decir que está entregando el objeto
solicitado cuando no es as´ı.
19

Los adversarios que construyen ataques de denegación de servicio necesitan encontrar y
tomar ventaja de mecanismos de ampliación en la red para poder causar mayor daño que el que
podr´ıan causar con sus propios recursos. Para esto, ellos podr´ıan comunicarse con nodos zombie
(conjunto de nodos que están a disposición de un adversario más poderoso) que los ayuden a
lograr su cometido y comprometer la disponibilidad de una mayor cantidad de datos o servicios.
4.1.2. Autenticidad de los datos
La autenticidad de datos consiste en determinar cuáles de las respuestas a una consulta son
auténticas. Este problema es diferente al de integridad de los datos, porque éste último busca
asegurar que los datos no se corrompan por fallas en la comunicación. Para el problema de
autenticidad de los datos, se utiliza un algoritmo para determinar si las respuestas a una consulta
poseen una firma auténtica. Existen cuatro métodos para seleccionar los datos auténticos en un
sistema P2P:
1. Dato más antiguo: Considera al dato más antiguo que fue almacenado en el sistema con
un conjunto de metadatos a ser la copia auténtica de dicho dato.
2. Basado en experto: La autenticidad de un dato la determina un nodo autoritativo o experto.
3. Basado en voto: El uso de un experto induce un único punto de falla, entonces, esta
estrategia utiliza la votación de varios expertos.
4. Basado en reputación: Como algunos expertos pueden ser más confiables que otros, el peso
de los votos de este grupo de nodos deber´ıa ser mayor que el de los demás. Entonces, se
define una función que permita asignar pesos a las votaciones de cada nodo y de esta
manera obtener la autenticidad de un dato.
4.1.3. Anonimidad
Muchos usuarios están interesados en la temática de anonimidad porque les permite com-
ercializar ilegalmente datos de manera que no sea fácil rastrearlos, pero existen varias razones
leg´ıtimas por las cuales anonimidad es un atributo de calidad de las aplicaciones P2P. Si se
provee anonimidad, se puede prevenir que entidades maliciosas creen, publiquen y distribuyan
datos y que los usuarios que acceden a sus datos puedan mantener protegida su privacidad.
Existen diferentes tipos de anonimidad que se pueden proveer en un sistema P2P.
1. Anonimidad de emisor: ¿Qué usuarios crean mensajes?
2. Anonimidad de almacenamiento: ¿Qué nodos guardan datos espec´ıficos?
3. Anonimidad de consulta: ¿Qué usuarios acceden a qué datos?
4. Anonimidad de documento: ¿Qué documentos se guardan en un nodo espec´ıfico?
20

En un ambiente ideal, las aplicaciones deben proveer anonimidad mientras se mantienen
otras propiedades asociadas al proceso de búsqueda y a la seguridad tales como, eficiencia,
descentralización y descubrimiento de recursos y nodos. Desafortunadamente, proveer varios
tipos de anonimidad crea conflictos con estos elementos de diseño de los sistemas P2P.
Por ejemplo, considere la anonimidad de almacenamiento y búsqueda eficiente. Si se provee
anonimidad de almacenamiento, ser´ıa imposible determinar qué nodos son responsables por
guardar un dato. Por otra parte, si se desea buscar de manera eficiente un dato, se deber´ıa
conocer exactamente cuáles nodos son responsables de almacenar ese dato. Free Haven [57] y
Freenet [58] son sistemas P2P, donde el primero provee anonimidad de almacenamiento y utiliza
inundación (flooding) para la búsqueda, y el segundo tiene búsqueda eficiente pero no provee
anonimidad de almacenamiento. Es por esto que se debe definir un equilibrio entre búsqueda
eficiente y anonimidad de almacenamiento.
4.1.4. Control de acceso
El control de acceso consiste en controlar qué usuarios tienen acceso a qué recursos del
sistema (qué datos puede leer, qué programas pueden ejecutar, cómo comparten los datos, etc.).
Es importante explorar si es razonable o no hacer que la red P2P asegure control de acceso,
o si el control de acceso se debe asegurar en los endpoints de la red. En cualquier caso, sólo
los usuarios que tienen el derecho para acceso a los datos pueden hacerlo. Los mecanismos de
control de acceso que se implementan en el nivel de aplicación expresan altos niveles de pol´ıticas
de seguridad, debido a la utilización de roles y transacciones definidas en el sistema.
Existen varias aplicaciones que utilizan controles de acceso, tal es el caso de OceanStore [30]
y PriServ [23]. En el primero, los datos que no son públicos son cifrados. Para prevenir lecturas
no autorizadas, se distribuyen permisos (llaves de cifrado) a aquellos usuarios que tienen accesos
de lectura a ese grupo de datos. Para prevenir escrituras no autorizadas, cada modificación o
escritura se firma. De esta manera, cualquier nodo puede verificar si la modificación fue realizada
por nodos autorizados. En esta aplicación se pierde el contenido original y quedan únicamente
los modificados.
En PriServ, la idea es que para que un nodo obtenga datos, ellos deben especificar el propósito
y la operación que realizará sobre los datos. Con esta información, los clientes pueden usar la
información para fines espec´ıficos según el rol que desempeñen. Para esto, la generación de las
llaves asignadas a los datos incluye la información descrita arriba. Como se puede notar, el
mismo grupo de datos puede tener diferentes llaves dependiendo de los distintos propósitos de
acceso y operaciones que se realizan sobre ellos.
A continuación se muestran los ataques a los cuales es vulnerable un sistema P2P basado en
DHT. La figura 2 muestra una clasificación de los ataques en estos sistemas. Las subsecciones
4.2 y 4.3 muestran los diferentes ataques en las capas de enrutamiento y de almacenamiento y
aplicación, respectivamente.
21

Figura 2: Clasificación y relación de los ataques en sistemas P2P
4.2. Ataques en la capa de enrutamiento
La capa de enrutamiento provee las funciones principales para la construcción de aplica-
ciones en sistemas P2P. En particular, maneja las operaciones de entrada/salida de nodos y
enrutamiento de mensajes. En esta sección se discuten los ataques identificados en la literatu-
ra sobre estos procesos. Los ataques de identidad, enrutamiento y entrada/salida de nodos se
presentan en las subsecciones 4.2.1, 4.2.2 y 4.2.3 respectivamente.
4.2.1. Ataques de identidad
Los ataques de identidad vulneran el mecanismo de identificación de los sistemas P2P debido
a la flexibilidad del proceso de asignación de identificadores a nodos. Se distinguen dos estilos
de ataque: asignación de identificadores y Sybil.
Asignación de identificadores. Este ataque ocurre cuando un nodo puede escoger su propio
identificador. Si esto sucede, un atacante puede ubicarse arbitrariamente en el camino de un
nodo v´ıctima con el objetivo de monitorear todo el tráfico desde y hacia este nodo. Por ejemplo,
en Chord, el identificador de un nodo, nodeId, es una función sobre la dirección IP. Un nodo
malicioso puede escoger una dirección IP que lo ayude a ubicarse donde él desee. De igual manera,
en Pastry, los nodeIds son números de 128 bits escogidos aleatoriamente y de esta manera, un
nodo puede escoger su identificador maliciosamente.
22

Ataque Sybil. Aún cuando exista un mecanismo que provea asignación segura de identifi-
cadores, esto no asegura que un nodo no pueda obtener múltiples identificadores. Si esto sucede,
este nodo podr´ıa controlar gran parte de la red P2P y de esta manera inducir cualquiera de los
ataques que se mencionan en esta sección. En particular, si no existen mecanismos para limitar
el número de identidades por nodo, un atacante con acceso a millones de computadores puede
comprometer a un gran número de nodos en la red.
4.2.2. Ataques de enrutamiento
Los sistemas P2P estructurados como Chord [50], CAN [35], Pastry [38] y Baton [22], aplican
el mismo principio durante el proceso de enrutamiento: cuando un nodo p recibe una solicitud
de consulta, si p no posee el resultado de la consulta, busca en su tabla de enrutamiento algún
nodo más cercano a la respuesta y reenv´ıa la solicitud a ese nodo. El proceso termina cuando se
llega al nodo responsable por el resultado de la consulta. De lo anterior, se puede deducir que
cuando la red es estable (la tasa de entrada/salida de nodos es moderada), una consulta que
viaja de un mismo nodo fuente a un mismo nodo destino, sigue la misma ruta. Es por esto que
en estos sistemas es necesario garanizar la correcta ejecución de las funciones de enrutamiento.
Los ataques de enrutamiento ocurren cuando un nodo no sigue el mecanismo de enrutamiento
de manera correcta. Como se puede notar, un nodo malicioso juega un rol activo en el sistema,
debido a que no sólo participa en el proceso de enrutamiento de mensajes, sino que su información
aparece también en las tablas de enrutamiento de otros nodos. Sit y Morris [47] han clasificado
los ataques de enrutamiento en tres tipos: enrutamiento incorrecto, actualizaciones incorrectas
de información de enrutamiento y particionamiento incorrecto de la red.
Enrutamiento Incorrecto. El enrutamiento incorrecto se presenta cuando un nodo malicioso
reenv´ıa una solicitud a un nodo incorrecto o retorna un resultado incorrecto al nodo que inició la
consulta, por ejemplo, retorna un nodo afirmando que es el responsable del resultado buscado,
esto es conocido como robo de identidad. Para el primer estilo de ataque, una solución es
que, el nodo que inicia el proceso monitoree el proceso. De esta manera, si un nodo reenv´ıa la
solicitud hacia otro nodo diferente del correcto, se puede identificar un nodo malicioso. Con esta
información, un nodo podr´ıa excluir a este nodo malicioso de éste y otros procesos de búsqueda
y escoger rutas alternas. Para el segundo estilo de ataque, el nodo que inicia el proceso puede
obtener el rango de valores por los cuales un nodo es responsable y verificar el resultado obtenido.
Sin embargo, este estilo de solución requiere que el identificador de los nodos sea asignado de
manera que sea verificable.
Actualizaciones incorrectas de información de enrutamiento. La tabla de enrutamiento
de un nodo honesto debe ser protegida para asegurar que no contiene muchas entradas de
nodos maliciosos. De otra forma, ese grupo de nodos estarán controlados por un grupo de
nodos maliciosos. La actualización incorrecta de información de enrutamiento ocurre cuando
un nodo malicioso corrompe las tablas de enrutamiento de otros nodos mediante el env´ıo de
información incorrecta. Como consecuencia de esto, nodos honestos pueden desviar solicitudes
a nodos inapropiados o que no existen.
23

Una solución a este ataque es verificar que al nodo remoto se puede llegar antes de incorporar
la actualización a la tabla de enrutamiento. Otro ataque de este tipo ocurre cuando el sistema
provee flexibilidad en la escogencia de nodos durante el reenv´ıo de solicitudes. Este ataque no
afecta lo correcto del protocolo de enrutamiento pero puede afectar la calidad del servicio. Por
ejemplo, en vez de escoger el nodo más rápido, el nodo malicioso puede enrutar la solicitud
hacia un nodo con bajo ancho de banda. En este caso, un modelo de confianza efectivo puede
ofrecer una buena solución. Una generalización de este ataque se conoce con el nombre de Ataque
Eclipse [46].
Particionamiento incorrecto de la red. El particionamiento incorrecto de la red ocurre
cuando un nodo que ingresa a la red P2P es inducido a otra partición de la red formada por
un grupo de nodos maliciosos. Esto puede ocurrir porque cuando un nodo entra al sistema, lo
hace a través de algún nodo (bootstrap) conocido que se encuentra en el sistema. Este nodo
podr´ıa hacer parte de la partición de nodos maliciosos. Igualmente, un nodo malicioso en una
partición leg´ıtima puede desviar nuevos nodos hacia la partición maliciosa. Una solución es que
un nuevo nodo mantenga información sobre nodos honestos que conoce con anterioridad y use
alguno de estos nodos como bootstrap. Si el nodo va a ingresar por primera vez, puede contactar
nodos conocidos públicamente. Otra solución simple y efectiva es la asignación de identificadores
usando su llave pública. Aunque este estilo de solución incurre en operaciones adicionales, nodos
maliciosos no pueden fácilmente comprometer el sistema.
4.2.3. Ataque de entrada/salida de nodos
Como los nodos entran y salen del sistema, se requiere un proceso de reasignación de re-
sponsabilidades, con el objetivo de que el proceso de lookup trabaje correctamente. Un nodo
malicioso puede engañar al sistema, haciéndolo re-balancearse innecesariamente causando exce-
so de transferencia de datos y tráfico. Mas aún, un adversario podr´ıa convencer que un nodo
no está disponible o que algún nodo ha ingresado, cuando no es cierto. Como consecuencia,
la eficiencia y el desempeño del sistema se ven comprometidos. Es importante mencionar que
cualquier sistema P2P basado en DHT debe proveer un mecanismo para tratar este problema,
independientemente si nodos maliciosos están presentes.
4.3. Ataques en las capas de almacenamiento y aplicación
En la capa de aplicación se construyen servicios que hacen uso del sistema de localización
ofrecido por la capa subyacente. Por este motivo, se introducen nuevos estilos de ataque dependi-
endo considerablemente de la aplicación construida. En esta sección se discuten los ataques más
representativos identificados en la literatura. Los ataques de almacenamiento y recuperación de
información, comportamiento inconsistente y generación de mensajes no solicitados se presentan
en las subsecciones 4.3.1, 4.3.2 y 4.3.3 respectivamente.
4.3.1. Almacenamiento y recuperación de información
Los sistemas P2P (estructurados y no estructurados) desplegados como repositorios de infor-
mación distribuida son vulnerables a varios tipos de ataques de almacenamiento y recuperación
de información, incluyendo los siguientes:
24

1. Un nodo malicioso se rehúsa a almacenar información de la cual es responsable.
2. Un nodo malicioso puede aceptar el almacenamiento de información, pero luego borrarla.
Este es un problema cr´ıtico porque la información se puede perder para siempre.
3. Un nodo malicioso puede ser responsable del almacenamiento de la información solicitada,
pero se rehúsa a entregarla, o peor aún, entrega una copia alterada.
4. Un nodo malicioso puede coordinar ataques con otros nodos.
Los ataques anteriores también aplican a sistemas donde los metadatos (en vez de los datos)
se guardan. En particular, los metadatos más comunes son los que se usan como ´ındices de
búsqueda, y son cr´ıticos para asegurar la completitud de las solicitudes.
4.3.2. Comportamiento inconsistente
Cualquiera de los ataques que se presentan aqu´ı, pueden ser más dif´ıciles de detectar si un
nodo malicioso actúa bien para una parte de la red. Esto es, un nodo malicioso puede escoger
maximizar su impacto, asegurando que trabaja correctamente para algunos nodos, por ejemplo,
nodos cercanos a él. Estos nodos no tendr´ıan ningún motivo para excluir al nodo de sus tablas
de enrutamiento a pesar del hecho que otros nodos (distantes) lo detecten como malicioso. Esto
podr´ıa no ser un gran problema si las consultas se enrutan a través de nodos cercanos antes
de llegar al destino. Sin embargo, la mayor´ıa de los protocolos de enrutamiento hacen saltos a
nodos más lejanos con el objetivo de llegar más rápido al destino.
En un contexto ideal, nodos lejanos podr´ıan convencer a nodos cercanos que uno de ellos es
un nodo malicioso. Sin embargo, sin llaves públicas ni firmas digitales, no es posible distinguir
un reporte bueno de uno malicioso que busca excluir a nodos que son buenos.
4.3.3. Generación de mensajes no solicitados
En este ataque, un nodo malicioso puede ser capaz de diseñar una situación en la que puede
enviar una respuesta a una pregunta no solicitada. La mejor defensa contra este tipo de ataque es
la de emplear técnicas de autenticación estándar como firmas digitales o códigos de autenticación
de mensajes (MAC). Sin embargo, las firmas digitales son bastante costosas y los MACs requieren
llaves compartidas. Una defensa más razonable podr´ıa ser la de usar números aleatorios (nonces)
para asegurar que mensajes antiguos no puedan ser re-usados maliciosamente.
4.4. Discusión sobre ataques en sistemas P2P
La Tabla 2 muestra que pilar(es) se ve(n) afectado(s) por la presencia de alguno de los ataques
presentados en esta sección. Como se puede observar, todos los ataques afectan la disponibilidad
del sistema, buscando denegar los servicios de un nodo o grupo de nodos. En cuanto a los ataques
que afectan la capa de enrutamiento, los ataques de manejo de identidad son los más fuertes
debido a que tienen control sobre partes del sistema, lo cual implica que se pueden comprometer
todos los servicios que se estén ofreciendo.
25

Tabla 2: Ataques a sistemas P2P
Ataque Capa Confidencialidad Integridad Disponibilidad
Asignación de identificadores Enrutamiento X X X
Sybil Enrutamiento X X X
Enrutamiento incorrecto Enrutamiento X X
Actualizaciones incorrectas Enrutamiento X X
Particionamiento incorrecto Enrutamiento X
Entrada/Salida de nodos Enrutamiento X
Almacenamiento y recuperación
de información Aplicación X X X
Comportamiento inconsistente Aplicación X
Generación de mensajes
no solicitados Aplicación X
Asumiendo la existencia de una prevención contra este tipo de ataques, es importante notar
que el resto de ataques en las capas de enrutamiento y aplicación podr´ıan existir, debido a que
esto no asegura que varios nodos que han ingresado al sistema, decidan actuar maliciosamente
a causa de factores propios o externos, como virus, suplantaciones, etc.
Cabe anotar, que bajo la presencia de un ataque se pueden inducir nuevos ataques, lo cual
crea cadenas de relación entre el grupo de ataques presentado. Como resultado, si un sistema P2P
no se protege contra este grupo de ataques, son más las vulnerabilidades que podr´ıa explotar un
adversario. Por esto, para que la protección en ese ambiente sea más completa, se deben conocer
estas relaciones y prestar mayor atención a la fuente de los mismos. La Figura 2 muestra la
relación entre los ataques presentados, las l´ıneas punteadas indican relación. Por ejemplo, si no
se protege contra el ataque de actualización de información de enrutamiento esto podr´ıa afectar
el enruamiento de nodos honestos. Por su parte, si hay una prevención al ataque, los nodos
maliciosos aún podr´ıan enrutar de manera incorrecta.
El protocolo de enrutamiento es la función principal de los sistemas P2P y de esta manera
se convierte en uno de los procesos más cr´ıticos para el funcionamiento correcto del sistema.
Es por esto que ha sido objeto de mucha atención y se convierte en el foco de este trabajo. En
las siguientes secciones se presentan soluciones a los ataques en la capa de enrutamiento más
representativos: ataques sybil y eclipse y ataque de enrutamiento, descritos en las secciones 5 y
6, respectivamente.
26

5. SOLUCIONES A ATAQUES DE IDENTIDAD Y ECLIPSE
En esta sección se presentan soluciones a los ataques de identidad y eclipse, descritos en las
secciones 5.1 y 5.2, respectivamente.
5.1. Ataques de asignación de identificadores y sybil
El ataque Sybil fue estudiado por Douceur[16], quien discute un modelo abstracto de sistema
distribuido y demuestra que la mejor solución para defenderse de ese ataque es mediante el uso
de una entidad central confiable. Además sugiere el uso de pruebas de recursos computacionales,
de almacenamiento o de red para limitar el ataque sybil en un ambiente totalmente distribuido.
Varios estilos de solución al ataque sybil en sistemas P2P, redes ad-hoc y otras aplicaciones
se identifican en la literatura [29]. En este trabajo solo se discutirán las soluciones encontradas
para sistemas P2P basados en DHT dividas en grupos según su grado de centralización. Cada
estrategia presentada se analizará teniendo en cuenta tres criterios: asignación, la cual define
la forma como los participantes obtienen un identificador, verificación, la cual permite a otros
nodos distinguir si un identificador es válido o no, y limitación, la cual restringe el número de
identificadores por participante (esto es necesario para prevenir el ataque Sybil).
5.1.1. Estrategias centralizadas
Este grupo de estrategias utiliza una entidad centralizada para generar los identificadores
de los nodos participantes. Existen muchos trabajos que suponen la existencia de una solución
centralizada para mitigar el ataque sybil. En su mayor´ıa, estas soluciones apuntan a los estilos
descritos en [10] y [8].
En las estrategia descrita por Castro et al. [10], el proceso de asignación de identificadores
se delega a una entidad certificadora confiable, la cual genera un certificado que contiene: un
identificador generado de forma aleatoria, una llave pública y la dirección IP del nodo. Esta
entidad asegura que los identificadores se escogen de manera aleatoria y previene la falsificación
de los mismos. Cada nodo del sistema conoce la llave pública de la entidad certificadora y con ella
puede verificar la validez de un certificado. Los nodos con certificados válidos pueden ingresar
a la red, participar en el proceso de enrutamiento, y dejar la red sin consultar a la entidad
certificadora.
Castro et al. propone dos soluciones para el proceso de limitación. La primera, requiere que
un adversario pague dinero por certificados. Con esta solución, el costo de un ataque crece a
medida que la red crece. Por ejemplo, si un certificado cuesta $30 pesos, controlando 10 % de
una red con 1000 nodos cuesta $3000 pesos y el costo se aumenta a $3000000 cuando la red tiene
1000000 de nodos. Para realizar un ataque a un nodo espec´ıfico, el costo es de aproximadamente
$30000 para obtener el identificador de un nodo particular en una red de 1000 nodos. La segunda
solución es ligar identificadores en la red a identidades en el mundo real (por ejemplo, cédula
del participante).
27

En [8] se presentan tres protocolos que usan criptograf´ıa basada en identidad (CBI) durante
el proceso de asignación, para dar solución a los ataques de identidad. Estos protocolos se
diferencian en los roles y las entidades a cargo de esos roles durante el proceso de asignación.
A continuación se describe el proceso de asignación para cada protocolo y luego los procesos de
verificación y limitación debido a que son iguales en los tres casos.
En el primer protocolo (P1) existen dos entidades. La primera es una entidad confiable
adicional llamada GLP que se encarga de la generación de llaves privadas y la segunda es un
nodo bootstrap, llamado NB, el cual genera un token de autenticación para ingresar e interactuar
en el sistema.
Durante el proceso de asignación se realizan los siguientes pasos. Primero, un participante
N contacta a GLP y le env´ıa su dirección IP. GLP autentica débilmente a N verificando si
tiene control sobre la IP. Este proceso consiste en el env´ıo y recepción de un mensaje espec´ıfico.
Luego, a través de un protocolo de acuerdo de llaves, como Diffie-Hellman [49], intercambian
una llave privada simétrica Sk. El segundo paso consiste en que GLP env´ıa a N un identificador
aleatorio (id) y la llave privada del participante cifrada con Sk. Durante el tercer paso, N descifra
la información usando Sk y env´ıa a NB su id, una estampa de tiempo (ET) y la firma de la
concatenación del id con ET, SigN (id ET). Por último, NB verifica la firma y genera una firma
con la misma concatenación, SigNB (id ET).
A diferencia del primer protocolo, en este (P2) los nodos GLP y NB son una misma entidad,
llamémosla NB. Durante el proceso de asignación, NB autentica a N mediante la dirección
IP e intercambian una llave simétrica Sk. Luego, NB env´ıa un identificador aleatorio id, llave
privada de N cifrado con Sk, una estampa de tiempo ET y la firma del id junto con la estampa,
SigNB (id ET).
El tercer protocolo (P3), al igual que el primero usa dos entidades. La primera entidad es
la encargada de generar identificadores (AS) y la segunda de proveer la entrada de los nodos
al sistema (NB). Antes de la inicialización se generan llaves privadas entre las dos entidades,
digamos Sk1 . Durante el proceso de asignación, el participante contacta a AS, éste autentica
a N y env´ıa un identificador aleatorio id, una estampa de tiempo ET1 y MACSk1
(id||ET1). N
reenv´ıa esta información a NB, quien verifica esta información. Luego, NB y N intercambian
una llave simétrica Sk2 , NB env´ıa la llave privada del participante cifrada con Sk2 , una estampa
de tiempo ET2, y la firma del id junto con la estampa SigNB (id||ET2).
Para los tres protocolos, al finalizar el proceso de asignación, cada nodo posee un identificador
id, una estampa de tiempo ET y la firma SigNB (id||ET), los cuales sirven como un token de
verificación. Durante una interacción entre nodos, uno de ellos presenta el token, y el otro puede
verificar la firma debido a que conoce la llave pública de NB. El proceso de limitación se hace a
través de la dirección IP, es decir, se genera un identificador aleatorio por cada IP.
28

Los tres protocolos utilizan un nodo bootstrap (NB) que debe ser confiable, lo cual se convierte
en un punto de falla cuando se compromete la integridad de dicho nodo. El protocolo P3 se puede
hacer más escalable debido a que la entidad AS pueden ser varios equipos, pero eso implica que
cada uno de estos equipos debe intercambiar una llave simétrica con NB. Este proceso se puede
realizar offline o a través de un protocolo de acuerdo de llaves como Diffie-Hellman. La ventaja de
usar CBI es que se eliminan los certificados debido a que la llave pública puede ser el identificador
del nodo, la dirección IP, etc, es decir, cualquier cadena de caracteres que identifique al nodo.
5.1.2. Estrategias jerárquicas
Este grupo de estrategias se basan en el establecimiento de jerarqu´ıas para dar solución al
ataque Sybil. En [37] se presenta un control de admisión jerárquico para limitar este ataque
mediante el uso de una estructura arbórea donde la ra´ız es una entidad confiable. El objetivo de
la estrategia es utilizar poder de cómputo para el ingreso de un nodo al sistema. Con esto, busca
aumentar el costo computacional para reducir el número de entidades asignadas. A continuación
se describe la estrategia.
Durante el proceso de asignación, si un nodo A desea unirse al sistema, éste genera un par
de llaves pública y privada, Spub y Spriv. Luego, contacta una hoja del árbol1 Xn y le env´ıa Spub.
Xn genera un rompecabezas (puzzle), se lo env´ıa a A, quien lo resuelve y devuelve a Xn. De esta
manera, Xn le env´ıa un token a A para que lo use como prueba de la solución del puzzle ante
Xn−1 (padre de Xn). Este proceso se repite hasta alcanzar la ra´ız, donde A recibe el identificador
id y un token de aceptación al sistema.
Durante el proceso de verificación, como el nodo ra´ız es conocido por todos (llave pública),
cualquier nodo del sistema puede verificar el token generado durante la asignación. En el proceso
de limitación se exige que cada nodo realice el proceso de asignación cada cierto intervalo de
tiempo.
La siguiente estrategia se basa en invitaciones sociales para limitar el ataque [28]. La idea es
mantener un arbol n-ario que representa las invitaciones hechas por los miembros. La ra´ız del
arbol es inicializada por un conjunto S de miembros, quienes genera un par de llaves pública
y privada. La llave privada es distribuida usando un esquema de criptografia de umbral cuan-
do |S| > 1. Además posee un certificado auto-firmado con su llave privada y el conjunto de
invitaciones son los números naturales N.
Durante el proceso de asignación, el nuevo miembro genera un par de llaves pública Spub y
privada Spriv, y recibe una invitación representada por un certificado firmado por el padre en el
árbol y la cadena de certificados desde el padre hasta la ra´ız. Este certificado contiene un número
uid ∈ Uidf , el hash de la llave pública H(Spub) y posiblemente un intervalo Uidnew ⊆ Uidf de
números naturales representando las invitaciones que este nodo puede hacer, el conjunto Uidf
representa el intervalo de invitaciones del padre.
1
Se supone la existencia de un mecanismo que permite conocer alguna de las hojas del árbol.
29

Un nodo puede verificar la membres´ıa de otro nodo con identificador id, validando la cadena
de certificados desde el nodo hasta la ra´ız y comprobando que id es igual al hash del campo uid.
Este proceso no requiere que los nodos estén en l´ınea debido a que el nodo tiene la cadena de
certificados y todos los nodos conocen la llave pública del nodo ra´ız. El proceso de limitación es
basado en las invitaciones y la moderación de su entrega, la cual se logra tratando de balancear
el árbol que representa el proceso de invitaciones.
5.1.3. Estrategias descentralizadas
A diferencia del primer grupo de estrategias, este grupo no utiliza una entidad centralizada
para generar los identificadores de los nodos participantes. Por el contrario, el proceso se realiza
de manera descentralizada.
Las estrategia descrita en [5] utiliza la resolución de rompecabezas (puzzles) para hacer
pruebas computacionales con el fin de limitar la generación arbitraria de nodos. A continuación
se describen los procesos de asignación, verificación y limitación para la estrategia. S/Kademlia
[5] usa dos estilos de puzzles, uno estático para la asignación con parámetro de seguridad c1, y
otro dinámico para el proceso de limitación con parámetro de seguridad c2.
Durante el proceso de asignación, para ingresar al sistema, un nodo debe generar una pareja
de llaves pública spub y privada spriv con la caracter´ıstica que H(H(spub)) da como resultado un
valor cuyos c1 primeros bits son cero (H es una función hash). El identificador id se define como
H(spub).
Durante el proceso de verificación, cuando un nodo interactúa con otro, éste verifica la firma
del mensaje2 y evidencia la ejecución del puzzle dinámico. Durante el proceso de limitación,
se utiliza un puzzle dinámico, el cual consiste en encontrar un X tal que H(id ⊕ X) da como
resultado un valor cuyos c2 primeros bits son cero. Luego, la evidencia de que un nodo resolvió el
puzzle dinámico es la tupla < id, X >.
Este trabajo propone el uso de auto registro en chord [15]. Durante el proceso de asignación
cada nodo escoge su id = H(ip : puerto) y se auto registra en r nodos del DHT, estos nodos
son los responsables por el identificador idj = H(ip prefix j) para 1 ≤ j ≤ r. Por su
parte el proceso de verificación es simple, un nodo valida a otro si cumple con la invariante
id − H(ip : puerto) = 0.
El proceso de limitación es realizado durante el registro y la entrada de un nodo al sistema.
Cada nodo mantiene una estructura de datos que asocia por dirección ip los ids registrados, de
esta manera durante el proceso de registro, se puede verificar si la dirección IP no sobrepasa un
umbral a de registros. En el proceso de entrada de un nodo con identificador id al sistema, se
envia un mensaje join al nodo responsable por id en el DHT, digamos p. Al recibir el mensaje p
verifica el id y contacta los r nodos del registro preguntando sobre la validez del id. Si p recibe
mas de r
2 respuestas positivas, acepta al nuevo peer y actualiza sus respectivas entradas.
2
La firma contiene la dirección IP, puerto y una estampa de tiempo.
30

Tabla 3: Soluciones del ataque Sybil
Grado de Persistencia
Estrategia Centralización Asignación Verificación Limitación de identificadores
Castro Validación de Precio
[10] Centralizado Certificados certificados Id externo S´ı
CBI Token firmado Validación
[8] Centralizado por NB del token Id externo No
Rowaihy Token firmado Validación
[37] Jerárquico por la ra´ız del token Cómputo No
Lesueur Certificado Validación
[28] Jerárquico firmado por de la cadena Invitaciones S´ı
el padre de certificados
Rompecabezas Validación del
S/KADEMLIA Descentralizado sobre la rompecabezas Cómputo No
[5] llave pública estático y dinámico
Validación de
Dinger Descentralizado id=H(Ip:puerto) id-H(Ip:puerto)=0 Id externo No
[15]
5.1.4. Discusión de las soluciones al ataque de identidad
En la tabla 3 se resume las estrategias analizadas para resolver el ataque sybil. Las estrate-
gias centralizadas son vulnerables a ataques de DoS, representan un único punto de falla, su
administración puede ser complicada en sistemas muy grandes como los sistemas peer to peer,
pero se tiene mayor control sobre los nodos que se encuentran en el sistema, lo cual puede ayudar
a identificar los nodos maliciosos. Las estrategias jerárquicas ayudan a distribuir la carga pero
aún se puede presentar ataques de DoS, estos van dirigidos a comprometer los nodos con mayor
jerarqu´ıa debido a que son los mas confiables. Por último, las estrategias descentralizadas debido
a la falta de control no son muy resistente al ataque sybil.
Todas las estrategias analizadas a excepción de [15] proveen al nodo una llave pública y
privada, esto es importante debido a que los nodos pueden firmar sus mensajes y cifrar sus
mensajes en las operaciones entre los peers del sistema. El proceso de verificación no solo es
importante para la membres´ıa de un nodo, sino que a través de este proceso se pueden descartar
paquetes que no sean del sistema. Por ejemplo, si se recibe un paquete cuya firma no es válida
o cuya dirección origen no este relacionada con el id, el mensaje se descarta.
En cuanto al proceso de limitación, las estrategias que usan un identificador externo trasladan
el problema al sistema donde se apoya para obtener el identificador. De esta manera, el uso de
una dirección IP para limitar el ataque no es efectivo, porque si un atacante posee una red clase
B [27] a su disposición puede generar muchas identidades y si se usa IPV6 [27] el efecto es el
mismo. De esto se concluye que el uso de identificadores externo para limitar el ataque se debe
hacer con mucha precaución.
Las soluciones que usan costo computacional, limitan el ataque pero le imponen a un peer
no malicioso un constante uso de recurso computacional, lo cual puede afectar a estos nodos
con limitados recursos. Por su parte, las soluciones basadas en costo social y costo monetario,
limitan el ataque dado que hacen la entrada al sistema muy dif´ıcil.
31

Figura 3: Tabla de enrutamiento del nodo 1030220 en Pastry
La persistencia de los identificadores se refiere al hecho que un miembro siempre use el mismo
identificador cuando ingresa al sistema, esta caracter´ıstica le quita flexibilidad en cuanto a usar
otros ids pero ayuda a identificar nodos maliciosos, debido a que si un nodo es sospechoso de
ser malicioso puede seguir siendo monitoreado aun cuando salga y entre nuevamente al sistema.
5.2. Ataque Eclipse
Como se ha descrito anteriormente este ataque va dirigido a la forma como se actualizan las
tablas de enrutamiento de un sistema P2P DHT, este ataque ocurre cuando se desea encontrar
el nodo correspondiente a entrada en la tabla de enrutamiento. A continuación se ilustra la
importancia del ataque a través de un ejemplo.
Considere un anillo de Pastry con tamaño N=4096 y base b=4. Un posible estado de la tabla
de enrutamiento del nodo 103220 se ilustra en la Figura 3. De la definición, la entrada (4,1) debe
tener como prefijo 10321, es decir los nodos con identificadores 103210, 103211, 10322, 103213
pueden ocupar esta entrada. Pastry escoge el nodo con menor latencia en la red entre ese grupo.
Es claro que los primeros niveles en la tabla de enrutamiento tienen más posibilidades de
escogencia. De esta manera, durante el proceso de estabilización, un atacante con muchos identi-
ficadores en el sistema puede aparecer con frecuencia en las tablas de enrutamiento. Un atacante
inteligentemente puede interceptar los paquetes enviados durante el proceso de estabilización y
dar como respuesta un identificador que cumpla con la petición. Además podr´ıa atacar el proceso
de estimación de la latencia para hacer parecer estar más cerca y aumentar la probabilidad de
ser incluido.
Considere ahora un anillo de Chord (Figura 4). El finger número 4 del nodo N8 es el sucesor
de N8 + 8 = 16, para el ejemplo, N21. Es decir, para un atacante es más dif´ıcil llenar la tabla
de enrutamiento sino se encuentra en un lugar espec´ıfico del sistema. Claramente esto es cierto
si el nodo malicioso no puede escoger su identificador, es decir, que la ubicación del atacante se
escoja de manera uniforme y se limite el número de identificadores por nodo.
32

Figura 4: Tabla de enrutamiento del nodo N8 en Chord
El objetivo de las estrategias para mitigar este tipo de amenaza es limitar la fracción de
nodos maliciosos en la tabla de enrutamiento, muchas de estas estrategias son construidas para
DHTs como Pastry y Tapestry debido a que la selección de nodos en estos sistemas es más
flexible y tienen en cuenta métricas de proximidad geográfica. A continuación se presentan
varias estrategias que mitigan el ataque Eclipse. Estas estrategias se clasifican de acuerdo al
estilo de solución: (1) basadas en restriciones sobre los nodos y (2) indución de entrada y salida
de nodos, presentadas en la subsecciones 5.2.1 y 5.2.2 respectivamente.
5.2.1. Estrategias basadas en restricciones sobre los nodos
La idea intuitiva de este grupo de estrategias consiste en definir un mecanismo para restringir
la escogencia de los nodos de tal manera que se pueda limitar el ataque. Este mecanismo se puede
definir como un función que toma como parametro un identificador nodeId y retorna un valor
de verdad que indica si el nodo se debe ingresar o mantener en la tabla de enrutamiento.
Castro et al. [10] proponen una solución para Pastry, introduciendo una tabla adicional llama-
da tabla restringida. La idea es que las entradas de la tabla de enrutamiento se escojan de acuerdo
a la ubicación de los nodos en el anillo (similar a Chord). La entrada (i, j) para un nodo con
identificador nodeId=x1x2 · · · xi · · · xn, es el nodo ms cercano al punto p=x1x2 · · ·xij · · ·xn. Con
esta nueva tabla se realizan procesos de enrutamiento seguro cuando el enrutamiento tradicional
de Pastry falla, más adelante se discute este proceso (subsección 6.1.2). Dadas las restricciones
de la tabla, cuando los nodos se distribuyen uniformemente y la fracción de nodos maliciosos es
f, es claro que la probabilidad de que una entrada sea maliciosa también es f.
Por su parte, Hildrum y Kubiatowicz [20] proponen aumentar cada entrada en la tabla de
enrutamiento de Pastry a un conjunto r de los nodos más cercanos en términos de distancia. Los
autores asumen que existe una técnica segura para medir la latencia entre nodos. Su propuesta se
basa en la dificultad de que varios atacantes estén cerca en la red subyacente. Además, introducen
protocolos de enrutamiento seguro que serán descritos en la subsección 6.1.2.
33

Singh et al. [46] proponen una estrategia para Pastry basada en la observación que bajo un
ataque Eclipse, el número de nodos que apuntan a un nodo malicioso (in-degree) es mayor que
el número de nodos que apuntan a un nodo no malicioso. La estrategia consiste en que un nodo
correcto debe apuntar sólo a nodos cuyo in-degree y out-degree es menor que un umbral. Limitar
el out-degree es importante debido a que un atacante podr´ıa consumir el in-degree de un nodo
y por tanto no se tendr´ıan en cuenta.
Para esto cada nodo x debe mantener una lista de backpointers que se define como los nodos
que apuntan a x en la red. Un nodo es auditado de manera anónima para verificar su out-degree
y in-degree. Cada nodo x, de forma periódica y anónima, pide la lista de backpointers S de algún
nodo entre sus contactos y verifica si él se encuentra en S, si el tamaño de S es menor que un
umbral. De manera similar, pide la lista de contactos de algún nodo en su lista de backpointers y
verifica los mismos criterios. En el caso que no se cumplan las restricciones, las comunicaciones
hacia y desde el nodo son removidas.
Como se puede observar, la anonimidad en el proceso de auditación es esencial para limitar
que un atacante no pueda falsificar su respuesta fácilmente. En este trabajo se propone el
uso de relays, es decir, que un tercero haga la pregunta. Para esto, el nodo relay se escoge
aleatoriamente del conjunto de l nodos más cercano a h(x), donde x es el nodo auditado. Los
autores analizan el hecho que un relay es malicioso y proponen una estrategia basada en votación.
5.2.2. Estrategias basadas en indución de entradas y salidas de nodos
La idea intuitiva de estas estrategias es asignar un nuevo identificador a cada nodo del
sistema, con el objetivo de que el nodo vuelva entrar al sistema y recalcule su información de
enrutamiento, limitando el impacto de los atacantes.
Condie et al. [12] proponen un mecanismo de defensa para el ataque Eclipse basado en la
reubicación de nodos que trata algunos problemas de la estrategia presentada en [10]. Periódica-
mente se restaura la información de la tabla optimizada con la información de la tabla verificada.
Para mantener controlado el aumento de las entradas alteradas en la tabla de enrutamiento op-
timizada, ellos limitan la razón a la cual se actualizan las tablas de enrutamiento.
Adicionalmente, para prevenir ataques que buscan conocer cómo se actualizan las tablas de
enrutamiento en el tiempo, esta estrategia introduce un método de asignación de identificadores
no predecible. En cada actualización, cada nodo obtiene un identificador aleatorio, lo cual lo
posiciona en una zona distinta del sistema. Para esto, se basan en el hecho que si nodos buenos
se mueven constantemente, es muy dif´ıcil para un nodo malicioso atacarlos de la misma manera
en cada actualización.
Es importante que los nodos del sistema no se reubiquen al mismo tiempo porque esto da
como resultado un sistema inestable y sobrecargado durante ese per´ıodo. Por esto, se define un
estado en donde los nodos se particionan en grupos basados en los prefijos de sus direcciones IP,
y cada grupo se reubica en diferentes per´ıodos de tiempo.
34

Tabla 4: Soluciones del ataque Eclipse
Tipo de Recursos
Estrategia Estrategia Adicionales DHT Extensible
Castro Resticción Tabla restringida Pastry
[10] estructural a espacios del DHT Tapestry S´ı
Hildrum peers más l peers más Pastry
[20] cercanos cercano por entrada Tapestry S´ı
Singh Limitar el indegree Conjunto de nodos Pastry
[46] y outdegree de un peer que apuntan al nodo Tapestry S´ı
Condie Entrada y salida de los Tabla restringida Pastry
[12] nodos periódicamente a espacios del DHT Tapestry S´ı
Cuckoo Entrada y salida de los Chord definido en
[3] nodos en una región Ninguno en el interválo (0,1] No
Por su parte, Awerbuch y Scheideler proponen un esquema basado en DHT seguro que
introduce el concepto de regiones en un espacio de identificadores [0, 1) [3]. Cada vez que un
nodo ingresa al sistema, recibe un identificador aleatorio generado por un grupo de nodos que
utilizan una técnica para compartir un secreto. Un nodo malicioso podr´ıa ingresar continuamente
al sistema hasta obtener algún identificador deseado, lo cual permitir´ıa que un atacante se
concentre en atacar una o más zonas del sistemas.
Para tratar este problema, la estrategia define un protocolo llamado regla cuckoo. Este pro-
tocolo establece que cuando un nuevo nodo entra a una región, todos los nodos en esa región
deben dejar el sistema y reingresar para obtener nuevos identificadores. Este protocolo garantiza
que las regiones están balanceadas con referencia al número de nodos en cada región y que cada
región posee una mayor´ıa de nodos honestos.
5.2.3. Discusión de las soluciones al ataque eclipse
En la Tabla 4 se muestra un resumen de las estrategias descritas que limitan el ataque
Eclipse. Como se puede observar, muchas de las estrategias han sido diseñadas para sistemas
P2P basados en DHT que tienen en cuenta métricas de proximidad a excepción de [3] que
está diseñado para un DHT similar a Chord, en el cual no se tienen en cuenta optimizaciones
de red, lo cual lo hace que no sea extensible a sistemas P2P basados en DHT como Pastry o
Tapestry.
Las estrategias que usan restricciones estructurales no aprovechan las optimizaciones que se
puedan hacer en la red subyacente. Es por esto que [10] hace uso de dos tablas, optimizada y
restringida, y solo usa la tabla restringida cuando el proceso que utiliza la tabla optimizada ha
fallado. Por su parte, Condie et al [12] afirma que como esta estrategia no tiene en cuenta el
envenenamiento progresivo de la tabla optimizada, el rendimiento se ve afectado debido al uso
frecuente de la tabla restringida.
35

Para solucionar este problema ellos proponen restaurar la tabla optimizada e inducir de
forma periódica la entrada y salida de nodos. Cabe anotar, que esta estrategia también afecta el
rendimiento debido a la continua actualización de información de enrutamiento y la migración
de datos. En general, cualquier estrategia que use entrada y salida de nodos de forma inducida
se ve afectada si ese proceso se realiza de manera frecuente.
Por otra parte, la estrategia propuesta por Hildrum y Kubiatowicz [20] es simple en términos
de implementación, pero depende de la confiabilidad de la medición de la métrica de distancia
en la red, el cual puede ser complicado debido a diferentes ataques que se pueden presentar en
la red subyacente. Por su parte, La estrategia que controla el in-degree y el out-degree de los
nodos [46], es totalmente distribuida pero puede afectar el número de mensajes en el sistema
P2P basado en DHT debido a que si se toman valores de umbral no adecuados, se pueden tener
muchas entradas vac´ıas. De esta discusión se deja claro que debe haber un buen balanceo entre
seguridad y rendimiento, no vale la pena tener una estrategia muy segura pero que sea ineficiente
y/o dif´ıcil de implementar.
36

6. SOLUCIONES A ATAQUE DE ENRUTAMIENTO
Castro et al. [10] proponen un esquema de enrutamiento seguro para mitigar el impacto de
los ataques de enrutamiento. El esquema explota la redundancia y la replicación para asegurar
que un mensaje que se env´ıa desde un nodo honesto, con alta probabilidad, llegará a todos
los nodos destino. Este esquema logra su propósito mediante la solución a tres sub-problemas:
asignación segura de identificadores a nodos (nodeId), mantenimiento seguro de las tablas de
enrutamiento y reenv´ıo de mensajes seguros.
Los ataques de enrutamiento pueden ocurrir en sistemas P2P no estructurados, por ejemplo,
un nodo que recibe un mensaje puede descartarlo o desviarlo a nodos incorrectos. Sin embargo,
como estos sistemas t´ıpicamente env´ıan el mensaje a un gran número de vecinos, a menos que
todos los vecinos sean maliciosos, el sistema es menos vulnerable a este tipo de ataques. Muchas
de las estrategias de enrutamiento seguro que se han implementado, se basan en los componentes
introducidos por Castro et al.
Esta sección se centra en el análisis de las estrategias de enrutamiento seguro (reenv´ıo de
mensajes seguros) y propone una taxonom´ıa para clasificarlas. La Figura 5 ilustra la taxonom´ıa
propuesta. A continuación se describe cada grupo de estrategias en las subsecciones 6.1, 6.2, 6.3.
6.1. Estrategias basadas en Redundancia
Las estrategias basadas en redundancia env´ıan múltiples mensajes a través de la red para
aumentar la probabilidad de llegar al nodo responsable de almacenar la llave solicitada. En este
grupo de estrategias se identifican dos estilos: multi-path y wide-path, las cuales se presentan
en las subsecciones 6.1.1 y 6.1.2 respectivamente.
Figura 5: Taxonom´ıa de soluciones al ataque de enrutamiento
37

6.1.1. Multi-path
Las estrategias que utilizan multi-path usan varios caminos para enviar un mismo mensaje
desde un nodo fuente a un nodo destino. Estos caminos se pueden caracterizar de dos maneras,
la relación fuente-destino (el conjunto de nodos destino tiene cardinalidad única o múltiple) y
la independencia (determinar si la intersección entre caminos es vac´ıa o no). Aqu´ı, discutiremos
algunas estrategias representativas que usan multi-path como las descritas en [10, 19, 26, 41].
Castro et al. busca resolver los problemas que definieron: proponen el uso de una entidad
central para asignación de identificadores, agregan una tabla restringida para el mantenimiento
de las tablas de enrutamiento, y rutas diversas y prueba de fallas para búsqueda incorrecta. Para
el problema de reenv´ıo de mensajes seguro, el nodo fuente usa la tabla optimizada de Pastry y
obtiene como resultado el conjunto de candidatos (replica roots), y le aplica una prueba para
comparar las densidades de los nodos en el conjunto de vecinos del nodo fuente con las densidades
de los nodos cercanos a los replica roots del destino. Si la prueba es negativa, el conjunto de
candidatos se aceptan como los correctos. De otra forma, los mensajes se env´ıan a los replica
roots a través de diferentes caminos usando la tabla restringida.
En esta estrategia, los caminos no son independientes y la relación fuente-destino tiene
cardinalidad única. Como resultado, si nodos maliciosos se ubicaran en las intersecciones de los
caminos o en el nodo fuente esta técnica puede verse comprometida. Con el objetivo de construir
caminos independientes, dos estilos de soluciones se han propuesto, las que usan particiones y
las que contactan nodos espec´ıficos durante el proceso de enrutamiento. Todas las estrategias
asumen que los identificadores de nodos se escogen de manera aleatoria. En el primer grupo se
encuentra Cyclone [41].
Este trabajo define una relación de equivalencia sobre el espacio de identificadores de nodos
de la siguiente manera: cada nodo x pertenece a una clase de equivalencia [r], donde x ≡ r mod
k (k es el número de particiones y generalmente se escoge como una potencia de 2). En la tabla
de contactos, cada nodo mantiene apuntadores a nodos en la misma clase de equivalencia y una
lista de vecinos con al menos k nodos, con lo cual asegura llegar a cualquier nodo en otra clase
de equivalencia.
El proceso de enrutamiento en Cyclone se hace a través de distintas particiones, es decir,
usando los vecinos en distintas clases de equivalencia. La Figura 6 ilustra el proceso de en-
rutamiento donde [k] representa el conjunto de nodos cuyos identificadores id, cumplen id ≡ k
mod 4. Aqu´ı, el nodo N0 va a enrutar un mensaje al nodo N25 usando 3 caminos. Primero, N1
solicita a N1 y N2 el enrutamiento del mensaje hacia N25. Luego, el mensaje se enruta a través
de cada partición, hasta llegar al nodo N25. Como se puede observar los caminos son independi-
entes. El proceso de mantenimiento de las tablas de enrutamiento es similar a los implementados
en Chord.
38

Figura 6: Proceso de enrutamiento de Cyclone
En el segundo grupo se encuentran las estrategias decritas en [19] y [26]. Este grupo de
estrategias construye caminos independientes a través del contacto de nodos especiales en la
red de manera simultánea. Harvesf and Blough [19] introducen un mecanismo de ubicación de
réplicas de una fuente a múltiples destinos para sistemas DHT como Chord, Pastry y Tapestry.
Para generar d caminos diferentes, se introduce el algoritmo MaxDisjoint. En particular, para
un Chord completo con tamaño N = 2m, un objeto identificado con llave k debe ser replicado
en las siguientes 2d−1 ubicaciones:
k, k+ N
2d−1 , k+2· N
2d−1 , . . ., k+(2d−1 -1)· N
2d−1
Otra estrategia llamada Halo [26], construye múltiples caminos usando el hecho que el destino
solicitado aparece en la tabla de enrutamiento de varios nodos, los cuales se llaman knuckles.
Para encontrar al nodo sucesor de k usando l caminos redundantes, un nodo p enruta varios
mensajes hacia los knuckles. En Chord, los knuckles se definen como el grupo de nodos que tienen
apuntadores hacia el sucesor de k. Formalmente, este conjunto se define como los predecesores
o sucesores de ri=k-2m−i donde m es el tamaño de Chord, para todo 1 ≤ i ≤ l.
Discusión La Tabla 5 resume las estrategias que se presentan arriba. Todas las estrategias usan
el estilo de enrutamiento recursivo debido al comportamiento inherente de estas soluciones. En
términos de flexibilidad para construcción de caminos, Halo ofrece un mejor desempeño porque
el número de caminos se puede escoger en tiempo de ejecución.
39

Tabla 5: Estrategias basadas en multi-path
Recursos Modifica
Estrategia nuevos y/o Independencia proceso de Mantenimiento
modificados de Caminos enrutamiento
Pastry-Mod I [10] Tabla Restringida No S´ı Tabla Restringida
Cyclone [41] Ninguno S´ı S´ı Igual que Chord
Depende del tama~no
Replica [19] Ninguno de la red No Igual que Chord
Depende del tama~no
Halo [26] Ninguno de la red S´ı Igual que Chord
En cuanto a la implementación, las estrategias de ubicación de réplicas y Halo requieren
menor esfuerzo en comparación con las dos restantes, porque estos no cambian los protocolos
del sistema DHT subyacente. Sin embargo, la estrategia de ubicación de réplicas requiere un
número exponencial de réplicas, las cuales pueden degradar el desempeño del sistema. Por su
parte, como cada réplica se puede acceder de manera independiente en la estrategia de ubicación
de réplicas, ésta tiene la ventaja sobre Halo y Cyclone de mitigar el ataque de almacenamiento
y recuperación de datos.
Para estas estrategias, el número de mensajes generados es proporcional al número de
caminos. Cuando d rutas se usan, el número de mensajes es O(d*h), donde h es el número
de saltos esperados en el sistema DHT subyacente. Ahora, sea f la probabilidad de que un nodo
sea malicioso, entonces, la probabilidad de llegar al destino es (1 − f)h. Si d caminos indepen-
dientes se consideran y siendo X la variable binomial aleatoria que representa el número de
caminos exitosos, entonces
Pr(fallo)≤Pr(X=0)=(1 − (1 − f)h)d (1)
De la Ecuación 1 se sigue que Pr(Failure) disminuye cuando d aumenta. Este tipo de
soluciones no son escalables porque, para obtener Pr(Failure) ≤ δ, donde δ es una constante,
el número de rutas debe ajustarse en un polinomio de n, lo cual resulta en tráfico excesivo. De
hecho, si h = c logb n, se cumple que (1 − (1 − f)c logb n)d exp(−dn
c ln(1−f)
ln(b) ), lo cual implica que
para que Pr(Failure)≤ δ, d debe ser por lo menos ln(1
δ )n
−
c ln(1−f)
ln(b) .
6.1.2. Wide-path
Las estrategias que utilizan wide-path buscan enviar mensajes a un grupo de nodos (quorum)
en cada paso. Una solicitud sólo falla si todos los nodos dentro de un quorum son maliciosos.
En cuanto a implementación, se pueden utilizar los estilos de enrutamiento iterativo y recursivo.
En el primero, el iniciador solicita a un quorum de l nodos, el conjunto de nodos con los cuales
se construirá el próximo quorum. En la segunda, cada quorum intermedio env´ıa el mensaje
directamente al próximo quorum.
40

Debido a la importancia de la estructura de quorums, varios estudios como [3, 4, 45] buscan
mantener invariantes en los quorums, tales como que un quorum de tamaño Θ(log(n)) posee a
lo más una fracción de nodos adversarios, donde < k y k son constantes pequeñas. Varios
trabajos [3, 33, 40, 44] han utilizado wide-paths para mitigar el ataque de enrutamiento, pero
la mayor´ıa son teóricos. Aqu´ı, se discutirán trabajos que se han desarrollado en sistemas P2P
DHT tradicionales.
Hildrum y Kubiatowicz buscan resolver dos problemas: mantenimiento de tablas de en-
rutamiento y búsqueda incorrecta [20]. El primero se soluciona incrementando el número de
nodos por entrada en la tabla de enrutamiento, porque cuando la fracción de nodos maliciosos
es pequeño, es dif´ıcil para un nodo malicioso ser vecino de muchos nodos honestos. El segundo lo
solucionan usando wide-path con enrutamiento iterativo. Su propuesta se define para Pastry y
Tapestry como el sistema DHT subyacente, donde cada entrada de la tabla de enrutamiento es
ahora un conjunto de los l nodos más cercanos (en términos de distancia de red) con ese prefijo.
S-Chord propone una modificación para Chord resistente al ataque bizantine join [18]. Este
ataque ocurre sobre un per´ıodo de tiempo en donde (1/4− )z nodos maliciosos ingresan a la red
(z es el l´ımite inferior del número de nodos en la red) y el número de nodos correctos que entran y
salen de la red es a lo más zk para algún parámetro k. La estrategia asume que los identificadores
en Chord están en el intervalo (0,1]. Cada nodo p obtiene un identificador aleatorio, incrementa
su lista de vecinos para mantener apuntadores a nodos en el intervalo [p − 2C ln(n)
n , p + 2C ln(n)
n ]
y cada finger i mantiene nodos en los intervalos [p + 2i − C ln(n)
n , p + 2i + C ln(n)
n ] y [p − 2i −
C ln(n)
n , p − 2i + C ln(n)
n ], donde C es un parámetro del sistema y n el número de nodos.
Para el proceso de enrutamiento, cada quorum es un swarm3 y este proceso se realiza de
forma recursiva usando el camino inverso para la respuesta. Durante cualquier paso intermedio,
cada nodo puede verificar si una solicitud proviene de nodos vecinos que se encuentran en su
lista de backpointers. Como el proceso tiene una latencia de O(log(n)) y requiere O(log3
(n))
mensajes, ellos proponen una manera para minimizar estos valores mediante el uso de funciones
hash. Para esto, cada nodo p en un swarm intermedio, sólo env´ıa un mensaje para otro nodo
q en el siguiente swarm si h(p) = h(q) mod log(n), donde h es la función de hash que mapea
nodos a enteros positivos y log(n) es el tamaño del swarm, y de la misma manera un nodo puede
descartar solicitudes. Con este filtro el número de mensajes esperado es O((log(n))2).
Una estrategia que usa topolog´ıa de quorum como la descrita en la propuesta anterior se
encuentra en [54]. Cada quorum Qi tiene una llave privada y pública que se comparte entre
los nodos usando técnicas para compartir un secreto y un algoritmo de distribución de llaves.
Cada nodo dentro del quorum Qi conoce la llave pública de los quorums vecinos. El proceso de
enrutamiento usa el estilo iterativo, pero en el primer paso el iniciador, p, env´ıa su dirección IP,
id, un time-stamp y la llave solicitada. Luego, p recibe las partes de las firmas y la información
de enrutamiento, y genera la firma correspondiente. Luego, contacta el conjunto de nodos del
próximo quorum y les env´ıa la firma y time-stamp. Con esto se puede verificar si p ha contactado
quorums previos y de esta manera prevenir ataques de denegación de servicios (DoS).
3
Conjunto de nodos en el intervalo (p, p + C ln(n)
n
].
41

Enrutamiento seguro DHT

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (15)

Destacado

Destacado (6)

Similar a Enrutamiento seguro DHT

Similar a Enrutamiento seguro DHT (20)

Enrutamiento seguro DHT