SlideShare una empresa de Scribd logo
1 de 6
Descargar para leer sin conexión
Modelos para la Estimación de una Cota Superior del Número Cromático de
Grafos Aleatorios Usando Regresión Lineal
Gustavo Dejean, Departamento de Computación
Universidad Nacional del Oeste
San Antonio de Padua, Pcia. de Buenos Aires
email: dejean2010@gmail.com
Resumen
La contribución principal del presente trabajo es
mostrar cómo, usando técnicas del análisis de regresión
lineal, se pueden establecer cotas superiores a los
números cromáticos de los grafos aleatorios.
Se analizaron 3690 grafos aleatorios entre los rangos
del 1% al 90 % de adyacencia y entre 100 nodos a 500
nodos. Para cada uno de ellos, se obtuvo una
aproximación a su número cromático con un algoritmo
simple y optimizado, para obtener un mejor
acercamiento a su número cromático. Se obtuvo una
superficie tridimensional: % de adyacencia – cantidad
de nodos y mejor coloración obtenida. Por último se
usaron métodos de análisis de regresión lineal para
obtener un buen Modelo estimador. Se probaron muchas
variables candidatas. Se determinó que el grado mínimo
de los grafos aleatorios es un buen estimador de la cota
superior de su número cromático usando Regresión
Lineal Simple. Otro modelo más preciso, usando
Regresión Multilineal, mejoró el anterior modelo.
Ambos Modelo son una mejora sustancial en
comparación a la cota del teorema de Brooks [1]. Los
resultados son válidos dentro de los rangos probados.
1. Introducción
Los grafos aleatorios constituyen una importante
rama de la Teoría de Grafos. Los primeros estudios datan
de principios de la década de 1950 [2,3], casi diez años
después, los investigadores P. Erdös y A. Renyi
descubriendo importantes propiedades en esta clase de
grafos, introduciendo el término “Teoría de Grafos
Aleatorios” a esta área del conocimiento [4,5]. El
objetivo de Erdös, fue estudiar el Método Probabilístico,
sin embargo, actualmente, los grafos aleatorios, tiene
aplicaciones muy diferentes a los objetivos originales de
su creador, y se utilizan en diversas áreas del
conocimiento como ser: las Redes Sociales, Modelos de
Epidemias, de Comunicaciones y Biológicas. Para cada
aplicación, pueden surgir diferentes variantes de los
grafos aleatorios de Erdös: Grafos Geométricos
Aleatorios, Regulares Aleatorios, Planares aleatorios y
árboles aleatorios. El Modelo básico de Erdös, sigue
teniendo plena vigencia y es campo de estudio en la
actualidad. La coloración de grafos consiste en asignar
un color a cada nodo de un grafo de manera tal que no
queden dos nodos adyacentes con el mismo color. A la
cantidad mínima de colores necesarios para colorear un
grafo se la llama el número cromático del grafo,
denotado por χ (G) [1]. Cada grafo tiene un número
cromático asociado, que puede tomar valores dentro del
rango que va desde 1 hasta N, (1 ≤ χ (G) ≤ N) siendo N
la cantidad de nodos del grafo. Un grafo completamente
conexo es un grafo simple, donde cada par
de vértices está conectado por una arista. Los grafos
completamente conexos necesitan de N colores y un
grafo sin aristas necesita solamente un color. La cantidad
de arcos que tiene un grafo completamente conexo es n
(n-1) / 2.
Hallar el número cromático de un grafo es un problema
NP-Hard, por lo cual, es importante tener un modelo
para estimar su valor. Un gafo aleatorio G(N, p), es un
gafo donde cada arco tiene una probabilidad p de existir.
Si p = 0.5, la cantidad promedio de arcos que habrá en
los grafos G(N, 0.5) será la mitad de la máxima cantidad
de arcos posible, esto es: n x (n-1)/ 4. (donde n es la
cantidad de nodos que tiene el grafo). Un Grafo regular
G(N,k) es un grafo donde cada nodo tiene exactamente
grado k. El porcentaje de adyacencia de un grafo se
calcula en función de la cantidad máxima posible de
arcos:
%ady = cantidad de arcos x 100 x 2 / n x (n – 1)
Se define la densidad de un grafo como el coeficiente
entre la cantidad de arcos que tiene y la cantidad
máxima de arcos posibles:
densidad = 2 x cantidad de arcos / n x (n – 1)
En los grafos aleatorios, la densidad es aproximadamente
igual a la probabilidad p. Por lo tanto, a p lo podemos
expresar como:
p ≈ densidad
La cota superior de χ (G) más usada y conocida es la del
Teorema de Brooks, de 1941 [1,6] que dice: Sea G un
grafo conexo que no es ni completo ni un ciclo impar.
Entonces χ (G) ≤ ∆ (G); donde ∆ (G) es el grado
máximo de G. Otro teorema menos restrictivo es el
Teorema de Vizing (1964) [1, 6] y dice: Para todo grafo
G se tiene χ (G) ≤ ∆ (G) +1. La cota inferior más usada
está relacionada a la existencia de subgrafos
completamente conexos o cliquer, Un k-cliquer necesita
exactamente k colores para colorearlo. Si un grafo G
contiene un k-cliquer, entonces se tiene que su número
cromático no podrá ser inferior a k, por lo tanto será una
cota inferior, esto es: k ≤ χ (G). Esta cota inferior, en la
práctica, es poco útil pues determinar si un grafo
contiene un k-cliquer es también un problema NP-
completo. Otra cota inferior está relacionada con la
saturación de aristas y también son malas cotas para los
grafos regulares y aleatorios.
La contribución principal del presente trabajo es mostrar
cómo, usando técnicas del análisis de regresión lineal, se
pueden establecer cotas superiores a los números
cromáticos de los grafos aleatorios.
En las secciones siguientes, se describen la construcción
del lote experimental, la selección y mejoras del
algoritmo básico usado para obtener una cota superior de
χ (G) y la construcción del conjunto de datos para el
análisis de Regresión Lineal. Luego, se muestra un
gráfico tridimensional donde se observa como es la
superficie que describe el comportamiento de las cotas
superiores halladas del número cromático en grafos
aleatorios. Por último, se detalla el análisis realizado
sobre el conjunto de datos experimentales y dos
modelos de ajuste obtenidos con su correspondiente
error.
2. Elementos del Trabajo y metodología
2.1. Construcción de un lote de casos
experimentales
Para hallar una cota superior del número cromático
primeramente se construyó un lote de datos
experimental, consistente en 3690 archivos, cada uno de
ellos representa un grafo aleatorio con una determinada
probabilidad pi y una determinada cantidad de nodos Ni.
Para crear el lote experimental, se preparó un algoritmo
generador de grafos aleatorios, dándole como input 6
parámetros: las cantidades iniciales y finales, de nodos y
de probabilidad, y el incremento para ambos
parámetros. Los mismos, se inicializaron con N= 100
hasta N=500 con un incremento de 10; y desde p=0,01
hasta p=0,90 con un incremento de 0.01. Esto permitió
obtener un lote de casos experimentales que abarcó un
rango grande de valores posibles de N y p. El programa
se desarrolló en Java y se usó la función rand para crear
dichos grafos.
2.2. Elección del algoritmo para obtener una
cota superior de χ(G) para cada grafo
A esta fase se la puede dividir en tres etapas:
estudio del comportamiento de tres algoritmos
conocidos, pero que en la literatura no se encuentran
referencias a su comportamiento relativo. 2da etapa:
mejoramiento de los algoritmos con técnicas pseudo-
probabilísticas o por saturación de combinaciones
aleatorias y análisis de resultados obtenidos. La tercer
etapa fue adaptar el mejor algoritmo para hacerlo más
eficiente y obtener una cota superior del χ (G) para cada
grafo. Los algoritmos básicos implementados fueron los
siguientes: Wells-Powell, Matula y el secuencial o
aleatorio. Téngase presente que en esencia se tratan del
mismo algoritmo y que solamente se diferencian en la
heurística usada para procesar su input. En general, es
de uso práctico obtener una cota del número cromático
tomando un resultado de alguno de estos algoritmos [10]
para luego optimizarlo con algoritmos que usan
técnicas avanzadas como ser simulated annealing [11] o
Ants algorimos [14] y branch and cut [13]. Para elegir la
mejor cota, se estudió el desempeño relativo de los tres
algoritmos básicos o heurísticas. Se ejecutó cada uno de
estos algoritmos 1000 veces para colorear tres grafos
con p= 50, 75 y 80% de adyacencia. Al graficar los
resultados en tres histogramas (uno por cada grafo) se
concluyó que los mejores resultados (para este tipo de
grafos) siempre son del algoritmo de Powell, seguido por
el aleatorio. También se observó que al ejecutar el
mismo algoritmo muchas veces se alcanzan mejoras
que llegan al 10% para cualquiera de los tres algoritmos.
A esta técnica la podemos considerar como buscar una
saturación de coloraciones posibles al ejecutar miles de
veces cada algoritmo. Una vez seleccionado el algoritmo
de Powell, se lo optimiza para que use sus propios
resultados intermedios como poda en cada iteración, a
fin de poder procesar la mayor cantidad de veces cada
grafo en un tiempo mínimo. Se usó como corte el
resultado obtenido en la primera pasada y luego cada vez
que se obtuvo una menor cantidad de colores, se tomó
este nuevo valor para cortar cualquier otra ejecución que
requiera más de ese número. Se realizaron 10 mil
corridas para cada uno de los 3690 grafos del lote
experimental. La mejor coloración que generó para cada
grafo (menor número), se grabó en un archivo junto con
los datos físicos del grafo. A parte, en otro archivo, se
guardó el grafo coloreado. Todos los resultados se
comprobaron con otro programa probador para verificar
el correcto funcionamiento del algoritmo de coloreo.
2.3 Preparación del conjunto de datos para el
análisis
El conjunto de datos se formó de la siguiente
manera: una fila por cada archivo del lote experimental
(3690 filas) y teniendo como variables (columnas) los
datos físicos de cada archivo del lote experimental, esto
es, cantidad de nodos, cantidad de arcos, porcentaje de
adyacencia, cantidad de arcos, grado máximo, grado
mínimo, promedio entre el grado máximo y grado
mínimo, densidad, densidad al cuadrado, densidad al
cubo, grado máximo multiplicado por la densidad, y
muchas combinaciones más, la variable objetivo o clase
es el menor número obtenido en la coloración. Obsérvese
que muchas variables son recalculables a partir de otras,
pero lo que interesa aquí, es encontrar “la mejor
variable” para predecir a la variable objetivo, así es que
en el trabajo, se probaron muchas otras variables que
se fueron dejando de lado a medida que se demostraba
que eran no significativas. Se utilizaron dos programa
específicos para el estudio del análisis de regresión
lineal: SPSS® y JMP®.
Figura 1: cotas superiores halladas para cada grafo del
lote experimental luego de ejecutar el algoritmo de
Powell diez mil veces por cada grafo.
En la Figura 1, se muestra como se distribuyeron
los resultados de las diez mil corridas para cada
archivo del lote experimental. Puede observarse que en
el rango del 10% de adyacencia al 80% de adyacencia
los resultados se mantienen aproximadamente lineales
con respecto al porcentaje de adyacencia y cantidad de
nodos. Mientras que a valores superiores al 80% de
adyacencia, los valores se disparan notablemente.
3. Resultados
Primeramente se encontró un Modelo Lineal
Simple, fácil de usar y calcular. Para ello, se analizaron
numerosas variables. El análisis visual de las gráficas de
dispersión, probó que el grado mínimo de un grafo
aleatorio es un buen estimador para el rango de valores:
0,01 ≤ p ≤ 0,80 y 100 ≤ N ≤500. El Modelo Lineal
Simple (MLS) hallado para ese rango de valores es:
estimación(MLS) de χ (G) =
6,198 + 0,302 * grado mínimo
Este modelo tiene un valor para el estadístico de R
cuadrado de 0,991; con un error estándar de la
estimación de 2,321. Los residuos mínimos y máximos
son: -7,89 y 9,40 respectivamente y el residuo medio es
igual a cero. El p-value es igual 0. En la figura 2, se
muestra el gráfico de dispersión y la recta obtenida y en
la figura 3, se muestra como se distribuyen los residuos
de la estimación. Lo anterior indica que se trata de un
muy buen ajuste. Este Modelo predice, por ejemplo, que
un grafo aleatorio G(N,p) con N, p dentro del rango de
valores especificado, su número cromático está acotado
por:
χ (G) ≤ estimación(MLS) + 3*error estándar
donde la estimación se obtiene aplicando el modelo y
el error estándar es 2,321; Se debe sumar a la estimación
del Modelo, el triple de su error estándar para obtener
una cota superior confiable al 99,74 %. Todo esto,
gracias a que se demostró que los residuos siguen una
distribución Normal. Formalmente se expresa como una
probabilidad:
P[ χ (G) ≤ estimación (MLS) + 3*error estándar] ≈ 0,9974
Por ejemplo: Si se quiere obtener la cota superior de un
grafo G(N,p) con N y p dentro del rango de valores
especificado, y cuyo grado mínimo sea igual a 78, se
calcula:
estimación(MLS) + 3*error estándar = 29,75 + 6,96 = 36,71
o sea: P[ χ (G) ≤ 36,71] ≈ 0,9974
Por el contrario, la probabilidad de que dicho grafo tenga
un número cromático superior a los 36 colores es de
0.0026, esto es de: (1 – 0.9974). En el lote experimental,
se tienen 22 casos con grado mínimo igual a 78 y todos
cumplen con la desigualdad ≤ 36.
Figura 2. Gráfico de dispersión y la recta que lo ajusta.
El resultado queda expresado en forma independiente a
los valores de N y p, y se observan casos donde, con
distintos valores de N y de p, si su grado mínimo
coincide, la estimación es aproximadamente la misma
para todos. Todos los supuestos del Modelo lineal simple
se cumplen menos el de Durbin-Watson (1951) ya que
el valor de este estadístico da 0,86 y esto indica que los
residuos no son totalmente independientes [7,8].
Efectivamente, los errores se hacen más grandes a
medida que aumenta la variable dependiente. A pesar
de este incumplimiento, en el lote experimental se
verificó que, solamente en 59 casos de los 3239 casos,
la estimación más 3*error estándar es inferior a la
cantidad de colores obtenida con el algoritmo, esto
represente que solamente el 0,018% de los casos
sobrepasaron la cota superior propuesta. En la práctica,
no hace falta sumar tres veces su error estándar, pues
como ya se dijo, el algoritmo usado para construir el
lote experimental es básico y existen muchos algoritmos
que usan técnicas avanzadas y producen resultados que
se encuentran muy por debajo de los utilizados aquí.
Figura 3. Histograma de los de los residuos para el
modelo regresión Lineal Simple
Para mejorar el error de la estimación, se halló un
segundo Modelo Lineal de Regresión Múltiple (MLRM):
estimación(MLRM) de χ (G) =
donde: d = densidad y dgradoMax = d * grado_max
Obsérvese que en particular se trata de un modelo
polinómico cúbico, pero haciendo las transformaciones
triviales se puede escribir como un modelo Lineal
Múltiple [7]. Este modelo, da un mejor ajuste que el
modelo lineal simple para el rango de valores ya
considerado. El estadístico R cuadrado es de 0.999, y el
error estándar de la estimación es de 0,703. Los residuos
mínimos y máximos son de -3,707 y 3,378
respectivamente, con una media igual a cero. En la figura
4 se muestra como se distribuyen los residuos de la
estimación usando el Modelo de Regresión Lineal
Múltiple y en la figura 5, se muestra la gráfica de
probabilidad Normal. Esto demuestra que el Modelo
cumple el supuesto de Normalidad de los Residuos. El
estadístico Durbin-Watson que proporciona información
sobre el grado de independencia entre los residuos es
igual a 1,733; por lo tanto, se puede afirmar que el
Modelo cumple con el supuesto de Independencia de los
Residuos. Todo esto dentro del rango de valores ya
mencionado. Si se reemplaza el valor de d por el de
p, se obtiene una aproximación aceptable.
Figura 4. Histograma de los de los residuos para el
modelo regresión Múltiple
Análogamente a como se procedió en el MLS, se
tiene:
P[ χ (G) ≤ Estimación (MLRM) + 3*error estándar] ≈ 0,9974
Se verificó que en el lote experimental, solamente en 23
casos de los 3239 casos, la cota calculada con el Modelo
fue inferior a la cantidad de colores obtenida con el
algoritmo, esto represente que solamente el 0,007% de
los casos, sobrepasaron la cota superior propuesta.
Por ejemplo, si tenemos un grafo aleatorio
G(N=300,p=0.4) y con grado máximo igual a 96, su
número cromático está acotado superiormente, con una
probabilidad de 0.9974 por 35 colores:
χ (G) ≤ estimación(MLRM) + 3 * error estándar = 35,78
En este caso, la estimación aplicada al Modelo es 33,68
y el error estándar es igual a 0,703. En la Tabla 2, tercera
fila, se muestra este caso, que pertenece al lote
experimental. Obsérvese que la cota del Teorema de
Brooks, para este caso, da 147 (su grado máximo), y
queda lejos de la cota obtenida aplicando el Modelo.
Nuevamente es oportuno aclarar que, en la práctica, no
hace falta sumar tres veces su error estándar por las
mismas razones ya mencionadas.
Una limitante del modelo, era que su validez estaba
solamente dentro del rango de valores específico. Para
validar su poder de predicción fuera de ese rango, se
construyó otro lote experimental compuesto por 187
grafos aleatorios que van desde 0 ≤ p ≤ 0,80 y 500 ≤ N
≤1000, con paso de 0.05 para p y de 50 para N. A estos
grafos se les ejecuto el mismo algoritmo que a los
anteriores y también con 10000 corridas, para cada
grafo. Al nuevo conjunto de datos obtenido, se le
aplicaron ambos modelos, sin aplicar la suma del error
estándar. En el caso del Modelo lineal de regresión
simple (MLRS), las estadísticas descriptivas de los
residuos fueron: cantidad de casos= 176; mínimo valor:
-9,7; máximo valor: 26,16; suma= 1353; media= 7,69;
Figura 5. Gráfico P-P, que prueba visualmente la
distribución Normal de los residuos
desviación estándar= 7,51. Es decir, que los residuos no
siguen una distribución Normal ni su media es cero. Sin
embargo, puede notarse que como cota superior es
válida, pues los residuos están desplazados hacia los
valores positivos, esto es porque la pendiente verdadera
para este nuevo rango de valores es de 0.281 o sea que es
menor que la del MLRS usado. En el caso del Modelo
Multilineal, las estadísticas descriptivas de los residuos
dan mejores resultados: cantidad de casos= 176; mínimo
valor: -2,9; máximo valor: 11,76; suma= 479; media= -
2,72; desviación estándar= 2,63. Se observa también que
los residuos no siguen la distribución Normal, pero su
media está desplazada hacia los valores positivos, por
este motivo, se puede afirmar que el Modelo sigue
siendo aceptablemente bueno en el nuevo rango de
valores, aunque se observe cierta degradación en el
ajuste del modelo. Otra prueba, realizada para ambos
modelos fue testearlos con los datos experimentales
documentados en el trabajo de Davis Johnson [11]. En
dicho trabajo, en las tablas I, II,V y VI, se muestran
resultados experimentales para grafos aleatorios de 125,
250, 500 y 1000 nodos con p=0,1; 0,5 y 0,9; los
resultados obtenidos en aquel experimento, para el
algoritmo RLF (Recursive Larges First) son bastante
semejantes a los mostrados en el presente trabajo para el
grafo de 125 nodos donde la diferencia es de dos colores
y se agranda la diferencia para N=500 (67 en el
presente trabajo vs. 49). Para otros algoritmos más
eficaces usados en [11], la diferencia es aún mayor.
El grado máximo se calculó aproximadamente a partir de
los datos del lote experimental. Aplicando el MRLM se
obtiene que en todos los casos se cumplen las cotas
propuestas, incluso los cuatro casos que corresponden a
p=0.9 que está fuera del rango aplicable al modelo por
no haber sido tenido en cuenta en el cálculo del Modelo.
En todos los casos, se obtuvo una cota superior muy
alejada de la cota del Teorema de Brook.
4. Conclusiones
Ambos Modelos de Regresión Lineal presentados,
predicen una mejor cota superior del número cromático
de grafos aleatorios que la del Teorema de Brooks. En la
tabla 2, se muestran los residuos para ambos modelos
para un conjunto de grafos sacados del primer lote
experimental, se puede observar que los residuos para el
MLRM varían entre uno y cero, mientras que la cota de
Brooks (el grado máximo) en todos los casos, toma
valores muy alejados de los resultados obtenidos con el
algoritmo de Powell modificado, esto origina residuos
muy grandes y por ese motivo, la cota de Brooks, no es
una buena cota ni tiene utilidad práctica. La limitante de
ambos modelos, es que su validez está dentro de un
rango de valores. El Modelo Lineal de Regresión
Simple, es más limitado que el MLRM, tanto en la
calidad de la cota, medida con el error estándar de las
estimaciones, como en la robustez frente a cambios en
los rangos de valores de p y N. En contraparte, el MLS
tiene la simpleza de poder predecir la cota superior como
la tercera parte de su grado mínimo aproximadamente.
Los Modelos presentados, se hicieron a partir de
coloraciones encontradas con un algoritmo simple, aun
cuando se hayan corrido miles de veces, es conocido
que existen otras soluciones que usen menos colores.
Así es de esperar, que las cotas que dan ambos modelos
sean holgadas y se podrían mejorar. Esta partida de
malas coloraciones puede estar ocultando una naturaleza
“más lineal” de la figura 1, pues la diferencias van
creciendo con el valor de p. El estudio realizado se
puede extender fácilmente a los grafos regulares (grado
mínimo = grado máximo) ya que estos tiene un
comportamiento parecido a los grafos aleatorios por el
motivo que cuando p aumenta, el grafo aleatorio tiende
a ser muy regular. El análisis de regresión multivariante
puede ser una herramienta útil para buscar cotas para
otros algoritmos NP-completos, más en los casos donde
no importa los detalles del resultado final sino solamente
una estimación de su resultado óptimo. Queda abierta la
tarea de encontrar otro Modelo que abarque rangos de
valores mayores a los estudiados y que parta de un
conjunto de datos donde la variable objetivo sea el
resultado de la aplicación de algoritmos avanzados.
Agradecimientos
A las autoridades de la Universidad Nacional del
Oeste y en especial al Mg. Antonio Fotti, por facilitar la
tarea de investigación.
Referencias
[1] Diestel M. Graph Theory, Springer ed., Graph Theory
GTM, 4th edition 2010
[2] Rapaport A., Contribution to the Theory of Random and
Biased Nets, Bulletin of Mathematical Biophysics 19, 257-277
(1957)
[3] Solomono R., Rapoport A., Connectivity of Random Nets,
Bulletin of Mathematical Biophysics 13, 107-117 (1951)
[4] Erdös P., Renyi A, On Random Graphs, Publ.Math,
(Debrecen) 6,290. (1959).
[5] Erdös P., Renyi A, On the Evolution of Random Graphs,
Publications of the Mathematical Institute of the Hungarian
Academy of Sciences 5, 17-61 (1960).
[6] Molloy M., Reed B., Graph Colouring and the Probabilistic
Method. Springer Science & Business Media, 2001
[7] Montgomery - Peck - Vining, Introducción al análisis de
Regresión Lineal. Editado en: México, Compañía Editorial
Continental. 2006
[8] Johnson Dallas E., Métodos Multivariados Aplicados al
análisis de Datos. Editado en: México, International Thomson
Editores, 2000.
[9] Pérez Lopez, César. Minería de Datos, Técnicas y
Herramientas. Editorial: Thomson. (cap 12 y 13) 2007.
[10] Ozon Javier. Contribución al coloreo de grafos y a las
redes pequeño mundo. Tesis Doctoral - Universitat Politècnica
de Catalunya (2001).- http://hdl.handle.net/10803/5844;
visitado el 19/08/2014
[11] Johnson David – Aragon C. Optimization by simulated
annealing: An experimental evaluation; part II,graph coloring
and number partitioning. Operations Research. Vol. 39, No.3,
May-June 1991 (1990.).
[12] Douglas West. Introduction to Graph Theory. Prentice
Hall, 2000.
[13] Severin, Daniel E. Estudio poliedral y algoritmo branch-
and-cut para el problema de coloreo equitativo en grafos. Tesis
presentada para optar al título de Doctor de la Universidad de
Buenos Aires en el área Ciencias de la Computación. 2012
[14] Vesel A., Zerovnik J. How Well Can Ants Color Graphs?
Journal of Comuting and Information Technology – CIT 8,
2000, 2, 131-136. -
http://www.researchgate.net/publication/47397330_How_Well
_Can_Ants_Color_Grap
_6$=_ /___@ S__ _____ !____ __@__ _" _____ _ _ _5 ________ !_______
____________ _%_(%2+5%+%_ _++6_
Datos de Contacto: dejean2010@gmail.com

Más contenido relacionado

La actualidad más candente (6)

Ejercicios parcial1
Ejercicios parcial1Ejercicios parcial1
Ejercicios parcial1
 
Act 13 erlang c
Act 13 erlang cAct 13 erlang c
Act 13 erlang c
 
Optimizacion josreny
Optimizacion josrenyOptimizacion josreny
Optimizacion josreny
 
Examen resuelto metodos numericos
Examen resuelto metodos numericosExamen resuelto metodos numericos
Examen resuelto metodos numericos
 
Funcion
FuncionFuncion
Funcion
 
Progracion numerica
Progracion numericaProgracion numerica
Progracion numerica
 

Similar a Modelos de regresión para estimar el número cromático de grafos aleatorios

Mpinning Gy Alg9(Conteo)
Mpinning Gy Alg9(Conteo)Mpinning Gy Alg9(Conteo)
Mpinning Gy Alg9(Conteo)Spimy
 
Presentación OR Problemas de Caminos Más Cortos
Presentación OR Problemas de Caminos Más CortosPresentación OR Problemas de Caminos Más Cortos
Presentación OR Problemas de Caminos Más CortosRosa E Padilla
 
Slideshare analisis numerico
Slideshare analisis numericoSlideshare analisis numerico
Slideshare analisis numericoMarioColmenarez1
 
Simulación en Ing. Eléctrica - Aproximación de funciones
Simulación en Ing. Eléctrica - Aproximación de funcionesSimulación en Ing. Eléctrica - Aproximación de funciones
Simulación en Ing. Eléctrica - Aproximación de funcionesCarlos Vergara Branje
 
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricosGenerador de números aleatorios, pseudoaleatorios, cuasialeatoricos
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricosNorlan0987
 
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos I
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos IGenerador de números aleatorios, pseudoaleatorios, cuasialeatoricos I
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos INorlan0987
 
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricosGenerador de números aleatorios, pseudoaleatorios, cuasialeatoricos
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricosNorlan0987
 
T7 Alg Mult Matr
T7 Alg Mult MatrT7 Alg Mult Matr
T7 Alg Mult MatrFcoKraken
 
Método del trapecio - grupo 5 UNI profe Naupay
Método del trapecio - grupo 5 UNI profe NaupayMétodo del trapecio - grupo 5 UNI profe Naupay
Método del trapecio - grupo 5 UNI profe Naupaygemc12
 
Informe collaguazo herrera_venegas
Informe collaguazo herrera_venegasInforme collaguazo herrera_venegas
Informe collaguazo herrera_venegasJonathan Herrera
 
Informe collaguazo herrera_venegas
Informe collaguazo herrera_venegasInforme collaguazo herrera_venegas
Informe collaguazo herrera_venegasJonathan Herrera
 
RAÍCES DE ECUACIONES
RAÍCES DE ECUACIONESRAÍCES DE ECUACIONES
RAÍCES DE ECUACIONESJenny López
 
Parámetros log normal3p
Parámetros log normal3pParámetros log normal3p
Parámetros log normal3pKarol Esplana
 

Similar a Modelos de regresión para estimar el número cromático de grafos aleatorios (20)

Mpinning Gy Alg9(Conteo)
Mpinning Gy Alg9(Conteo)Mpinning Gy Alg9(Conteo)
Mpinning Gy Alg9(Conteo)
 
Metodo de biseccion en matlab
Metodo de biseccion  en matlabMetodo de biseccion  en matlab
Metodo de biseccion en matlab
 
Raices deecuaciones
Raices deecuacionesRaices deecuaciones
Raices deecuaciones
 
Presentación OR Problemas de Caminos Más Cortos
Presentación OR Problemas de Caminos Más CortosPresentación OR Problemas de Caminos Más Cortos
Presentación OR Problemas de Caminos Más Cortos
 
numerosAleatorios.pptx
numerosAleatorios.pptxnumerosAleatorios.pptx
numerosAleatorios.pptx
 
Slideshare analisis numerico
Slideshare analisis numericoSlideshare analisis numerico
Slideshare analisis numerico
 
Simulación en Ing. Eléctrica - Aproximación de funciones
Simulación en Ing. Eléctrica - Aproximación de funcionesSimulación en Ing. Eléctrica - Aproximación de funciones
Simulación en Ing. Eléctrica - Aproximación de funciones
 
Algoritmos Evolutivos
Algoritmos EvolutivosAlgoritmos Evolutivos
Algoritmos Evolutivos
 
Taller yacimientos ii
Taller yacimientos iiTaller yacimientos ii
Taller yacimientos ii
 
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricosGenerador de números aleatorios, pseudoaleatorios, cuasialeatoricos
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos
 
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos I
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos IGenerador de números aleatorios, pseudoaleatorios, cuasialeatoricos I
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos I
 
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricosGenerador de números aleatorios, pseudoaleatorios, cuasialeatoricos
Generador de números aleatorios, pseudoaleatorios, cuasialeatoricos
 
T7 Alg Mult Matr
T7 Alg Mult MatrT7 Alg Mult Matr
T7 Alg Mult Matr
 
Ejercicios de Programación Matemática Aplicada
Ejercicios de Programación Matemática Aplicada Ejercicios de Programación Matemática Aplicada
Ejercicios de Programación Matemática Aplicada
 
Método del trapecio - grupo 5 UNI profe Naupay
Método del trapecio - grupo 5 UNI profe NaupayMétodo del trapecio - grupo 5 UNI profe Naupay
Método del trapecio - grupo 5 UNI profe Naupay
 
Informe collaguazo herrera_venegas
Informe collaguazo herrera_venegasInforme collaguazo herrera_venegas
Informe collaguazo herrera_venegas
 
Informe collaguazo herrera_venegas
Informe collaguazo herrera_venegasInforme collaguazo herrera_venegas
Informe collaguazo herrera_venegas
 
RAÍCES DE ECUACIONES
RAÍCES DE ECUACIONESRAÍCES DE ECUACIONES
RAÍCES DE ECUACIONES
 
Algoritmo de INGRES
Algoritmo de INGRES Algoritmo de INGRES
Algoritmo de INGRES
 
Parámetros log normal3p
Parámetros log normal3pParámetros log normal3p
Parámetros log normal3p
 

Último

presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptMelina Alama Visitacion
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxJamesHerberthBacaTel
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfJC Díaz Herrera
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfJC Díaz Herrera
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosEstefaniaRojas54
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOJuan Carlos Fonseca Mata
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024AndrsReinosoSnchez1
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICAYOSHELINSARAIMAMANIS2
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxMiguelPerz4
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Familias más ricas de AL por países (2024).pdf
Familias más ricas de AL por países (2024).pdfFamilias más ricas de AL por países (2024).pdf
Familias más ricas de AL por países (2024).pdfJC Díaz Herrera
 
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfFamilias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfJC Díaz Herrera
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfJC Díaz Herrera
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirluis809799
 

Último (20)

presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.ppt
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdf
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdf
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATO
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptx
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
Familias más ricas de AL por países (2024).pdf
Familias más ricas de AL por países (2024).pdfFamilias más ricas de AL por países (2024).pdf
Familias más ricas de AL por países (2024).pdf
 
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfFamilias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdf
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
 

Modelos de regresión para estimar el número cromático de grafos aleatorios

  • 1. Modelos para la Estimación de una Cota Superior del Número Cromático de Grafos Aleatorios Usando Regresión Lineal Gustavo Dejean, Departamento de Computación Universidad Nacional del Oeste San Antonio de Padua, Pcia. de Buenos Aires email: dejean2010@gmail.com Resumen La contribución principal del presente trabajo es mostrar cómo, usando técnicas del análisis de regresión lineal, se pueden establecer cotas superiores a los números cromáticos de los grafos aleatorios. Se analizaron 3690 grafos aleatorios entre los rangos del 1% al 90 % de adyacencia y entre 100 nodos a 500 nodos. Para cada uno de ellos, se obtuvo una aproximación a su número cromático con un algoritmo simple y optimizado, para obtener un mejor acercamiento a su número cromático. Se obtuvo una superficie tridimensional: % de adyacencia – cantidad de nodos y mejor coloración obtenida. Por último se usaron métodos de análisis de regresión lineal para obtener un buen Modelo estimador. Se probaron muchas variables candidatas. Se determinó que el grado mínimo de los grafos aleatorios es un buen estimador de la cota superior de su número cromático usando Regresión Lineal Simple. Otro modelo más preciso, usando Regresión Multilineal, mejoró el anterior modelo. Ambos Modelo son una mejora sustancial en comparación a la cota del teorema de Brooks [1]. Los resultados son válidos dentro de los rangos probados. 1. Introducción Los grafos aleatorios constituyen una importante rama de la Teoría de Grafos. Los primeros estudios datan de principios de la década de 1950 [2,3], casi diez años después, los investigadores P. Erdös y A. Renyi descubriendo importantes propiedades en esta clase de grafos, introduciendo el término “Teoría de Grafos Aleatorios” a esta área del conocimiento [4,5]. El objetivo de Erdös, fue estudiar el Método Probabilístico, sin embargo, actualmente, los grafos aleatorios, tiene aplicaciones muy diferentes a los objetivos originales de su creador, y se utilizan en diversas áreas del conocimiento como ser: las Redes Sociales, Modelos de Epidemias, de Comunicaciones y Biológicas. Para cada aplicación, pueden surgir diferentes variantes de los grafos aleatorios de Erdös: Grafos Geométricos Aleatorios, Regulares Aleatorios, Planares aleatorios y árboles aleatorios. El Modelo básico de Erdös, sigue teniendo plena vigencia y es campo de estudio en la actualidad. La coloración de grafos consiste en asignar un color a cada nodo de un grafo de manera tal que no queden dos nodos adyacentes con el mismo color. A la cantidad mínima de colores necesarios para colorear un grafo se la llama el número cromático del grafo, denotado por χ (G) [1]. Cada grafo tiene un número cromático asociado, que puede tomar valores dentro del rango que va desde 1 hasta N, (1 ≤ χ (G) ≤ N) siendo N la cantidad de nodos del grafo. Un grafo completamente conexo es un grafo simple, donde cada par de vértices está conectado por una arista. Los grafos completamente conexos necesitan de N colores y un grafo sin aristas necesita solamente un color. La cantidad de arcos que tiene un grafo completamente conexo es n (n-1) / 2. Hallar el número cromático de un grafo es un problema NP-Hard, por lo cual, es importante tener un modelo para estimar su valor. Un gafo aleatorio G(N, p), es un gafo donde cada arco tiene una probabilidad p de existir. Si p = 0.5, la cantidad promedio de arcos que habrá en los grafos G(N, 0.5) será la mitad de la máxima cantidad de arcos posible, esto es: n x (n-1)/ 4. (donde n es la cantidad de nodos que tiene el grafo). Un Grafo regular G(N,k) es un grafo donde cada nodo tiene exactamente grado k. El porcentaje de adyacencia de un grafo se calcula en función de la cantidad máxima posible de arcos: %ady = cantidad de arcos x 100 x 2 / n x (n – 1) Se define la densidad de un grafo como el coeficiente entre la cantidad de arcos que tiene y la cantidad máxima de arcos posibles: densidad = 2 x cantidad de arcos / n x (n – 1) En los grafos aleatorios, la densidad es aproximadamente igual a la probabilidad p. Por lo tanto, a p lo podemos expresar como: p ≈ densidad La cota superior de χ (G) más usada y conocida es la del Teorema de Brooks, de 1941 [1,6] que dice: Sea G un grafo conexo que no es ni completo ni un ciclo impar. Entonces χ (G) ≤ ∆ (G); donde ∆ (G) es el grado máximo de G. Otro teorema menos restrictivo es el Teorema de Vizing (1964) [1, 6] y dice: Para todo grafo G se tiene χ (G) ≤ ∆ (G) +1. La cota inferior más usada está relacionada a la existencia de subgrafos completamente conexos o cliquer, Un k-cliquer necesita
  • 2. exactamente k colores para colorearlo. Si un grafo G contiene un k-cliquer, entonces se tiene que su número cromático no podrá ser inferior a k, por lo tanto será una cota inferior, esto es: k ≤ χ (G). Esta cota inferior, en la práctica, es poco útil pues determinar si un grafo contiene un k-cliquer es también un problema NP- completo. Otra cota inferior está relacionada con la saturación de aristas y también son malas cotas para los grafos regulares y aleatorios. La contribución principal del presente trabajo es mostrar cómo, usando técnicas del análisis de regresión lineal, se pueden establecer cotas superiores a los números cromáticos de los grafos aleatorios. En las secciones siguientes, se describen la construcción del lote experimental, la selección y mejoras del algoritmo básico usado para obtener una cota superior de χ (G) y la construcción del conjunto de datos para el análisis de Regresión Lineal. Luego, se muestra un gráfico tridimensional donde se observa como es la superficie que describe el comportamiento de las cotas superiores halladas del número cromático en grafos aleatorios. Por último, se detalla el análisis realizado sobre el conjunto de datos experimentales y dos modelos de ajuste obtenidos con su correspondiente error. 2. Elementos del Trabajo y metodología 2.1. Construcción de un lote de casos experimentales Para hallar una cota superior del número cromático primeramente se construyó un lote de datos experimental, consistente en 3690 archivos, cada uno de ellos representa un grafo aleatorio con una determinada probabilidad pi y una determinada cantidad de nodos Ni. Para crear el lote experimental, se preparó un algoritmo generador de grafos aleatorios, dándole como input 6 parámetros: las cantidades iniciales y finales, de nodos y de probabilidad, y el incremento para ambos parámetros. Los mismos, se inicializaron con N= 100 hasta N=500 con un incremento de 10; y desde p=0,01 hasta p=0,90 con un incremento de 0.01. Esto permitió obtener un lote de casos experimentales que abarcó un rango grande de valores posibles de N y p. El programa se desarrolló en Java y se usó la función rand para crear dichos grafos. 2.2. Elección del algoritmo para obtener una cota superior de χ(G) para cada grafo A esta fase se la puede dividir en tres etapas: estudio del comportamiento de tres algoritmos conocidos, pero que en la literatura no se encuentran referencias a su comportamiento relativo. 2da etapa: mejoramiento de los algoritmos con técnicas pseudo- probabilísticas o por saturación de combinaciones aleatorias y análisis de resultados obtenidos. La tercer etapa fue adaptar el mejor algoritmo para hacerlo más eficiente y obtener una cota superior del χ (G) para cada grafo. Los algoritmos básicos implementados fueron los siguientes: Wells-Powell, Matula y el secuencial o aleatorio. Téngase presente que en esencia se tratan del mismo algoritmo y que solamente se diferencian en la heurística usada para procesar su input. En general, es de uso práctico obtener una cota del número cromático tomando un resultado de alguno de estos algoritmos [10] para luego optimizarlo con algoritmos que usan técnicas avanzadas como ser simulated annealing [11] o Ants algorimos [14] y branch and cut [13]. Para elegir la mejor cota, se estudió el desempeño relativo de los tres algoritmos básicos o heurísticas. Se ejecutó cada uno de estos algoritmos 1000 veces para colorear tres grafos con p= 50, 75 y 80% de adyacencia. Al graficar los resultados en tres histogramas (uno por cada grafo) se concluyó que los mejores resultados (para este tipo de grafos) siempre son del algoritmo de Powell, seguido por el aleatorio. También se observó que al ejecutar el mismo algoritmo muchas veces se alcanzan mejoras que llegan al 10% para cualquiera de los tres algoritmos. A esta técnica la podemos considerar como buscar una saturación de coloraciones posibles al ejecutar miles de veces cada algoritmo. Una vez seleccionado el algoritmo de Powell, se lo optimiza para que use sus propios resultados intermedios como poda en cada iteración, a fin de poder procesar la mayor cantidad de veces cada grafo en un tiempo mínimo. Se usó como corte el resultado obtenido en la primera pasada y luego cada vez que se obtuvo una menor cantidad de colores, se tomó este nuevo valor para cortar cualquier otra ejecución que requiera más de ese número. Se realizaron 10 mil corridas para cada uno de los 3690 grafos del lote experimental. La mejor coloración que generó para cada grafo (menor número), se grabó en un archivo junto con los datos físicos del grafo. A parte, en otro archivo, se guardó el grafo coloreado. Todos los resultados se comprobaron con otro programa probador para verificar el correcto funcionamiento del algoritmo de coloreo. 2.3 Preparación del conjunto de datos para el análisis El conjunto de datos se formó de la siguiente manera: una fila por cada archivo del lote experimental (3690 filas) y teniendo como variables (columnas) los datos físicos de cada archivo del lote experimental, esto es, cantidad de nodos, cantidad de arcos, porcentaje de adyacencia, cantidad de arcos, grado máximo, grado mínimo, promedio entre el grado máximo y grado mínimo, densidad, densidad al cuadrado, densidad al cubo, grado máximo multiplicado por la densidad, y muchas combinaciones más, la variable objetivo o clase es el menor número obtenido en la coloración. Obsérvese que muchas variables son recalculables a partir de otras, pero lo que interesa aquí, es encontrar “la mejor variable” para predecir a la variable objetivo, así es que
  • 3. en el trabajo, se probaron muchas otras variables que se fueron dejando de lado a medida que se demostraba que eran no significativas. Se utilizaron dos programa específicos para el estudio del análisis de regresión lineal: SPSS® y JMP®. Figura 1: cotas superiores halladas para cada grafo del lote experimental luego de ejecutar el algoritmo de Powell diez mil veces por cada grafo. En la Figura 1, se muestra como se distribuyeron los resultados de las diez mil corridas para cada archivo del lote experimental. Puede observarse que en el rango del 10% de adyacencia al 80% de adyacencia los resultados se mantienen aproximadamente lineales con respecto al porcentaje de adyacencia y cantidad de nodos. Mientras que a valores superiores al 80% de adyacencia, los valores se disparan notablemente. 3. Resultados Primeramente se encontró un Modelo Lineal Simple, fácil de usar y calcular. Para ello, se analizaron numerosas variables. El análisis visual de las gráficas de dispersión, probó que el grado mínimo de un grafo aleatorio es un buen estimador para el rango de valores: 0,01 ≤ p ≤ 0,80 y 100 ≤ N ≤500. El Modelo Lineal Simple (MLS) hallado para ese rango de valores es: estimación(MLS) de χ (G) = 6,198 + 0,302 * grado mínimo Este modelo tiene un valor para el estadístico de R cuadrado de 0,991; con un error estándar de la estimación de 2,321. Los residuos mínimos y máximos son: -7,89 y 9,40 respectivamente y el residuo medio es igual a cero. El p-value es igual 0. En la figura 2, se muestra el gráfico de dispersión y la recta obtenida y en la figura 3, se muestra como se distribuyen los residuos de la estimación. Lo anterior indica que se trata de un muy buen ajuste. Este Modelo predice, por ejemplo, que un grafo aleatorio G(N,p) con N, p dentro del rango de valores especificado, su número cromático está acotado por: χ (G) ≤ estimación(MLS) + 3*error estándar donde la estimación se obtiene aplicando el modelo y el error estándar es 2,321; Se debe sumar a la estimación del Modelo, el triple de su error estándar para obtener una cota superior confiable al 99,74 %. Todo esto, gracias a que se demostró que los residuos siguen una distribución Normal. Formalmente se expresa como una probabilidad: P[ χ (G) ≤ estimación (MLS) + 3*error estándar] ≈ 0,9974 Por ejemplo: Si se quiere obtener la cota superior de un grafo G(N,p) con N y p dentro del rango de valores especificado, y cuyo grado mínimo sea igual a 78, se calcula: estimación(MLS) + 3*error estándar = 29,75 + 6,96 = 36,71 o sea: P[ χ (G) ≤ 36,71] ≈ 0,9974 Por el contrario, la probabilidad de que dicho grafo tenga un número cromático superior a los 36 colores es de 0.0026, esto es de: (1 – 0.9974). En el lote experimental, se tienen 22 casos con grado mínimo igual a 78 y todos cumplen con la desigualdad ≤ 36. Figura 2. Gráfico de dispersión y la recta que lo ajusta. El resultado queda expresado en forma independiente a los valores de N y p, y se observan casos donde, con distintos valores de N y de p, si su grado mínimo coincide, la estimación es aproximadamente la misma para todos. Todos los supuestos del Modelo lineal simple se cumplen menos el de Durbin-Watson (1951) ya que el valor de este estadístico da 0,86 y esto indica que los residuos no son totalmente independientes [7,8]. Efectivamente, los errores se hacen más grandes a medida que aumenta la variable dependiente. A pesar de este incumplimiento, en el lote experimental se verificó que, solamente en 59 casos de los 3239 casos, la estimación más 3*error estándar es inferior a la
  • 4. cantidad de colores obtenida con el algoritmo, esto represente que solamente el 0,018% de los casos sobrepasaron la cota superior propuesta. En la práctica, no hace falta sumar tres veces su error estándar, pues como ya se dijo, el algoritmo usado para construir el lote experimental es básico y existen muchos algoritmos que usan técnicas avanzadas y producen resultados que se encuentran muy por debajo de los utilizados aquí. Figura 3. Histograma de los de los residuos para el modelo regresión Lineal Simple Para mejorar el error de la estimación, se halló un segundo Modelo Lineal de Regresión Múltiple (MLRM): estimación(MLRM) de χ (G) = donde: d = densidad y dgradoMax = d * grado_max Obsérvese que en particular se trata de un modelo polinómico cúbico, pero haciendo las transformaciones triviales se puede escribir como un modelo Lineal Múltiple [7]. Este modelo, da un mejor ajuste que el modelo lineal simple para el rango de valores ya considerado. El estadístico R cuadrado es de 0.999, y el error estándar de la estimación es de 0,703. Los residuos mínimos y máximos son de -3,707 y 3,378 respectivamente, con una media igual a cero. En la figura 4 se muestra como se distribuyen los residuos de la estimación usando el Modelo de Regresión Lineal Múltiple y en la figura 5, se muestra la gráfica de probabilidad Normal. Esto demuestra que el Modelo cumple el supuesto de Normalidad de los Residuos. El estadístico Durbin-Watson que proporciona información sobre el grado de independencia entre los residuos es igual a 1,733; por lo tanto, se puede afirmar que el Modelo cumple con el supuesto de Independencia de los Residuos. Todo esto dentro del rango de valores ya mencionado. Si se reemplaza el valor de d por el de p, se obtiene una aproximación aceptable. Figura 4. Histograma de los de los residuos para el modelo regresión Múltiple Análogamente a como se procedió en el MLS, se tiene: P[ χ (G) ≤ Estimación (MLRM) + 3*error estándar] ≈ 0,9974 Se verificó que en el lote experimental, solamente en 23 casos de los 3239 casos, la cota calculada con el Modelo fue inferior a la cantidad de colores obtenida con el algoritmo, esto represente que solamente el 0,007% de los casos, sobrepasaron la cota superior propuesta. Por ejemplo, si tenemos un grafo aleatorio G(N=300,p=0.4) y con grado máximo igual a 96, su número cromático está acotado superiormente, con una probabilidad de 0.9974 por 35 colores: χ (G) ≤ estimación(MLRM) + 3 * error estándar = 35,78 En este caso, la estimación aplicada al Modelo es 33,68 y el error estándar es igual a 0,703. En la Tabla 2, tercera fila, se muestra este caso, que pertenece al lote experimental. Obsérvese que la cota del Teorema de Brooks, para este caso, da 147 (su grado máximo), y queda lejos de la cota obtenida aplicando el Modelo. Nuevamente es oportuno aclarar que, en la práctica, no hace falta sumar tres veces su error estándar por las mismas razones ya mencionadas. Una limitante del modelo, era que su validez estaba solamente dentro del rango de valores específico. Para validar su poder de predicción fuera de ese rango, se construyó otro lote experimental compuesto por 187 grafos aleatorios que van desde 0 ≤ p ≤ 0,80 y 500 ≤ N ≤1000, con paso de 0.05 para p y de 50 para N. A estos grafos se les ejecuto el mismo algoritmo que a los anteriores y también con 10000 corridas, para cada grafo. Al nuevo conjunto de datos obtenido, se le aplicaron ambos modelos, sin aplicar la suma del error estándar. En el caso del Modelo lineal de regresión
  • 5. simple (MLRS), las estadísticas descriptivas de los residuos fueron: cantidad de casos= 176; mínimo valor: -9,7; máximo valor: 26,16; suma= 1353; media= 7,69; Figura 5. Gráfico P-P, que prueba visualmente la distribución Normal de los residuos desviación estándar= 7,51. Es decir, que los residuos no siguen una distribución Normal ni su media es cero. Sin embargo, puede notarse que como cota superior es válida, pues los residuos están desplazados hacia los valores positivos, esto es porque la pendiente verdadera para este nuevo rango de valores es de 0.281 o sea que es menor que la del MLRS usado. En el caso del Modelo Multilineal, las estadísticas descriptivas de los residuos dan mejores resultados: cantidad de casos= 176; mínimo valor: -2,9; máximo valor: 11,76; suma= 479; media= - 2,72; desviación estándar= 2,63. Se observa también que los residuos no siguen la distribución Normal, pero su media está desplazada hacia los valores positivos, por este motivo, se puede afirmar que el Modelo sigue siendo aceptablemente bueno en el nuevo rango de valores, aunque se observe cierta degradación en el ajuste del modelo. Otra prueba, realizada para ambos modelos fue testearlos con los datos experimentales documentados en el trabajo de Davis Johnson [11]. En dicho trabajo, en las tablas I, II,V y VI, se muestran resultados experimentales para grafos aleatorios de 125, 250, 500 y 1000 nodos con p=0,1; 0,5 y 0,9; los resultados obtenidos en aquel experimento, para el algoritmo RLF (Recursive Larges First) son bastante semejantes a los mostrados en el presente trabajo para el grafo de 125 nodos donde la diferencia es de dos colores y se agranda la diferencia para N=500 (67 en el presente trabajo vs. 49). Para otros algoritmos más eficaces usados en [11], la diferencia es aún mayor. El grado máximo se calculó aproximadamente a partir de los datos del lote experimental. Aplicando el MRLM se obtiene que en todos los casos se cumplen las cotas propuestas, incluso los cuatro casos que corresponden a p=0.9 que está fuera del rango aplicable al modelo por no haber sido tenido en cuenta en el cálculo del Modelo. En todos los casos, se obtuvo una cota superior muy alejada de la cota del Teorema de Brook. 4. Conclusiones Ambos Modelos de Regresión Lineal presentados, predicen una mejor cota superior del número cromático de grafos aleatorios que la del Teorema de Brooks. En la tabla 2, se muestran los residuos para ambos modelos para un conjunto de grafos sacados del primer lote experimental, se puede observar que los residuos para el MLRM varían entre uno y cero, mientras que la cota de Brooks (el grado máximo) en todos los casos, toma valores muy alejados de los resultados obtenidos con el algoritmo de Powell modificado, esto origina residuos muy grandes y por ese motivo, la cota de Brooks, no es una buena cota ni tiene utilidad práctica. La limitante de ambos modelos, es que su validez está dentro de un rango de valores. El Modelo Lineal de Regresión Simple, es más limitado que el MLRM, tanto en la calidad de la cota, medida con el error estándar de las estimaciones, como en la robustez frente a cambios en los rangos de valores de p y N. En contraparte, el MLS tiene la simpleza de poder predecir la cota superior como la tercera parte de su grado mínimo aproximadamente. Los Modelos presentados, se hicieron a partir de coloraciones encontradas con un algoritmo simple, aun cuando se hayan corrido miles de veces, es conocido que existen otras soluciones que usen menos colores. Así es de esperar, que las cotas que dan ambos modelos sean holgadas y se podrían mejorar. Esta partida de malas coloraciones puede estar ocultando una naturaleza “más lineal” de la figura 1, pues la diferencias van creciendo con el valor de p. El estudio realizado se puede extender fácilmente a los grafos regulares (grado mínimo = grado máximo) ya que estos tiene un comportamiento parecido a los grafos aleatorios por el motivo que cuando p aumenta, el grafo aleatorio tiende a ser muy regular. El análisis de regresión multivariante puede ser una herramienta útil para buscar cotas para otros algoritmos NP-completos, más en los casos donde no importa los detalles del resultado final sino solamente
  • 6. una estimación de su resultado óptimo. Queda abierta la tarea de encontrar otro Modelo que abarque rangos de valores mayores a los estudiados y que parta de un conjunto de datos donde la variable objetivo sea el resultado de la aplicación de algoritmos avanzados. Agradecimientos A las autoridades de la Universidad Nacional del Oeste y en especial al Mg. Antonio Fotti, por facilitar la tarea de investigación. Referencias [1] Diestel M. Graph Theory, Springer ed., Graph Theory GTM, 4th edition 2010 [2] Rapaport A., Contribution to the Theory of Random and Biased Nets, Bulletin of Mathematical Biophysics 19, 257-277 (1957) [3] Solomono R., Rapoport A., Connectivity of Random Nets, Bulletin of Mathematical Biophysics 13, 107-117 (1951) [4] Erdös P., Renyi A, On Random Graphs, Publ.Math, (Debrecen) 6,290. (1959). [5] Erdös P., Renyi A, On the Evolution of Random Graphs, Publications of the Mathematical Institute of the Hungarian Academy of Sciences 5, 17-61 (1960). [6] Molloy M., Reed B., Graph Colouring and the Probabilistic Method. Springer Science & Business Media, 2001 [7] Montgomery - Peck - Vining, Introducción al análisis de Regresión Lineal. Editado en: México, Compañía Editorial Continental. 2006 [8] Johnson Dallas E., Métodos Multivariados Aplicados al análisis de Datos. Editado en: México, International Thomson Editores, 2000. [9] Pérez Lopez, César. Minería de Datos, Técnicas y Herramientas. Editorial: Thomson. (cap 12 y 13) 2007. [10] Ozon Javier. Contribución al coloreo de grafos y a las redes pequeño mundo. Tesis Doctoral - Universitat Politècnica de Catalunya (2001).- http://hdl.handle.net/10803/5844; visitado el 19/08/2014 [11] Johnson David – Aragon C. Optimization by simulated annealing: An experimental evaluation; part II,graph coloring and number partitioning. Operations Research. Vol. 39, No.3, May-June 1991 (1990.). [12] Douglas West. Introduction to Graph Theory. Prentice Hall, 2000. [13] Severin, Daniel E. Estudio poliedral y algoritmo branch- and-cut para el problema de coloreo equitativo en grafos. Tesis presentada para optar al título de Doctor de la Universidad de Buenos Aires en el área Ciencias de la Computación. 2012 [14] Vesel A., Zerovnik J. How Well Can Ants Color Graphs? Journal of Comuting and Information Technology – CIT 8, 2000, 2, 131-136. - http://www.researchgate.net/publication/47397330_How_Well _Can_Ants_Color_Grap _6$=_ /___@ S__ _____ !____ __@__ _" _____ _ _ _5 ________ !_______ ____________ _%_(%2+5%+%_ _++6_ Datos de Contacto: dejean2010@gmail.com