METAHEURISTICAS Ideas, Mitos, Soluciones

METAHEURISTICASIdeas, Mitos, Soluciones

OPTIMIZACION COMBINATORIA Qué es un problema de optimización combinatoria?

Cómo se modela matemáticamente un problema de optimización combinatoria? Minimizar (o maximizar) f(x) sujeto a g (xi)  bi i=1.........m1 h (xi) = ci i= m1+1,....... M xi Z • función objetivo • variables de decisión • restricciones (No siempre se puede modelar exactamente así un problema de optimización combinatoria)

Ejemplos de problemas de optimización combinatoria: • Problema de la suma de subconjuntos • Determinación de caminos mínimos en grafos • Flujo en redes • Asignación de tareas • Problema de la mochila • Problemas de ruteo de vehículos. El problema del Viajante de comercio • Diseño de redes de comunicaciones • Ruteo en redes de comunicaciones • VLSI

Planificación de tareas • Asignación de recursos y horarios en instituciones educativas • Minimizaron de desperdicios en el corte de materiales • Localización de plantas • Planificación financiera • Problemas de energía • Biología Computacional(secuenciamiento de ADN, árboles filogenéticos, doblamiento de proteínas) • etc.

Cómo se resuelve un problema de optimización combinatoria? • Enumeración completa o “algoritmo de fuerza bruta”. Sirve? COMPLEJIDAD COMPUTACIONAL Qué hacer? • SOLUCIONES EXACTAS • HEURISTICAS

HEURISTICAS • Heurísticas clásicas • Metaheurísticas o heurísticas “modernas” o sistemas inteligentes Cuándo usarlas? • Problemas para los cuales no se conocen “buenos” algoritmos exactos • Problemas difíciles de modelar

Porqué usarlas? • Adaptabilidad a modificaciones de los datos o del problema una vez que ya se obtuvo un resultado. • Fáciles de implementar y programar • Basadas en tener una gran capacidad de cálculo • No sólo para problemas de optimización combinatoria

Cómo se evalúan? • problemas test • problemas reales • problemas generados al azar • cotas inferiores

ESQUEMA GENERAL DE UN ALGORITMO DE DESCENSO (O BUSQUEDA LOCAL) S= conjunto de soluciones N(s) =soluciones “vecinas” de la solución s ---------------------------------------------------------------- Elegir una solución inicial s0S Repetir Elegir s  N(s0) tal que f(s) < f(s0) Reemplazar s0 por s Hasta que f(s) > f(s0) para todos los s  N(s0) ----------------------------------------------------------------

Cómo determinar las soluciones vecinas de una solución s dada? Qué se obtiene con este procedimiento? Sirve? Optimos locales y globales Espacio de búsqueda

Ejemplo: Supongamos que tenemos el problema de asignar tareas a un sola máquina de modo a minimizar el tiempo total de ejecución. Cada trabajo j tiene un tiempo de procesamiento p j y una fecha de entrega d j. El objetivo es entonces minimizar T = j max {(C j – dj),0} donde C j es el momento en que se completa el trabajo j.

Como elegir las soluciones iniciales. A priori se puede tomar cualquier permutación de las tareas. Determinación de los vecinos de una solución dada: en este caso podemos tomar los que se obtengan de la solución actual cambiando la posición de un trabajo con otro. En un problema con 4 trabajos por ejemplo los vecinos de (1,2,3,4) serán: N(s) = {(1,3,2,4),(3,2,1,4),(1,2,4,3), (1,4,3,2),(2,1,3,4),(4,2,3,1)}

TECNICAS METAHEURISTICAS • Simulated annealing (primeros trabajos 1953, 1983) • Algoritmos Tabú Search (primeras aplicaciones a optimización combinatoria en 1986, basado en algunas ideas de los 70) • Algoritmos genéticos y evolutivos (primeras ideas en los 60, mayormente aplicaciones a problemas de IA). • GRASP (1989) • Colonia de hormigas (1992) • Redes neuronales (primeras ideas en los 60, resurgieron en los 80) • otras.. • Híbridos

Origen, motivación, exceso de nomenclatura, similitudes ¨forzadas¨ con problemas de la física y la biología por ejemplo, etc. • Se usan en otros problemas, que no son de optimización combinatoria también.

TABU SEARCH CONCEPTOS BASICOS: • Permitir elegir una solución vecina que no sea estrictamente mejor que la actual para “salir” de un mínimo local. • Usar una lista Tabú de soluciones (o movimientos) para evitar que el algoritmo cicle. • Usar una función de aspiración que permita en algunos casos elegir un elemento o movimiento Tabú.

ESQUEMA GENERAL DE TABU SEARCH Inicialización Elegir una solución inicial s en S Niter:=0 bestiter:=0 bestsol:= s T:= Inicializar la función de aspiración A Mientras ( f(s) > f(s*) y (niter- bestiter < nbmax) hacer niter := niter + 1 generar un conjunto V* de soluciones sv en N(s) que no sean Tabu o tales que A(f(s)) f(sv) elegir una solución s* que minimice f en V* actualizar la función de aspiración A y la lista Tabú T si f(s*) < f(bestsol) entonces bestsol:= s* bestiter := niter s:=s* -------------------------------------------------------------------------

Qué hay que hacer para usar este esquema?: • Determinar el conjunto de soluciones factibles S. • Determinar la función objetivo f. • Dar un procedimiento para generar los elementos de N(s), “vecinos de s”. • Decidir el tamaño del conjunto V*  N(s) que será considerado en cada iteración • Definir el tamaño de la lista Tabú T. • De ser posible definir una cota inferior para la función objetivo f. • Definir la función de Aspiración A(z) para todos los valores z que puede tomar la función objetivo. • Definir criterios de parada (nbmax y/o comparación con la cota inferior si la hay)

Ejemplo: seguimos con el ejemplo anterior de asignar tareas a un sola máquina de modo a minimizar el tiempo total de ejecución. Como construir el conjunto de soluciones posibles V* ? En este caso, si, cuando la solución actual es (1,2,3,4) la lista Tabu, proveniente de los pasos anteriores del algoritmo es T= {(1,3,2,4),(3,1,2,4)(3,2,1,4)} Entonces V* tiene solo cuatro elementos (1,2,4,3), (1,4,3,2),(2,1,3,4),(4,2,3,1)}

Posibles reglas Tabu a usar en este caso: • impedir todos los movimientos donde i ocupa la posición p(i) y j ocupa la posición p(j) • impedir los movimientos donde alguna de las situaciones arriba suceda • impedir que el trabajo i vuelva a una posición k con k < p(i) • impedir que el trabajo i cambie de posición • impedir que i y j cambien de posición Como elegir el tiempo de permanencia en la lista Tabu: • valor fijo ( a ser ajustado en la experimentación) • valor aleatorio entre un tmin y tmax dados a priori. • valor variable de acuerdo al tamaño de la lista y las variaciones del valor de la función objetivo.

Ejemplos de criterios de aspiración: • cuando todos los movimientos o vecinos posibles son Tabu, se elige alguno de ellos (“el menos tabu”) • cuando con un movimiento tabu se obtiene una solución mejor que la mejor hasta ese momento (global o en la región)

MAS DETALLES de Tabu search...... Uso de la memoria “a largo plazo”, en contraposición con la que se usa para manejar N(s), “a corto plazo”: • Frecuencia : guardar información sobre atributos en una misma posición, movimientos que se repiten, datos sobre el valor de la solución cuando un atributo esta en una posición dada, etc. • Lista de soluciones “elite” • Intensificación • Diversificación • Camino de soluciones entre dos soluciones prometedoras. • Etc.

Problemas de horarios en instituciones educativas (“Tabú Search for large scale timetabling problems”, Hertz,A.,European Journal of Operations Research, 54, 1991.) Se tratan en este trabajo dos problemas relacionados con los horarios de los cursos y con asignar alumnos a los mismos cumpliendo una serie de restricciones. Nos referiremos en particular al problema de establecer los horarios. En este caso una de las mayores dificultades está en establecer que es lo que se va considerar la región factible, o sea el conjunto de soluciones S. El problema consiste en asignar un horario de comienzo a todas las clases x que se deben dictar. Dada la cantidad de restricciones planteadas se eligen algunas para definir un horario factible y las demás se tratan con penalidades en la función objetivo.

Un horario se dice factible si solo pueden ocurrir los siguientes conflictos: • cursos dictados en forma simultánea tienen el mismo profesor. • idem algunos alumnos en común. • Los alumnos o los profesores no tienen suficiente tiempo para ir de un edificio a otro. Para cada turno x de una materia se define como a(x) los posibles horarios en los que puede ser dictado y como p(x) los momentos t a los cuales puede ser movido el curso x manteniendo la factibilidad.

La función objetivo queda f(u,v) =  (p4 d(x,y) + o(x,y) e(x,y) )+  b(x,y) (p5 d(x,y) + p6e(x,y)) donde para un par de turnos de clase x, y • d(x,y) es el número de profesores en común • e(x,y) es el número de alumnos en común • o(x,y) depende del número de cursos opcionales entre x e y • (puede ser 0,1 o 2) • b(x,y) =1 si los cursos se dictan en lugares distantes y 0 sino. • l(x) = duración del curso x • Ut es el conjunto de cursos dictados en el periodo t • Asignacion U = (U1……………….Uk)

Problema de localización de plantas N talleres de una fabrica tiene que ser ubicados en N posibles ubicaciones. Se conocen las distancias aij entre los lugares y el flujo de circulación de partes entre cada taller. Se desea minimizar el total de las distancias recorridas por las partes. • Función objetivo: F ( S ) =  aij bsisj • Movimientos: cambiar de posición dos plantas. • Facil de calcular el cambio de la función objetivo. • Permite explorar todos los vecinos. • Tamaño de N(S) O(n**2) Lista Tabu • Pares. Movimientos que mandan a p y q a lugares donde ya estuvieron en las últimas t iteraciones. • Se pueden considerar también en la lista Tabu las posiciones donde estuvieron esos elementos. • Tamaño variable. Puede ser al azar.

Criterios de aspiración: El movimiento deja de ser Tabu si mejora la mejor solución hasta el momento. Penalidad de un movimiento: se calcula la frecuencia fm con que un movimiento se realiza se pone pm = 0 si m cumple con el criterio de aspiración w fm sino y se usa como valor del movimiento f (x + m ) – f(x) + pm

GRASP (Feo, T.,Resende, M.,”Greedy randomized adaptive search procedures”, Journal of Global Optimization, 1995, pp 1,27) Esquema de un algoritmo GRASP ------------------------------------------------------------------------ Mientras no se verifique el criterio de parada ConstruirGreedyRandomizedSolución ( Solución) Búsqueda Local (Solución) ActualizarSolución (Solución, MejorSolución) End -------------------------------------------------------------------------

Algoritmo ConstruirGreedyRandomizedSolución (Solución) En vez de usar un algoritmo goloso que elija el elemento más prometedor para agregar a la solución, en cada iteración se elige al azar entre los que cumplen que no pasan de un porcentaje  del valor del mejor elemento. Se puede limitar el tamaño de la lista de estos elementos. • Algoritmo Búsqueda Local (Solución) Definición de intercambios

EJEMPLOS • Cubrimiento de conjuntos Dados n conjuntos P1, P2,………..Pn sea I = i Pi y J ={1,2,….n} Un subconjunto J* de J es un cubrimiento si iJ* Pi = I El problema de recubrimiento mínimo (set covering problem) consiste en determinar un cubrimiento de I de cardinal mínimo ( o sea con la mínima cantidad de conjuntos Pi)

Ejemplo: P1 ={ 1,2 }, P2 ={ 1,3 }, P3 ={ 2 }, P4 ={ 3 } Los cubrimientos mínimos tienen cardinal 2 y son: {P1 P2,} ó {P1 P4,} ó {P2 P3,}

Primer paso: ConstruirGreedyRandomizedSolución ( Solución) Un algoritmo goloso podría ser agregar al cubrimiento el conjunto que cubre la mayor cantidad de elementos de I sin cubrir. En este caso para el algoritmo GreedyRandomized consideramos como conjuntos candidatos a los que cubren al menos un porcentaje  del número cubierto por el conjunto determinado por el algoritmo goloso. También se puede limitar el tamño de la lista de candidatos a tener a lo sumo  elementos. Dentro de esta lista de conjuntos se elige uno al azar.

Segundo paso: Búsqueda Local (Solución) Para el algoritmo de descenso se definen los vecinos usando el siguiente procedimiento de intercambios: Un k,p-intercambio, con p < q, consiste en cambiar si es posible k-uplas del cubrimiento por p-uplas que no pertenezcan al mismo. Ejemplo: cambiar la 2-upla P2 ={ 1,3 } con la 1-upla P4 ={ 3 }

Ejemplo: P1 ={ 3,4 } , P2 ={ 3 } , P3 ={ 2 }, P4 ={ 2,3,4 } , P5 ={ 3,4,5 }, P6 ={ 1,4,5 }, P7 ={ 2,3 }, P8 ={ 4 } Tomamos  = 40% En la primer iteración la lista es {P1,P4,P5 ,P6 ,P7}. Supongamos que sale elegido al azar P5.. Para el segundo paso la lista es{P3,P4,P6 ,P7}. Si resultara elegido P3 tendríamos el cubrimiento {P3,P5 ,P6} que no es óptimo y podriamos pasar al algoritmo de búsqueda local. Si en primer lugar hubiera resultado elegido P6. y despuéshubiera salidoP4.hubieramos obtenido la solución óptima {P4,P6}.

Resultados presentados en el trabajo de Feo y Resende: Testearon el algoritmo en problemas no muy grandes pero díficiles que aparecían en la literatura. • Se lograron resolver problemas pequeños pero que aún no habían sido resueltos. Se hicieron 10 corridas para cada ejemplo con ß = 0.5,0.6,0.7,0.8,0.9. • Se usaron solo 1,0 intercambios o sea sólo se eliminaron columnas superfluas.

Los ejemplos siguientes de GRASP los veremos más adelante después de ver los conceptos correspondientes de grafos.

2. Máximo conjunto independiente • en este caso la medida para decidir que nodo agregar al conjunto independiente puede ser el grado. Se puede hacer un algoritmo goloso que en cada iteración agregue el nodo de menor grado. ii) En este caso el intercambio se hace de la siguiente forma: Si tenemos un conjunto independiente S de tamaño p, para cada k-upla de nodos en ese conjunto hacemos una búsqueda exhaustiva para encontrar el máximo conjunto independiente en el grafo inducido por los nodos de G que no son adyacentes a los nodos de S” = S \ {v1.....vk}. Si el conjunto N resultante es de cardinal mayor que S entonces S U N es un conjunto independiente mayor que S.

RESULTADOS • Se testeó el algoritmo en grafos generados al azar de 1000 nodos (con ciertas condiciones). Se usó un máximo de 100 iteraciones y ß = 0.1. • Se hizo un preprocesamiento para facilitar el trabajo de GRASP, que se corre en grafos más chicos que los originales.

3. Job Scheduling Problema:Un conjunto de tareas debe ser ejecutada en un único procesador. Hay tiempos no simétricos de transición entre tareas. Base del algoritmo:se construye un camino hamiltoniano en forma golosa. Se usa un procedimiento de intercambio de nodos para la búsqueda local.

4. A GRASP for graph planarization, (Resende, Ribeiro, 1995). Problema:Encontrar un subconjunto F de los ejes de G tal que el grafo G\F sea planar. Base:un algoritmo GRASP como primer paso de una heurística conocida que antes usaba un algoritmo goloso + heuristica de conjunto independiente + extension del subgrafo planar.

Los temas que figuran a continuación en esta presentación sobre metaheurísticas no serán dados en la teóricas de Algoritmos III y quedan como material opcional para quien le interese ver más sobre los mismos.

SIMULATING ANNEALING Ideas básicas: Metropolis, A., Rosenbluth,M., Rosenbluth,A., Teller, A., Teller,E., “ Equation of state calculation by fast computing machines”, J. of Chemistry Physics, 1953 Algoritmo para simular el proceso de enfriamiento de un material en un baño de calor (annealing). Si un material sólido se calienta por encima de su punto de fundición y después se enfría hasta quedar en estado sólido, las propiedades de este sólido dependen de la velocidad de enfriamiento. 30 años más tarde: Kirkpatrick,S., Gellat,C., Vecchi,M., “Optimization by simulating annealing”, Science, 1983. Proponen mejorar el algoritmo básico de (descenso o búsqueda local), permitiendo movimientos donde el valor de la función empeora con una frecuencia gobernada por una función de probabilidad que cambia a lo largo del algoritmo, inspirada en el trabajo de Metropolis et all.

Las leyes de la termodinámica dicen que a temperatura t la probabilidad de un crecimiento de la energía de magnitud E está dada por p (E) = exp ( -E/ kt) (1) donde k es la constante de Boltzman. Metropolis et all. generan una perturbación y calculan el cambio de energía. Si la energía decrece el sistema se mueve al nuevo estado. Si crece el nuevo estado es aceptado con probabilidad (1). El procedimiento se repite para un número predeterminado de iteraciones para cada temperatura, después de lo cual la temperatura se disminuye hasta que el sistema se congela en estado sólido. Kirkpatrick et all., y Cerny (1985) propusieron en forma independiente usar este algoritmo en problemas de optimización combinatoria haciendo un paralelo entre el proceso de enfriamiento y los elementos de este tipo de problemas

Si hacemos la siguiente correspondencia:

Con esto cualquier algoritmo de búsqueda local puede convertirse en un algoritmo “annealing” tomando al azar un cierto numero de vecinos y permitiendo que elija una solución peor de acuerdo a la ecuación (1) • Cómo es la función de energía para la mayor parte de los materiales?. • Cómo es la función objetivo en problemas de optimización?.

ESQUEMA GENERAL DE UN ALGORITMO SIMULATING ANNEALING ------------------------------------------------------------------------- Elegir una solución inicial s0 Elegir una temperatura inicial t0 > 0 Elegir una función de reducción de temperatura  (t) Repetirmientras no se verifique la condición de parada Repetir hasta icount = nrep (t) Elegir al azar s  N(s0 )  = f(s) - f(s0 ) Si  < 0 entonces s := s0 Sino Generar x al azar en (0,1) Si x < exp (- / t) entonces s := s0 Fin Poner t =  (t) Fin ------------------------------------------------------------------

Qué hay que hacer para usar este esquema en la práctica? • Definir conjunto de soluciones • Definir función de costo • Definir vecinos • “Elegir” parámetros: temperatura, nrep,  • “Elegir” criterio de parada

Más Detalles La temperatura inicial debe ser suficientemente “alta” como para permitir un intercambio casi libre de las soluciones vecinas. La forma de reducir la temperatura es vital para el éxito de la heurística. Hay que determinar: • número de repeticiones en cada temperatura. • forma de reducción de la temperatura Muchas iteraciones por temperatura para pocos valores de temperatura o al revés. Por ejemplo:(t) = a t con a < 1 Se acostumbra usar 0.8 < a < 0.99 • nrep puede crecer geométricamente o aritméticamente en cada temperatura. • En algunos casos se usa la historia para determinar nrep • Otra propuesta:(t) = t/ (1 + b t ) con b chico En la práctica...............

Criterios de parada: • teóricos • en la práctica.....nro. de iteraciones sucesivas sin mejora Elección del espacio de soluciones y definición de vecinos: muy importante. Factibilidad Penalidades en la función objetivo Evitar funciones “chatas”

Problema del viajante de comercio Espacio de soluciones: • permutaciones de (1,2,……………..n) • Solución inicial al azar Movimientos: • k intercambios, se usa k=2. Tamaño del espacio: ( n-1)!/2 # de vecinos de una solución dada: n(n-1)/2 • Todas las soluciones son alcanzables entre si • Es fácil generar vecinos al azar y actualizar el costo Con estas definiciones se puede usar el esquema básico

METAHEURISTICAS Ideas, Mitos, Soluciones