Ein adaptives System ist in der Lage sich zur Laufzeit anzupassen und somit auf dynamische Veränderungen in seiner Umgebung zu reagieren. Eine wesentliche Herausforderung bei der Entwicklung adaptiver Systeme ist festzulegen, wann und wie sich das System zur Laufzeit anpassen soll. Dies erfordert die Antizipation zukünftiger Umgebungssituationen sowie eine genaue Kenntnis der Auswirkungen der Adaptionsmöglichkeiten auf das System. Beides ist aufgrund von unvollständigem Wissen zur Entwicklungszeit (sog. „design time uncertainty“) im Allgemeinen nicht vollständig möglich.
In diesem Vortrag wird als Lösungsansatz für diese Herausforderung das Online-Reinforcement-Learning (Online-RL) vorgestellt. Online-RL lernt auf Basis von Laufzeit-Feedback geeignete Adaptionen. Der Vortrag führt zunächst in die Grundlagen adaptiver Systeme und RL ein. Im Hauptteil werden zwei konkrete Probleme beim Einsatz von Online-RL für adaptive Systeme vorgestellt: (1) Adaptive Systeme verfügen typischerweise über eine große Anzahl von Adaptionsmöglichkeiten. Eine große Anzahl von Adaptionsmöglichkeiten führt bei aktuellen Online-RL-Verfahren für adaptive Systeme jedoch zu einem langsamen Lernprozess. (2) Adaptive Systeme werden häufig in nichtstationären Umgebungen eingesetzt, was bedeutet, dass sich die Effekte von Adaptionen über die Zeit ändern können. Mit solchen nichtstationären Umgebungen können aktuelle Online-RL-Verfahren für adaptive Systeme nicht automatisch umgehen. Der Vortrag stellt aktuelle Forschungsansätze zur Adressierung dieser beiden Probleme vor. Er schließt mit einer kritischen Diskussion und einem Ausblick auf weiterführende Forschungsfragen.