KI lernt Verstecken spielen und entwickelt dabei verblüffende Strategien
Die auf Lerntechnik spezialisierte KI-Schmiede OpenAI hat beobachtet, dass mit sog. bestärkendem Lernen (Reinforcement Learning) komplexe Verhaltensweisen erzielt werden können.
Die Grundlage des bestärkenden Lernens ist es, eine KI dafür zu belohnen, sich einem gesetzten Ziel zu nähern bzw. dafür zu bestrafen, wenn sie sich vom Zielzustand entfernt. Die Lösung wird dabei nicht vorgegeben. Der KI-Agent lernt auf diese Weise durch „Trial-and-Error“ autark Verhaltensweisen, die die Belohnung maximieren.
Im Gegensatz zum Supervised Machine Learning können so unbekannte und unerwartete Lösungen entstehen, die nicht auf zuvor festgelegten Trainingsdaten beruhen.
Bei dem einfachen Versteckspiel von OpenAI traten zwei Teams von KI-Agenten (Team Verstecken bzw. Team Suchen) gegeneinander an und trainierten sich gegenseitig. Über die Zeit entwickelten sie dabei immer komplexere Strategien.
Im Laufe des Trainings in der simulierten Versteckspiel Umgebung verwendeten Agenten hierfür unter anderem Boxen, Wände und Rampen. Dabei kooperierten sie sogar, etwa um schneller ein sicheres Versteck zu schaffen.
KI-Forscher hoffen, dass eines Tages auf diese Weise intelligente KI-Agenten existieren, die die für eine spezifische Umgebung geltenden Regeln eigenständig erlernen und für das Erreichen ihrer Ziele nutzen.
Schon heute wird bestärkendes Lernen eingesetzt, um komplexe Steuerungs-, Kontroll- und Optimierungsprobleme zu lösen, die mit traditionellen Methoden nur schwer zu lösbar sind.
Beispiele sind die Optimierung von Ampelsteuerungen (Reinforcement learning-based multi-agent system for network traffic signal control) oder die Entwicklung fairer, dynamischer Preismodelle im eCommerce (Reinforcement Learning for Fair Dynamic Pricing).
Sehen Sie in dem verblüffenden Video von OpenAI, wie die KI-Agenten beim Versteck spielen selbstständig lernen und kooperieren.