Standort: science.ORF.at / Meldung: "Künstlicher Spieler lernt Atari-Spiele"

Atari Joystick

Künstlicher Spieler lernt Atari-Spiele

Forscher des Google-Projekts "DeepMind" haben einen künstlichen Spieler - oder "Agenten" - entwickelt, der sich mit nur wenig Information 49 Atari-Spiele selbstständig beibringen konnte. Bei einigen Spielen schneidet der künstliche Spieler sogar besser ab als der menschliche.

Künstliche Intelligenz 26.02.2015

Lediglich visuelle Pixelinformationen in der Größe von 84 mal 84 Pixeln und das Wissen um den erreichten Punktestand reichen dem künstlichen Agenten "Deep Q-network" (DQN), um innerhalb kurzer Zeit zum Profi in verschiedenen Atari-Spielen zu werden. Bei mehr als der Hälfte der 49 verwendeten Atari-2600-Spiele erreichte der Agent gleichwertige oder bessere Ergebnisse als ein menschlicher Spieler.

DQNs Lernvorgang basiert auf Techniken aus dem Maschinellen Lernen, die von biologischen Vorgängen inspiriert sind. Das Experiment ist dem aktuellen KI-Trend Deep Learning zuzuordnen.

Die Studie

Human-level control through deep reinforcement learning, Mnih und Kollegen, erschienen in "Nature", am 25. 2. 2015

Videos

So spielt der künstliche Agent:

Jan Schlüter, Forscher am Österreichischen Forschungsinstitut für Artificial Intelligence (OFAI), erklärt im Gespräch mit science.ORF.at, was DQN interessant macht: "Der Agent lernt direkt von der Bildschirmausgabe des Ataris." Die meisten bisherigen Ansätze hätten dem lernenden System bereits fertig verwendbare Informationen geliefert, wie beispielsweise die Positionen der Schachfiguren auf einem Brett, so der Forscher.

"Nicht intelligente" Erinnerung

DQN kombiniert zwei Methoden für den Lernprozess: das sogenannte Bestärkende Lernen (Reinforcement Learning) und ein künstliches neuronales Netzwerk (Deep Neural Network).

Der künstliche Agent versucht damit, die zu erwartende "Belohnung" - hier die Änderung des Spielstandes - abzuschätzen, und zwar auf Basis des momentanen Zustands und einer gewählten Handlung. Ist das geschafft, kann der Agent zu jedem Zeitpunkt die optimale Aktion wählen.

Damit sich der Agent auch an frühere Aktionen und Ergebnisse erinnert, bedient man sich einer "nicht intelligenten" Methode: Die "Erinnerungen" werden auf einem herkömmlichen Systemspeicher abgelegt. Das ist laut Experte Schlüter nötig, "damit das neuronale Netz sich nicht in eine Richtung entwickelt. Sonst wäre es gegen Ende einer Partie 'Breakout' nur gut darin, das Ende einer Partie zu spielen, aber nicht mehr den Anfang", so Schlüter. "Die Erinnerung wäre verblasst, wenn man so will."

Die Studienautoren vergleichen DQNs Lernprozess mit Vorgängen im menschlichen Gehirn während des Schlafs. Experte Schlüter relativiert jedoch: "Im Traum bewegt man sich natürlich auch durch eine (Traum-)Welt und trifft darin Entscheidungen. Diese basiert aber nur teilweise auf Erinnerungen, und viel lernt man dabei wohl auch nicht."

Pixel sind einfach zu erkennen

Das künstliche neuronale Netzwerk ist dennoch in der Lage, spezielle Funktionen des menschlichen Gehirns zu simulieren - darunter bestimmte Wahrnehmungsvorgänge, wie sie etwa im menschlichen Sehen vorkommen. Das System ist zum Beispiel in der Lage, rudimentäre räumliche Zusammenhänge, Blickwinkel- und Größenunterschiede zu erkennen.

Es sei kein Zufall, dass man für dieses Experiment Atari-Spiele gewählt hat, denn: "Das funktioniert deshalb so gut, weil diese Grafiken computergeneriert und sehr einfach sind," erklärt Schlüter. Ein "Space Invader" sieht immer gleich aus und besteht nur aus einigen wenigen Pixeln. "Das neuronale Netz, das für die visuelle Wahrnehmung verwendet wird, ist besonders gut geeignet, um so etwas auf dem Bildschirm zu erkennen", so Schlüter.

Wegweisend für selbstfahrende Autos?

Schlüters Kollege Maarten Grachten vom OFAI glaubt, dass diese Entwicklung in Zukunft "nicht für Computerspiele wichtig sein wird, sondern zum Beispiel für selbstfahrende Autos." Der Ansatz sei dort laut Grachten ein sehr ähnlicher: Wenn man etwa im Auto eine Kamera hat, die die Umgebung beobachtet und erkennt, muss sich der Computer entscheiden, ob er Gas geben oder bremsen soll.

Schlüter betont jedoch, dass man in einem solchen Fall den Lernvorgang simulieren müsste: "Man kann ja nicht einen Agenten ins Auto setzen, umherfahren lassen und sehen, wann er einen Unfall baut." Bis also selbstfahrende Autos ihre Umgebung erkennen und Menschen sicher chauffieren können, müssen wohl noch einige Space Invaders dran glauben.

Lukas Lottersberger, science.ORF.at

Mehr zum Thema: