Maschinelles Lernen
Fleisch, Blut und Selbst-Bewusstsein

Illustration: © Amélie Tourangeau

Ein historisches Go-Spiel ist vielleicht die beste Lektion, die Menschen jemals von einer Maschine erhalten haben.

Véronique Chagnon

Das fünfte Spiel im Go-Turnier um die Weltmeisterschaft im März 2016 fand statt zwischen Go-Weltmeister Lee Sedol und AlphaGo, einem Programm, das von der auf künstliche Intelligenz spezialisierten Londoner Softwarefirma DeepMind entwickelt wurde. Es ist die vielleicht beste Lektion, die Menschen jemals von einer Maschine erhalten haben. Aber nicht aus den Gründen, die du vielleicht vermutest.

Es begann mit einer Frage: Wie kann man künstlicher Intelligenz beibringen, Go zu spielen, wo die möglichen Kombinationen dieses jahrtausendealten Brettspiels fast endlos sind?

Obwohl es sehr einfach erscheint (der Spieler, der das größte Territorium erobert, gewinnt das Spiel), hat Go jedoch etwas Mystisches: jedes Spiel kann die Grenzen des Spielwissens überschreiten. Daher ist es unmöglich, mit einem Algorithmus für alle Gewinnkombinationen einen unschlagbaren künstlichen Go-Spieler zu schaffen. Um die besten Spieler der Welt zu schlagen (Go ist ähnlich wie künstliche Intelligenz eine maskuline Domäne), muss die Software in der Lage sein, eigenständig zu lernen.

Tausende von Fehlern

Maschinelles Lernen, erstmals in den frühen 1950er-Jahren entwickelt, ist ein Forschungsgebiet, das sich die Entwicklung von Werkzeugen zum Ziel gesetzt hat, mit denen Maschinen gelehrt werden, selbst zu lernen. Im Kern der hochkomplexen Systeme, welche die Entwicklung dieses Forschungsgebiets ermöglicht haben, steht eine eher elementare Methode: Versuch und Irrtum. Einfach ausgedrückt beobachtet die Maschine, welche Entscheidungen sie ihrem Ziel näherbringen und welche ihr schaden. Aus Tausenden von Versuchen und Fehlern „lernt“ der Algorithmus, die richtigen Entscheidungen für das Ausgangsziel zu treffen.

Mit ihren klaren Regeln und ihrem klaren Ziel (zu gewinnen), sind Spiele prädestiniert für die Erforschung maschinellen Lernens. Sie machen es einfach, die Leistung und den Fortschritt von Software zu messen.

Um den Südkoreaner Lee Sedol zu schlagen, analysierte AlphaGo zunächst Tausende von Spielen zwischen durchschnittlichen Spielern. Die Entwickler fütterten das Programm außerdem mit den Spielregeln. Diese Starteingaben ermöglichten es dem Algorithmus, die Grundlagen von Go zu lernen und die häufigsten Kombinationen mit ihren jeweiligen Erfolgsraten zu identifizieren.

Die nächste Phase von AlphaGo war eine Lernphase des Austestens. Das Programm spielte Tausende von Spielen gegen sich selbst und änderte jedes Mal seine Strategie geringfügig, manchmal mit Erfolg, manchmal erfolglos. AlphaGo ging also nach einer Reihe von Niederlagen aus der Liga der Nachwuchsspieler hervor, um sich dem besten Spieler der Welt zu stellen.

Spielen um des Spielens willen

Was dann passierte, ist bekannt: Lee Sedol verlor alle Spiele bis auf eines. Dabei mutet AlphaGo jetzt schon veraltet an neben dem neusten Star von DeepMind, AlphaZero. Dieses 2017 eingeführte Programm kann Go, Schach und Shogi gewinnen, ohne dass ein Mensch ihm zuvor die Spielregeln liefern muss. Das vierte und fünfte Spiel im Go-Turnier zwischen AlphaGo und dem Weltchampion Sedol kann uns jedoch noch viel mehr über die symbolische Kraft maschinellen Lernens lehren.

Am Morgen des vierten und vorletzten Turniers und Turniertages, als die Kameras zu laufen begannen, waren die Würfel schon gefallen. Denn am Vortag, als er beim dritten Spiel unterlag, hatte Lee Sedol das Turnier bereits verloren. So machte er endlich einen gelasseneren Eindruck; er hatte sich mit der Idee abgefunden, von einer Maschine geschlagen worden zu sein, und konnte nun um des Spielens willen spielen. Entgegen aller Erwartungen gewann er jedoch das Spiel, nachdem er AlphaGo mit einem der kreativen Züge, die sein Geheimnis sind, aus dem Feld schlug (nach den Prognosen des Algorithmus hätte nur einer von 10.000 Menschen diesen berühmten 78. Zug gewählt, der sich als entscheidend erwies). Südkorea feierte vor laufenden Kameras. Ganz gleich, was morgen geschehen sollte, die Ehre der Menschheit war gerettet.

Am nächsten Tag machte sich fieberhafte Hoffnung breit, dass Sedol ein zweites Mal Rache an der Maschine nehmen kann. Die Spannung stieg, als das Spiel begann und tatsächlich schien das Undenkbare zu passieren: Es war live zu erleben, wie die Maschine anscheinend auseinanderfiel. Alle Analysten waren sich einig: AlphaGo hat im Spielverlauf zunehmend Fehler gemacht und bizarre Entscheidungen getroffen. Hier und da war sogar Lachen zu vernehmen.

Was sich da vor den Augen verblüffter Zuschauer abspielte, war ein Go-Spiel, wie es zuvor noch kein Mensch gespielt hatte. Ein Experte sollte später dazu sagen, dass den neun Dans, den Go-Meisterrängen, ein zehnter Dan hinzugefügt wurde. Nach 280 Zügen gewann das Computerprogramm, das keinen Sinn für Schande, Zurückweisung oder Lächerlichkeit hat. Sedol war wie alle Zuschauer von den Fähigkeiten der Software erschüttert. Sie hatte offenbar ihre Lektion aus seinem außergewöhnlichen 78. Zug am Vortag gelernt.

Kein Spieler aus Fleisch, Blut und Selbst-Bewusstsein hätte die abwegigen Züge gewagt, die AlphaGo in diesem fünften Spiel spielte: die Hunderttausende von Zuschauern hätten ihn als verrückt ausgegeben. AlphaGo hingegen kennt nur das Prinzip von Versuchen und Irrtümern.

Maschinelles Lernen Fleisch, Blut und Selbst-Bewusstsein

Tausende von Fehlern

Spielen um des Spielens willen

Das könnte euch auch gefallen

Maschinelles Lernen
Fleisch, Blut und Selbst-Bewusstsein