Apprentissage automatique
De chair, d’os et d’égo

L’apprentissage automatique Illustration: © Amélie Tourangeau

Comment un certain match de go est peut-être la meilleure leçon jamais donnée à l’humain par la machine.

Véronique Chagnon

Le cinquième match du tournoi de go entre Lee Sedol, le champion du monde en titre, et AlphaGo, un programme conçu par le laboratoire d’intelligence artificielle londonien DeepMind, en mars 2016 est peut-être la meilleure leçon jamais donnée à l’humain par la machine. Mais pas pour les raisons que vous croyez.
 
L’histoire commence par une question: comment apprendre à une intelligence artificielle à jouer au go si les combinaisons possibles de ce jeu millénaire sont presque infinies?
 
En apparence très simple (le joueur qui conquiert le plus grand territoire gagne la partie), le go a quelque chose de mystique: chaque match peut repousser les limites des connaissances qu’on en a. Impossible donc de programmer toutes les combinaisons gagnantes dans un algorithme pour créer un redoutable joueur de go artificiel. Afin d’arriver à battre les meilleurs joueurs (le go, comme l’intelligence artificielle, est un milieu très masculin) du monde, le logiciel doit arriver à apprendre par lui-même.

Des milliers d’erreurs

L’apprentissage automatique, dont les premières théories ont été élaborées au début des années 1950, est un champ de recherche visant à créer des outils qui apprennent aux machines à… apprendre. Au cœur des schémas ultracomplexes ayant permis le développement de ce secteur, une méthode plutôt élémentaire: l’essai-erreur. Dit simplement, la machine observe quelles décisions la rapprochent de son but, et quelles décisions lui nuisent. À partir de milliers d’essais et d’erreurs, l’algorithme «apprend» ainsi à faire les bons choix en fonction de l’objectif de départ.
 
Avec leurs règles claires et un objectif bien net (gagner la partie), les jeux sont un terrain privilégié pour la recherche en apprentissage automatique. Il est aisé d’y mesurer la performance et les progrès d’un logiciel.
 
Pour arriver à battre le Sud-Coréen Lee Sedol, AlphaGo a d’abord analysé des milliers de matchs disputés entre des joueurs plutôt moyens. Ses programmeurs lui ont également donné les règles du jeu. Ces intrants de départ ont permis à l’algorithme d’apprendre les bases du go, de déterminer les combinaisons les plus fréquemment utilisées, et avec quel taux de succès.
 
AlphaGo est ensuite entré dans sa phase d’apprentissage «par renforcement»; il a joué des milliers de parties contre lui-même en changeant chaque fois légèrement de stratégie, parfois avec succès, parfois sans. On peut donc dire que c’est après une série d’échecs qu’AlphaGo a pu sortir des ligues mineures pour affronter le meilleur joueur du monde.

Jouer pour jouer

L’histoire est connue: Lee Sedol a perdu tous les matchs sauf un. Et AlphaGo a maintenant l’air d’une antiquité à côté de la nouvelle star du laboratoire DeepMind, AlphaZero, lancée en 2017, qui est capable de gagner au go, aux échecs et au shogi sans qu’aucun humain ait eu à lui donner les règles. Cela dit, les quatrième et cinquième matchs du tournoi disputé contre le champion Sedol ont encore des choses à nous enseigner sur la force symbolique de l’apprentissage automatique.
 
Au matin du quatrième jour du tournoi de cinq matchs en cinq jours, alors que les caméras s’installent, les dés sont jetés: Lee Sedol a déjà perdu le championnat après sa défaite lors du troisième match, la veille. Il apparait devant nous enfin serein. Résigné à l’idée d’avoir été battu par une machine, il peut dorénavant jouer pour jouer. Contre toute attente, il remporte la partie après avoir désarçonné AlphaGo avec un des coups créatifs dont il a le secret (d’après les prévisions de l’algorithme, seul un humain sur 10 000 aurait choisi de tenter ce fameux 78e coup, qui lui a été fatal). La Corée du Sud célèbre et les appareils photo cliquètent: peu importe ce qui arrivera demain, l’honneur de l’humanité est sauf.
 
Le lendemain, l’espoir fébrile de voir Sedol prendre une deuxième revanche fait son chemin et la tension monte d’un cran. La partie commence, et l’impensable semble en effet en voie de se produire; on assiste en direct à ce qui semble être la déconfiture de la machine. Tous les analystes sont d’accord: AlphaGo multiplie les erreurs et les coups bizarres. Ici et là, on se permet même des éclats de rire.
 
Dans les faits, ce qui se déploie sous le regard des spectateurs éberlués, c’est une partie de go comme aucun humain n’en a joué jusque-là, et qui fera dire à un expert qu’on vient peut-être d’ajouter un dixième dan au système de classement du go, qui n’en compte que neuf. Au bout d’un match relevé de 280 coups, ne connaissant ni la honte, ni le rejet, ni le ridicule, le programme informatique l’emporte. Lee Sedol, comme tous les observateurs, est secoué par les capacités du logiciel, qui semble avoir appris de son extraordinaire 78e coup de la veille.
 
Aucun champion de chair, d’os et d’égo n’aurait tenté les coups incongrus qu’a joués AlphaGo lors de ce cinquième match: ils l’auraient fait passer pour fou devant des centaines de milliers de spectateurs. Mais AlphaGo, lui, ne connait que les essais, et les erreurs.

Vous pourriez aussi aimer

API-Error