Vous êtes ici
[Dossier #2] Des progrès en intelligence artificielle
Alphago, une machine spécialisée en jeu de go gagne pour la première fois face à l'homme. Benoît Le Blanc a interrogé Fan Hui, un joueur qui en a fait l'expérience.
Les machines ont-elles progressé avec la victoire d'Alphago sur Lee Sedol au jeu de go ?
Oui, indéniablement, ce genre d’intelligence artificielle (I.A.) qui consiste à reconnaitre des formes ou des configurations dans un environnement réglé a bel et bien marqué des points. Cela mérite d’y réfléchir un peu.
Fan Hui, considéré actuellement comme le meilleur joueur de go en Europe, nous a raconté comment il a été le premier professionnel à se faire battre par un algorithme. A la suite de sa victoire au championnat européen en République Tchèque l’été dernier, il a été contacté par DeepMind, société ayant mis au point Alphago (et rachetée par Google). Contre toute attente, il a perdu les 5 parties jouées en octobre et tenue secrètes jusqu’à la parution de l’article dans Nature en janvier dernier.
Quand il joue au go, Hui dit ressentir la psychologie de l’adversaire, sans parler. Face à Alphago il s’est retrouvé comme devant un mur : « La question que tu poses, te revient », « On perd confiance face à un joueur sans aucun doute », « Tu ne peux pas jouer ‘normal’ face à lui », « Sa psychologie est nulle ou bien immense », « Alphago joue quelque chose de simple mais de jamais vu, on apprécie et cela fait progresser ». Il confie d’ailleurs avoir ressenti une terrible honte lors de ses défaites, honte rendue plus difficile à vivre du fait du secret à conserver quelques mois. Puis cette honte s’est transformée en fierté et finalement la partie contre la machine devient un jeu de miroir où il faut gagner face à soi : « Alphago a tout cassé, mais maintenant je réfléchis plus libre », « Alphago est comme un joueur surprenant, inattendu, il joue comme un humain créatif ».
Comment une simple série de calculs peut-elle en venir à faire douter les meilleurs joueurs d’un jeu pluri-millénaire, dont le nombre de combinaisons possibles est plus important que le nombre de particules dans l’univers ? La réponse tient dans l’algorithme de rétropropagation du gradient d’erreur et dans les réseaux de neurones multicouches. Ces algorithmes, mis au point à la fin des années 80, reviennent sur le devant de la scène avec le « Deep Learning ». Que ce soit pour reconnaitre des visages, les formes des objets ou encore des configurations très bien codifiées (comme la position de pierres colorées sur un plateau de go), l’apprentissage se fait de façon supervisée. Une forme est donnée en entrée à la machine, celle-ci dispose de différentes pondérations qui lui permettent de calculer une réponse, et ensuite la différence entre la réponse attendue et cette réponse calculée est réinjectée dans les pondérations pour les prochains calculs.
De proche en proche, après des essais-erreurs supervisés, la machine finit par stabiliser ses pondérations qui lui permettent alors de reconnaitre correctement les formes apprises mais aussi de donner des réponses extrapolées pour des formes d’entrée nouvelles qui lui sont proposées. Il n’est ainsi plus utile de connaitre toutes les configurations possibles du goban, mais « seulement » quelques millions (ou centaines de millions) d’entre elles qui vont venir en quelque sorte quadriller l’espace de toutes les configurations possibles.
Avec Alphago, l’apprentissage reste supervisé. Même si les coups joués provoquent de l’émotion chez les joueurs humains, les positions des pierres demeurent dans un environnement qui répond à des règles préétablies.
Yan LeCun, dont la séance inaugurale pour son cours au Collège de France a eu lieu en février dernier, est le concepteur français de cet algorithme il y a plus de 25 ans, rendant toute leur utilité aux réseaux de neurones. Sa carrière aux Etats-Unis le ramène aujourd’hui en France puisqu’il revient sur Paris également pour monter le laboratoire d’I.A. de Facebook. Reconnaitre des positions de jeu, reconnaitre des visages sur des photos sont finalement deux activités semblables : retenir en mémoire un grand nombre de configurations et retrouver celle qui s’applique le mieux à la situation.
De son coté, IBM a choisi une autre façon de faire de l’I.A., par de la fouille de texte et des calculs de cooccurrences de termes. Son programme, Watson, a gagné les meilleurs humains au jeu Jeopardy (l’équivalent américain de notre « Questions pour un champion ») en 2011. Watson traite des données textuelles pour formuler ses réponses et calculer en même temps un degré de certitude dans ces réponses. Ici l’apprentissage n’est pas supervisé, mais la machine n’est pas autonome pour autant. Ce sont des humains qui orientent le programme vers les millions de textes pertinents à fouiller.
Le match n’est plus « humain contre machine », il tourne à l’algorithme de reconnaissance des formes contre l’algorithme de fouille de textes : Google et Facebook d’un côté face à IBM de l’autre. Tous les deux affirment se lancer dans les programmes d’assistance à la santé. La compétition promet d’être passionnante.
Pour nous humains, il reste encore tous les champs dans lesquels l’apprentissage se fait naturellement, par réflexion, par exploration sans a priori, par curiosité et rapprochements inattendus, par constitution et mise en perspective de nouvelles codifications.
En somme, il nous reste la Recherche.