DeepMind a publié un papier dans Nature le 27 janvier 2016 pour présenter AlphaGo.
AlphaGo est le premier programme à battre un pro humain sans coup d'avance.
Il y a deux règles importantes :
Malgré ses règles simples, le jeu de Go est très dur à maîtriser :
Explorer l'arbre de décision du jeu efficacement pour trouver le meilleur coup.
→ 200300 coups à explorer
Approximation de min-max.
Approximateurs de fonctions complexes, qu'on considère « intuitives » en tant qu'humains.
Principalement la compréhension d'images et de textes.
Plusieurs couches de filtres successives.
Au lieu de travailler sur des pixels, les filtres travaillent sur des intersections.
Augmenter la recherche arborescente Monte-Carlo aved deux réseaux de neurones à convolutions
Predit le prochain coup étant donné la position
Predit le vainqueur étant donné la position.
À l'échelle de Google :
A battu Fan Hui, champion européen, 5-0.
A battu Lee Sedol, grand champion du Go moderne, 4-1.
Prix pour le vainqueur : 1M$.
19 octobre 2017 : plus d'apprentissage supervisé. Tout en renforcement !
5 décembre 2017 : plus général. S'applique aux échecs, au shogi, …
19 novembre 2019 : n'a pas accès aux règles. Les infère.
Pour jouer :