Tipus | motor de go |
---|---|
Equip | |
Desenvolupador(s) | Google DeepMind |
AlphaGo Zero és una versió del programari AlphaGo de DeepMind Go. L'equip d'AlphaGo va publicar un article a la revista Nature el 19 d'octubre de 2017, presentant AlphaGo Zero, una versió creada sense utilitzar dades de jocs humans i més forta que qualsevol versió anterior.[1] En jugar contra si mateix, AlphaGo Zero va superar la força d'AlphaGo Lee en tres dies guanyant 100 jocs a 0, va assolir el nivell d'AlphaGo Master en 21 dies i va superar totes les versions antigues en 40 dies.[2]
Entrenar la intel·ligència artificial (IA) sense conjunts de dades derivats d'experts humans té implicacions importants per al desenvolupament d'IA amb habilitats sobrehumanes perquè les dades d'experts "sovint són cares, poc fiables o simplement no disponibles".[3] Demis Hassabis, el cofundador i CEO de DeepMind, va dir que AlphaGo Zero era tan potent perquè "ja no estava limitat pels límits del coneixement humà".[4] A més, AlphaGo Zero va tenir un millor rendiment que els models estàndard d'aprenentatge profund de reforç (com les implementacions DQN [5]) a causa de la seva integració de la cerca d'arbres de Monte Carlo. David Silver, un dels primers autors dels articles de DeepMind publicats a Nature a AlphaGo, va dir que és possible tenir algorismes d'IA generalitzats eliminant la necessitat d'aprendre dels humans.[6]
Més tard Google va desenvolupar AlphaZero, una versió generalitzada d'AlphaGo Zero que podia jugar als escacs i Shōgi a més de Go. El desembre de 2017, AlphaZero va superar la versió de 3 dies d'AlphaGo Zero guanyant 60 partides a 40, i amb 8 hores d'entrenament va superar AlphaGo Lee a escala Elo. AlphaZero també va derrotar un programa d'escacs superior (Stockfish) i un programa superior de Shōgi (Elmo).[7][8]
La xarxa neuronal d'AlphaGo Zero es va entrenar amb TensorFlow, amb 64 treballadors de GPU i 19 servidors de paràmetres de CPU. Només es van utilitzar quatre TPU per a la inferència. La xarxa neuronal inicialment no sabia res sobre Go més enllà de les regles. A diferència de les versions anteriors d'AlphaGo, Zero només va percebre les pedres del tauler, en lloc de tenir alguns casos rars programats per humans per ajudar a reconèixer posicions inusuals del tauler Go. L'IA es va dedicar a l'aprenentatge per reforç, jugant contra si mateixa fins que va poder anticipar els seus propis moviments i com aquests moviments afectarien el resultat del joc.[9] Durant els tres primers dies, AlphaGo Zero va jugar 4,9 milions de partides contra si mateix en ràpida successió.[10] Semblava desenvolupar les habilitats necessàries per vèncer els millors humans en pocs dies, mentre que l'AlphaGo anterior va necessitar mesos d'entrenament per aconseguir el mateix nivell.[11]
Com a comparació, els investigadors també van entrenar una versió d'AlphaGo Zero utilitzant jocs humans, AlphaGo Master, i van trobar que aprenia més ràpidament, però que en realitat va tenir un rendiment més baix a la llarga.[12] DeepMind va presentar les seves troballes inicials en un article a Nature l'abril de 2017, que es va publicar a l'octubre de 2017.
El cost del maquinari per a un únic sistema AlphaGo Zero el 2017, incloses les quatre TPU, s'ha cotitzat al voltant dels 25 milions de dòlars.[13]
Segons Hassabis, és probable que els algorismes d'AlphaGo siguin els més beneficiosos per als dominis que requereixen una cerca intel·ligent a través d'un enorme espai de possibilitats, com ara el plegament proteic (vegeu AlphaFold) o la simulació precisa de reaccions químiques.[14] Les tècniques d'AlphaGo probablement són menys útils en dominis difícils de simular, com ara aprendre a conduir un cotxe.[15] DeepMind va declarar l'octubre de 2017 que ja havia començat a treballar activament per intentar utilitzar la tecnologia AlphaGo Zero per al plegament de proteïnes i va declarar que aviat publicaria noves troballes.[16][17]
AlphaGo Zero va ser àmpliament considerat com un avenç significatiu, fins i tot en comparació amb el seu predecessor innovador, AlphaGo. Oren Etzioni, de l'Institut Allen d'Intel·ligència Artificial, va qualificar AlphaGo Zero d'"un resultat tècnic molt impressionant" tant en "la seva capacitat per fer-ho com en la seva capacitat per entrenar el sistema en 40 dies, en quatre TPU".[9] The Guardian ho va anomenar un "gran avenç per a la intel·ligència artificial", citant Eleni Vasilaki de la Universitat de Sheffield i Tom Mitchell de la Universitat Carnegie Mellon, que ho van qualificar d'una gesta impressionant i un "assoliment d'enginyeria excepcional" respectivament.[15] Mark Pesce, de la Universitat de Sydney, va qualificar AlphaGo Zero de "un gran avenç tecnològic" que ens porta a "territori no descobert".[18]
Gary Marcus, psicòleg de la Universitat de Nova York, ha advertit que, per tot el que sabem, AlphaGo pot contenir "coneixement implícit que tenen els programadors sobre com construir màquines per jugar problemes com Go" i s'haurà de provar en altres dominis abans de estar segurs que la seva arquitectura base és eficaç en molt més que jugar a Go. En canvi, DeepMind està "confiat que aquest enfocament es pot generalitzar a un gran nombre de dominis".[10]
En resposta als informes, el professional sud-coreà de Go Lee Sedol va dir: "La versió anterior d'AlphaGo no era perfecta i crec que per això es va crear AlphaGo Zero". Sobre el potencial de desenvolupament d'AlphaGo, Lee va dir que haurà d'esperar i veure, però també va dir que afectarà els joves jugadors de Go. Mok Jin-seok, que dirigeix l'equip nacional de Go de Corea del Sud, va dir que el món de Go ja ha estat imitant els estils de joc de versions anteriors d'AlphaGo i ha creat noves idees a partir d'ells, i espera que surtin noves idees d'AlphaGo Zero. Mok també va afegir que les tendències generals del món Go estan sent influenciades per l'estil de joc d'AlphaGo. "Al principi, era difícil d'entendre i gairebé vaig sentir com si estigués jugant contra un extraterrestre. Tanmateix, després d'haver tingut una gran experiència, m'hi he acostumat", va dir Mok. "Ara hem passat el punt en què debatem la bretxa entre la capacitat d'AlphaGo i els humans. Ara és entre ordinadors". Mok ja ha començat a analitzar l'estil de joc d'AlphaGo Zero juntament amb jugadors de la selecció nacional. "Tot i que només hem vist unes quantes partides, vam tenir la impressió que AlphaGo Zero juga més com un humà que els seus predecessors", va dir Mok.[19] El professional de xinès de Go, Ke Jie, va comentar els èxits notables del nou programa: "Un AlphaGo d'autoaprenentatge pur és el més fort. Els humans semblen redundants davant la seva auto-superació." [20]
Versions | Reproducció de maquinari[22] | Classificació Elo | Matxs |
---|---|---|---|
Fan AlphaGo | 176 GPU,[2] distribuïdes | 3.144 | 5:0 contra Fan Hui |
AlphaGo Lee | 48 TPU,[2] distribuïts | 3.739 [1] | 4:1 contra Lee Sedol |
AlphaGo Master | 4 TPU,[2] màquina única | 4.858 [1] | 60:0 contra jugadors professionals;
El futur de Go Summit |
AlphaGo Zero (40 days) | 4 TPU,[2] màquina única | 5.185 [1] | 100:0 contra AlphaGo Lee
89:11 contra AlphaGo Master |
AlphaZero (34 hours) | 4 TPU, màquina única[7] | 4.430 (est.) [7] | 60:40 contra un AlphaGo Zero de 3 dies |
El 5 de desembre de 2017, l'equip de DeepMind va publicar una preimpressió a arXiv, presentant AlphaZero, un programa que utilitzava l'enfocament generalitzat d'AlphaGo Zero, que va aconseguir en 24 hores un nivell de joc sobrehumà als escacs, shogi i Go, derrotant els programes de campions del món, Stockfish, Elmo, i la versió de 3 dies d'AlphaGo Zero en cada cas.[7]
AlphaZero (AZ) és una variant més generalitzada de l'algorisme AlphaGo Zero (AGZ) i és capaç de jugar a shogi i escacs així com a Go. Les diferències entre AZ i AGZ inclouen:[7]
Hi ha disponible un programa de codi obert, Leela Zero, basat en les idees dels articles d'AlphaGo. Utilitza una GPU en lloc de les TPU en què es basen les versions recents d'AlphaGo.