AlphaGo Zero

AlphaGo Zero
Tipus	motor de go
Equip
Desenvolupador(s)	Google DeepMind

AlphaGo Zero és una versió del programari AlphaGo de DeepMind Go. L'equip d'AlphaGo va publicar un article a la revista Nature el 19 d'octubre de 2017, presentant AlphaGo Zero, una versió creada sense utilitzar dades de jocs humans i més forta que qualsevol versió anterior.^[1] En jugar contra si mateix, AlphaGo Zero va superar la força d'AlphaGo Lee en tres dies guanyant 100 jocs a 0, va assolir el nivell d'AlphaGo Master en 21 dies i va superar totes les versions antigues en 40 dies.^[2]

Entrenar la intel·ligència artificial (IA) sense conjunts de dades derivats d'experts humans té implicacions importants per al desenvolupament d'IA amb habilitats sobrehumanes perquè les dades d'experts "sovint són cares, poc fiables o simplement no disponibles".^[3] Demis Hassabis, el cofundador i CEO de DeepMind, va dir que AlphaGo Zero era tan potent perquè "ja no estava limitat pels límits del coneixement humà".^[4] A més, AlphaGo Zero va tenir un millor rendiment que els models estàndard d'aprenentatge profund de reforç (com les implementacions DQN ^[5]) a causa de la seva integració de la cerca d'arbres de Monte Carlo. David Silver, un dels primers autors dels articles de DeepMind publicats a Nature a AlphaGo, va dir que és possible tenir algorismes d'IA generalitzats eliminant la necessitat d'aprendre dels humans.^[6]

Més tard Google va desenvolupar AlphaZero, una versió generalitzada d'AlphaGo Zero que podia jugar als escacs i Shōgi a més de Go. El desembre de 2017, AlphaZero va superar la versió de 3 dies d'AlphaGo Zero guanyant 60 partides a 40, i amb 8 hores d'entrenament va superar AlphaGo Lee a escala Elo. AlphaZero també va derrotar un programa d'escacs superior (Stockfish) i un programa superior de Shōgi (Elmo).^[7]^[8]

Entrenament

La xarxa neuronal d'AlphaGo Zero es va entrenar amb TensorFlow, amb 64 treballadors de GPU i 19 servidors de paràmetres de CPU. Només es van utilitzar quatre TPU per a la inferència. La xarxa neuronal inicialment no sabia res sobre Go més enllà de les regles. A diferència de les versions anteriors d'AlphaGo, Zero només va percebre les pedres del tauler, en lloc de tenir alguns casos rars programats per humans per ajudar a reconèixer posicions inusuals del tauler Go. L'IA es va dedicar a l'aprenentatge per reforç, jugant contra si mateixa fins que va poder anticipar els seus propis moviments i com aquests moviments afectarien el resultat del joc.^[9] Durant els tres primers dies, AlphaGo Zero va jugar 4,9 milions de partides contra si mateix en ràpida successió.^[10] Semblava desenvolupar les habilitats necessàries per vèncer els millors humans en pocs dies, mentre que l'AlphaGo anterior va necessitar mesos d'entrenament per aconseguir el mateix nivell.^[11]

Com a comparació, els investigadors també van entrenar una versió d'AlphaGo Zero utilitzant jocs humans, AlphaGo Master, i van trobar que aprenia més ràpidament, però que en realitat va tenir un rendiment més baix a la llarga.^[12] DeepMind va presentar les seves troballes inicials en un article a Nature l'abril de 2017, que es va publicar a l'octubre de 2017.

Cost del maquinari

El cost del maquinari per a un únic sistema AlphaGo Zero el 2017, incloses les quatre TPU, s'ha cotitzat al voltant dels 25 milions de dòlars.^[13]

Aplicacions

Segons Hassabis, és probable que els algorismes d'AlphaGo siguin els més beneficiosos per als dominis que requereixen una cerca intel·ligent a través d'un enorme espai de possibilitats, com ara el plegament proteic (vegeu AlphaFold) o la simulació precisa de reaccions químiques.^[14] Les tècniques d'AlphaGo probablement són menys útils en dominis difícils de simular, com ara aprendre a conduir un cotxe.^[15] DeepMind va declarar l'octubre de 2017 que ja havia començat a treballar activament per intentar utilitzar la tecnologia AlphaGo Zero per al plegament de proteïnes i va declarar que aviat publicaria noves troballes.^[16]^[17]

Recepció

AlphaGo Zero va ser àmpliament considerat com un avenç significatiu, fins i tot en comparació amb el seu predecessor innovador, AlphaGo. Oren Etzioni, de l'Institut Allen d'Intel·ligència Artificial, va qualificar AlphaGo Zero d'"un resultat tècnic molt impressionant" tant en "la seva capacitat per fer-ho com en la seva capacitat per entrenar el sistema en 40 dies, en quatre TPU".^[9] The Guardian ho va anomenar un "gran avenç per a la intel·ligència artificial", citant Eleni Vasilaki de la Universitat de Sheffield i Tom Mitchell de la Universitat Carnegie Mellon, que ho van qualificar d'una gesta impressionant i un "assoliment d'enginyeria excepcional" respectivament.^[15] Mark Pesce, de la Universitat de Sydney, va qualificar AlphaGo Zero de "un gran avenç tecnològic" que ens porta a "territori no descobert".^[18]

Gary Marcus, psicòleg de la Universitat de Nova York, ha advertit que, per tot el que sabem, AlphaGo pot contenir "coneixement implícit que tenen els programadors sobre com construir màquines per jugar problemes com Go" i s'haurà de provar en altres dominis abans de estar segurs que la seva arquitectura base és eficaç en molt més que jugar a Go. En canvi, DeepMind està "confiat que aquest enfocament es pot generalitzar a un gran nombre de dominis".^[10]

En resposta als informes, el professional sud-coreà de Go Lee Sedol va dir: "La versió anterior d'AlphaGo no era perfecta i crec que per això es va crear AlphaGo Zero". Sobre el potencial de desenvolupament d'AlphaGo, Lee va dir que haurà d'esperar i veure, però també va dir que afectarà els joves jugadors de Go. Mok Jin-seok, que dirigeix l'equip nacional de Go de Corea del Sud, va dir que el món de Go ja ha estat imitant els estils de joc de versions anteriors d'AlphaGo i ha creat noves idees a partir d'ells, i espera que surtin noves idees d'AlphaGo Zero. Mok també va afegir que les tendències generals del món Go estan sent influenciades per l'estil de joc d'AlphaGo. "Al principi, era difícil d'entendre i gairebé vaig sentir com si estigués jugant contra un extraterrestre. Tanmateix, després d'haver tingut una gran experiència, m'hi he acostumat", va dir Mok. "Ara hem passat el punt en què debatem la bretxa entre la capacitat d'AlphaGo i els humans. Ara és entre ordinadors". Mok ja ha començat a analitzar l'estil de joc d'AlphaGo Zero juntament amb jugadors de la selecció nacional. "Tot i que només hem vist unes quantes partides, vam tenir la impressió que AlphaGo Zero juga més com un humà que els seus predecessors", va dir Mok.^[19] El professional de xinès de Go, Ke Jie, va comentar els èxits notables del nou programa: "Un AlphaGo d'autoaprenentatge pur és el més fort. Els humans semblen redundants davant la seva auto-superació." ^[20]

Comparació amb els predecessors

Configuració i força^[21]
Versions	Reproducció de maquinari^[22]	Classificació Elo	Matxs
Fan AlphaGo	176 GPU,^[2] distribuïdes	3.144	5:0 contra Fan Hui
AlphaGo Lee	48 TPU,^[2] distribuïts	3.739 ^[1]	4:1 contra Lee Sedol
AlphaGo Master	4 TPU,^[2] màquina única	4.858 ^[1]	60:0 contra jugadors professionals; El futur de Go Summit
AlphaGo Zero (40 days)	4 TPU,^[2] màquina única	5.185 ^[1]	100:0 contra AlphaGo Lee 89:11 contra AlphaGo Master
AlphaZero (34 hours)	4 TPU, màquina única^[7]	4.430 (est.) ^[7]	60:40 contra un AlphaGo Zero de 3 dies

AlphaZero

El 5 de desembre de 2017, l'equip de DeepMind va publicar una preimpressió a arXiv, presentant AlphaZero, un programa que utilitzava l'enfocament generalitzat d'AlphaGo Zero, que va aconseguir en 24 hores un nivell de joc sobrehumà als escacs, shogi i Go, derrotant els programes de campions del món, Stockfish, Elmo, i la versió de 3 dies d'AlphaGo Zero en cada cas.^[7]

AlphaZero (AZ) és una variant més generalitzada de l'algorisme AlphaGo Zero (AGZ) i és capaç de jugar a shogi i escacs així com a Go. Les diferències entre AZ i AGZ inclouen:^[7]

AZ té regles codificades en dur per establir hiperparàmetres de cerca.
La xarxa neuronal s'actualitza contínuament.
Els escacs (a diferència de Go) poden acabar en empat; per tant, l'AZ pot tenir en compte la possibilitat d'un partit d'empat.

Hi ha disponible un programa de codi obert, Leela Zero, basat en les idees dels articles d'AlphaGo. Utilitza una GPU en lloc de les TPU en què es basen les versions recents d'AlphaGo.

Referències

↑ ^1,0 ^1,1 ^1,2 ^1,3 Silver, David; Schrittwieser, Julian; Simonyan, Karen; Antonoglou, Ioannis; Huang, Aja; Guez, Arthur; Hubert, Thomas; Baker, Lucas; Lai, Matthew «Mastering the game of Go without human knowledge». Nature, 550, 7676, 19-10-2017, pàg. 354–359. Bibcode: 2017Natur.550..354S. DOI: 10.1038/nature24270. ISSN: 0028-0836. PMID: 29052630.
↑ ^2,0 ^2,1 ^2,2 ^2,3 ^2,4 Hassabis, Demis. «AlphaGo Zero: Learning from scratch». DeepMind official website, 18-10-2017. Arxivat de l'original el 19 d’octubre 2017. [Consulta: 19 octubre 2017].
↑ «Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone». Yahoo! Finance, 19-10-2017. [Consulta: 19 octubre 2017].
↑ , 18-10-2017.
↑ [Consulta: 7 juliol 2021].
↑ «DeepMind AlphaGo Zero learns on its own without meatbag intervention». ZDNet, 19-10-2017. [Consulta: 20 octubre 2017].
↑ ^7,0 ^7,1 ^7,2 ^7,3 ^7,4 Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm.
↑ ; Watson, Leon «Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours». , 06-12-2017.
↑ ^9,0 ^9,1 «AI versus AI: Self-Taught AlphaGo Zero Vanquishes Its Predecessor» (en anglès). [Consulta: 20 octubre 2017].
↑ ^10,0 ^10,1 «Computer Learns To Play Go At Superhuman Levels 'Without Human Knowledge'» (en anglès). , 18-10-2017 [Consulta: 20 octubre 2017].
↑ «Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone» (en anglès). , 19-10-2017 [Consulta: 20 octubre 2017].
↑ (en anglès) , 18-10-2017.
↑ «Self-taught AI is best yet at strategy game Go» (en anglès). , 18-10-2017.
↑ «The latest AI can work things out without being taught» (en anglès). [Consulta: 20 octubre 2017].
↑ ^15,0 ^15,1 «'It's able to create knowledge itself': Google unveils AI that learns on its own». , 18-10-2017 [Consulta: 20 octubre 2017].
↑ «'It's able to create knowledge itself': Google unveils AI that learns on its own». , 18-10-2017 [Consulta: 26 desembre 2017].
↑ «AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days». , 18-10-2017 [Consulta: 26 desembre 2017].
↑ «How Google's new AI can teach itself to beat you at the most complex games» (en anglès australià). , 19-10-2017.
↑ «Go Players Excited About 'More Humanlike' AlphaGo Zero» (en anglès). , 19-10-2017.
↑ «New version of AlphaGo can master Weiqi without human help» (en anglès). , 19-10-2017.
↑ «【柯洁战败解密】AlphaGo Master最新架构和算法，谷歌云与TPU拆解» (en xinès). Sohu, 24-05-2017. [Consulta: 1r juny 2017].
↑ El maquinari utilitzat durant l'entrenament pot ser substancialment més potent

Enllaços externs i més lectura

Bloc AlphaGo Arxivat 2017-10-19 a Wayback Machine.
Jocs AlphaGo Zero
AMA a Reddit

[Nature2017-1] 1,0 ^1,1 ^1,2 ^1,3 Silver, David; Schrittwieser, Julian; Simonyan, Karen; Antonoglou, Ioannis; Huang, Aja; Guez, Arthur; Hubert, Thomas; Baker, Lucas; Lai, Matthew «Mastering the game of Go without human knowledge». Nature, 550, 7676, 19-10-2017, pàg. 354–359. Bibcode: 2017Natur.550..354S. DOI: 10.1038/nature24270. ISSN: 0028-0836. PMID: 29052630.

[Deepmind20171018-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 Hassabis, Demis. «AlphaGo Zero: Learning from scratch». DeepMind official website, 18-10-2017. Arxivat de l'original el 19 d’octubre 2017. [Consulta: 19 octubre 2017].

[3] «Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone». Yahoo! Finance, 19-10-2017. [Consulta: 19 octubre 2017].

[4] , 18-10-2017.

[5] [Consulta: 7 juliol 2021].

[6] «DeepMind AlphaGo Zero learns on its own without meatbag intervention». ZDNet, 19-10-2017. [Consulta: 20 octubre 2017].

[preprint-7] 7,0 ^7,1 ^7,2 ^7,3 ^7,4 Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm.

[8] ; Watson, Leon «Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours». , 06-12-2017.

[Scientific_American-9] 9,0 ^9,1 «AI versus AI: Self-Taught AlphaGo Zero Vanquishes Its Predecessor» (en anglès). [Consulta: 20 octubre 2017].

[npr-10] 10,0 ^10,1 «Computer Learns To Play Go At Superhuman Levels 'Without Human Knowledge'» (en anglès). , 18-10-2017 [Consulta: 20 octubre 2017].

[11] «Google's New AlphaGo Breakthrough Could Take Algorithms Where No Humans Have Gone» (en anglès). , 19-10-2017 [Consulta: 20 octubre 2017].

[12] (en anglès) , 18-10-2017.

[13] «Self-taught AI is best yet at strategy game Go» (en anglès). , 18-10-2017.

[14] «The latest AI can work things out without being taught» (en anglès). [Consulta: 20 octubre 2017].

[guardian-15] 15,0 ^15,1 «'It's able to create knowledge itself': Google unveils AI that learns on its own». , 18-10-2017 [Consulta: 20 octubre 2017].

[16] «'It's able to create knowledge itself': Google unveils AI that learns on its own». , 18-10-2017 [Consulta: 26 desembre 2017].

[17] «AlphaGo Zero: Google DeepMind supercomputer learns 3,000 years of human knowledge in 40 days». , 18-10-2017 [Consulta: 26 desembre 2017].

[18] «How Google's new AI can teach itself to beat you at the most complex games» (en anglès australià). , 19-10-2017.

[19] «Go Players Excited About 'More Humanlike' AlphaGo Zero» (en anglès). , 19-10-2017.

[20] «New version of AlphaGo can master Weiqi without human help» (en anglès). , 19-10-2017.

[sohu0524-21] «【柯洁战败解密】AlphaGo Master最新架构和算法，谷歌云与TPU拆解» (en xinès). Sohu, 24-05-2017. [Consulta: 1r juny 2017].

[22] El maquinari utilitzat durant l'entrenament pot ser substancialment més potent

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]