AlphaZero

Usa ka kompyuter program ang AlphaZero nga giugmad sa DeepMind. Naggamit ni sa susamang paagi sa AlphaGo Zero sa pagbansay dili lang sa dula nga Go, apan sa chess ug shogi sab. Niadtong Disyembre 5, 2017, mibutyag ang grupo sa DeepMind og preprint nga pagpaila sa AlphaZero. Sulod sa 24 oras mikab-ot ni og labi pa sa tawhanong barahan sa pagdula pinaagi sa pagbuntog sa pipila ka tibuok-kalibotan ka ngilngig nga kompyuter program, ang Stockfish, ang elmo, ug ang 3-ka-adlaw kagahia nga AlphaGo Zero.^[1] Gibuntog sa AlphaZero ang Stockfish human sa 4 ka oras bansaybansay batok sa iyang kaugalingon gamit ang 5,000 unang henerasyon nga tensor processing unit (TPUs) sa pagmugna sa mga dula ug 64 ka ikaduha nga henerasyon TPUs sa pagbansay sa mga nyural networks. Wala ni mopakitabang sa mga libro sa opening ni sa kalatalad sa chess ending. Gipadagan ang binansaybansay nga algoritmo sa usa lang ka kompyuter nga may upat ka TPUs.^[2]^[3]

Relasyon sa Zero AlphaGo

Ang AlphaZero (AZ) mas kinatibuk-anong bersyon sa AlphaGo Zero (AGZ) nga algoritmo, ug makahimo sa pagdula sa shogi ug chess ingon man sa Go. Ang kalainan sa AZ ug AGZ naglakip sa:

Dunay gipang-hardkud nga baod ang AZ sa pagset sa mga hyperparameter sa pag-utinkay.
Padayon nga gina update ang nyural network.
Simetrik ang Go (dili sama sa Chess); gipahaom ang AGZ aron pagpahimulos niini apan wala ang AZ.
Puydeng tablahon ang Chess (dili sama Go); busa apil sa gipuydeng punterya sa AZ ang tabla nga duwa.

AlphaZero batok sa Stockfish ug sa elmo

Miutinkay lang ang AlphaZero og 80,000 ka posisyon matag segundo sa chess ug 40,000 sa shogi, tandi sa 70 ka milyon alang sa Stockfish ug sa 35 milyon sa elmo. Gibawi ni sa AlphaZero ang ubos nga gidaghanon sa mga ebalwasyon pinaagi sa paggamit sa iyang mga lawom nga sa nyural network sa pinili nga pagtutok sa mga mas maypurohang baryasiyon.

Resulta

Chess

Sa dula sa AlphaZero sa chess batok sa Stockfish (2016 TCEC world champion), parehong tagsa ka minuto ray ihinuktok sa matag duso sa duha ka program. Gihatagan ang Stockfish og 64 ka thread ug 1 GB kadak-ang hash, kahimtang nga gitan-aw sa DeepMind optimal alang sa Stockfish. (Apan, gisupak ni Tord Romstad sa Stockfish igo-igo lang.) Sa 100 ka dula gikan sa normal nga sugod sa posisyon, ka-25 midaog ang AlphaZero isip puti, ka-3 isip itom, ug natabla ang nabilin nga 72.^[4] Sa serye sa napulog duha ka 100-dula nga tigi batok sa Stockfish nga nanukad sa 12 ka labing popular tawhanon nga opening, ka-290 midaog ang AlphaZero dili 290, ka-886 natablahan ug ka-24 napilde.

Ang mga pakisayran

↑ Plantilya:Cite arXiv
↑ Knapton, Sarah; Watson, Leon (6 December 2017). "Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours" (in Britanikong English). Telegraph.co.uk. Retrieved 6 December 2017.
↑ Vincent, James (6 December 2017). "DeepMind's AI became a superhuman chess player in a few hours, just for fun". The Verge. Retrieved 6 December 2017.
↑ "'Superhuman' Google AI claims chess crown". BBC News. 6 December 2017. Retrieved 7 December 2017.

Gikan sa gawas nga tinubdan

Chess.com Youtube playlist alang sa AlphaZero vs. Stockfish

[preprint-1] Plantilya:Cite arXiv

[telegraph-2] Knapton, Sarah; Watson, Leon (6 December 2017). "Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours" (in Britanikong English). Telegraph.co.uk. Retrieved 6 December 2017.

[3] Vincent, James (6 December 2017). "DeepMind's AI became a superhuman chess player in a few hours, just for fun". The Verge. Retrieved 6 December 2017.

[bbc-4] "'Superhuman' Google AI claims chess crown". BBC News. 6 December 2017. Retrieved 7 December 2017.

[1]

[2]

[3]

[4]