AlphaZero

AlphaZero là một chương trình máy tính được phát triển bởi trí tuệ nhân tạo của DeepMind để làm chủ các trò chơi của cờ vua, shogicờ vây. Thuật toán này sử dụng một cách tiếp cận tương tự như AlphaGo Zero.

Vào ngày 5 tháng 12 năm 2017, nhóm DeepMind đã phát hành bản tiền xuất bản giới thiệu AlphaZero, trong vòng 24 giờ đào tạo đã đạt được mức độ chơi siêu phàm trong ba trò chơi này bằng cách đánh bại các chương trình vô địch thế giới Stockfish, elmo và phiên bản 3 ngày của AlphaGo Zero. Trong mỗi trường hợp, nó đã sử dụng các đơn vị xử lý tensor tùy chỉnh (TPU) mà các chương trình Google được tối ưu hóa để sử dụng. AlphaZero chỉ được đào tạo thông qua "tự chơi" bằng cách sử dụng 5.000 TPU thế hệ đầu tiên để tạo ra các trò chơi và 64 TPU thế hệ thứ hai để huấn luyện các mạng thần kinh, song song, không có quyền truy cập vào kho khai cuộc và tàn cuộc. Sau bốn giờ đào tạo, DeepMind ước tính AlphaZero đã chơi ở mức Elo cao hơn Stockfish 8; Sau 9 giờ huấn luyện, thuật toán đã đánh bại Stockfish 8 trong một giải đấu 100 ván được giới hạn thời gian (28 trận thắng, 0 trận thua và 72 trận hòa).[1][2] Thuật toán được đào tạo đã chơi trên một máy đơn có bốn TPU.

Bài viết của DeepMind về AlphaZero đã được xuất bản trên tạp chí Science vào ngày 7 tháng 12 năm 2018.[3] Vào năm 2019, DeepMind đã xuất bản một bài báo mới chi tiết về MuZero, một thuật toán mới có thể khái quát hóa trên AlphaZero khi chơi cả Atari và các trò chơi trên bàn mà không có kiến thức về các quy tắc hoặc biểu diễn của trò chơi.

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ Knapton, Sarah; Watson, Leon (ngày 6 tháng 12 năm 2017). “Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours” (bằng tiếng Anh). Telegraph.co.uk. Truy cập ngày 6 tháng 12 năm 2017.
  2. ^ Vincent, James (ngày 6 tháng 12 năm 2017). “DeepMind's AI became a superhuman chess player in a few hours, just for fun”. The Verge. Truy cập ngày 6 tháng 12 năm 2017.
  3. ^ Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan (ngày 7 tháng 12 năm 2018). “A general reinforcement learning algorithm that masters chess, shogi, and go through self-play”. Science. 362 (6419): 1140–1144. Bibcode:2018Sci...362.1140S. doi:10.1126/science.aar6404. PMID 30523106.
Chúng tôi bán
Bài viết liên quan
Ngoại trừ sự sống và cái chết, mọi thứ đều là phù du
Ngoại trừ sự sống và cái chết, mọi thứ đều là phù du
Bạn có biết điều bất trắc là gì không ? điều bất trắc là một cuộc chia tay đã quá muộn để nói lời tạm biệt
Mình học được gì sau cú
Mình học được gì sau cú "big short" bay 6 tháng lương?
Nếu bạn hỏi: thị trường tài sản số có nhiều cơ hội hay không. Mình sẽ mạnh dạn trả lời có
Genshin Impact - Hướng dẫn build đồ tối ưu cho newbie
Genshin Impact - Hướng dẫn build đồ tối ưu cho newbie
Sai lầm của 1 số newbie về việc build tướng như thế nào là tối ưu nhất vì chưa hiểu rõ role
Sức mạnh và khả năng của Lục Nhãn - Jujutsu Kaisen
Sức mạnh và khả năng của Lục Nhãn - Jujutsu Kaisen
Lục nhãn hay Rikugan là khả năng độc nhất, chỉ luôn tồn tại một người sở con mắt này trong thế giới chú thuật