AlphaZero

AlphaZero là một chương trình máy tính được phát triển bởi trí tuệ nhân tạo của DeepMind để làm chủ các trò chơi của cờ vua, shogicờ vây. Thuật toán này sử dụng một cách tiếp cận tương tự như AlphaGo Zero.

Vào ngày 5 tháng 12 năm 2017, nhóm DeepMind đã phát hành bản tiền xuất bản giới thiệu AlphaZero, trong vòng 24 giờ đào tạo đã đạt được mức độ chơi siêu phàm trong ba trò chơi này bằng cách đánh bại các chương trình vô địch thế giới Stockfish, elmo và phiên bản 3 ngày của AlphaGo Zero. Trong mỗi trường hợp, nó đã sử dụng các đơn vị xử lý tensor tùy chỉnh (TPU) mà các chương trình Google được tối ưu hóa để sử dụng. AlphaZero chỉ được đào tạo thông qua "tự chơi" bằng cách sử dụng 5.000 TPU thế hệ đầu tiên để tạo ra các trò chơi và 64 TPU thế hệ thứ hai để huấn luyện các mạng thần kinh, song song, không có quyền truy cập vào kho khai cuộc và tàn cuộc. Sau bốn giờ đào tạo, DeepMind ước tính AlphaZero đã chơi ở mức Elo cao hơn Stockfish 8; Sau 9 giờ huấn luyện, thuật toán đã đánh bại Stockfish 8 trong một giải đấu 100 ván được giới hạn thời gian (28 trận thắng, 0 trận thua và 72 trận hòa).[1][2] Thuật toán được đào tạo đã chơi trên một máy đơn có bốn TPU.

Bài viết của DeepMind về AlphaZero đã được xuất bản trên tạp chí Science vào ngày 7 tháng 12 năm 2018.[3] Vào năm 2019, DeepMind đã xuất bản một bài báo mới chi tiết về MuZero, một thuật toán mới có thể khái quát hóa trên AlphaZero khi chơi cả Atari và các trò chơi trên bàn mà không có kiến thức về các quy tắc hoặc biểu diễn của trò chơi.

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ Knapton, Sarah; Watson, Leon (ngày 6 tháng 12 năm 2017). “Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours” (bằng tiếng Anh). Telegraph.co.uk. Truy cập ngày 6 tháng 12 năm 2017.
  2. ^ Vincent, James (ngày 6 tháng 12 năm 2017). “DeepMind's AI became a superhuman chess player in a few hours, just for fun”. The Verge. Truy cập ngày 6 tháng 12 năm 2017.
  3. ^ Silver, David; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan (ngày 7 tháng 12 năm 2018). “A general reinforcement learning algorithm that masters chess, shogi, and go through self-play”. Science. 362 (6419): 1140–1144. Bibcode:2018Sci...362.1140S. doi:10.1126/science.aar6404. PMID 30523106.
Chúng tôi bán
Bài viết liên quan
Doctor Who và Giáng sinh
Doctor Who và Giáng sinh
Tồn tại giữa thăng trầm trong hơn 50 năm qua, nhưng mãi đến đợt hồi sinh mười năm trở lại đây
Tribe: Primitive Builder - Xây dựng bộ tộc nguyên thủy của riêng bạn
Tribe: Primitive Builder - Xây dựng bộ tộc nguyên thủy của riêng bạn
Tribe: Primitive Builder là một trò chơi mô phỏng xây dựng kết hợp sinh tồn. Trò chơi lấy bối cảnh thời kỳ nguyên thủy
Takamine: Samurai huyền thoại và hai món vũ khí lôi thần ban tặng
Takamine: Samurai huyền thoại và hai món vũ khí lôi thần ban tặng
Cánh cổng Arataki, Kế thừa Iwakura, mãng xà Kitain, Vết cắt sương mù Takamine
Hiểu đúng về lạm phát – áp lực chi tiêu khi đồng tiền mất giá
Hiểu đúng về lạm phát – áp lực chi tiêu khi đồng tiền mất giá
Lạm phát là một từ phổ biến trong lĩnh vực kinh tế và thường xuyên xuất hiện trong đời sống hằng ngày quanh ta