Không mô hình (học tăng cường)

Trong học tăng cường (RL), một thuật toán không mô hình (trái ngược với một thuật toán dựa trên mô hình) là một thuật toán mà không sử dụng các phân bố xác suất chuyển tiếp (và các hàm phần thưởng) được gắn liền với quá trình quyết định Markov (MDP) [1],cái mà trong RL dùng để biểu diễn cho vấn đề cần giải quyết. Phân phối xác suất chuyển tiếp (hoặc mô hình chuyển tiếp) và hàm phần thưởng thường được gọi chung là "mô hình" của môi trường (hoặc MDP), do đó có tên "không mô hình". Một thuật toán RL không mô hình có thể được coi là một thuật toán thử và lỗi "rõ ràng" [1]. Một ví dụ về thuật toán không mô hình là Q-learning.

Tham khảo[sửa | sửa mã nguồn]

  1. ^ a b Sutton, Richard S.; Barto, Andrew G. (ngày 13 tháng 11 năm 2018). Reinforcement Learning: An Introduction (PDF) . A Bradford Book. tr. 552. ISBN 0262039249. Truy cập ngày 18 tháng 2 năm 2019.
Chúng tôi bán
Bài viết liên quan
[Genshin Impact] Giới thiệu Albedo - Giả thuật sư thiên tài
[Genshin Impact] Giới thiệu Albedo - Giả thuật sư thiên tài
Chuyện kể rằng, một ngày nọ, khi đến Mondstadt, anh ấy nhanh chóng được nhận làm "Hội Trưởng Giả Kim Thuật Sĩ" kiêm đội trưởng tiểu đội điều tra
Giới thiệu nhân vật Yuri Alpha Overlord
Giới thiệu nhân vật Yuri Alpha Overlord
Yuri Alpha (ユ リ ・ ア ル フ ァ, Yuri ・ α) là đội phó của "Pleiades Six Stars", đội chiến hầu của Lăng mộ vĩ đại Nazarick. Cô được tạo ra bởi Yamaiko, một trong ba thành viên nữ của Ainz Ooal Gown
Giải đáp một số câu hỏi về Yelan - Genshin Impact
Giải đáp một số câu hỏi về Yelan - Genshin Impact
Yelan C0 vẫn có thể phối hợp tốt với những char hoả như Xiangling, Yoimiya, Diluc
Danh sách địa điểm du lịch Tết cực hấp dẫn tại Châu Á
Danh sách địa điểm du lịch Tết cực hấp dẫn tại Châu Á
Bạn muốn du lịch nước ngoài trong dịp tết này cùng gia đình hay bạn bè? Sẽ có nhiều lựa chọn với những vùng đất đẹp như mơ trong mùa xuân này. Dưới đây là những địa điểm du lịch tại Châu Á mà bạn phải đến trong dịp Tết này.