Không mô hình (học tăng cường)

Trong học tăng cường (RL), một thuật toán không mô hình (trái ngược với một thuật toán dựa trên mô hình) là một thuật toán mà không sử dụng các phân bố xác suất chuyển tiếp (và các hàm phần thưởng) được gắn liền với quá trình quyết định Markov (MDP) [1],cái mà trong RL dùng để biểu diễn cho vấn đề cần giải quyết. Phân phối xác suất chuyển tiếp (hoặc mô hình chuyển tiếp) và hàm phần thưởng thường được gọi chung là "mô hình" của môi trường (hoặc MDP), do đó có tên "không mô hình". Một thuật toán RL không mô hình có thể được coi là một thuật toán thử và lỗi "rõ ràng" [1]. Một ví dụ về thuật toán không mô hình là Q-learning.

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ a b Sutton, Richard S.; Barto, Andrew G. (ngày 13 tháng 11 năm 2018). Reinforcement Learning: An Introduction (PDF) . A Bradford Book. tr. 552. ISBN 0262039249. Truy cập ngày 18 tháng 2 năm 2019.
Chúng tôi bán
Bài viết liên quan
Dead Poets Society (1989): Bức thư về lý tưởng sống cho thế hệ trẻ
Dead Poets Society (1989): Bức thư về lý tưởng sống cho thế hệ trẻ
Là bộ phim tiêu biểu của Hollywood mang đề tài giáo dục. Dead Poets Society (hay còn được biết đến là Hội Cố Thi Nhân) đến với mình vào một thời điểm vô cùng đặc biệt
[Review Game] Silent Hill: The Short Messenger
[Review Game] Silent Hill: The Short Messenger
Tựa game Silent Hill: The Short Messenger - được phát hành gần đây độc quyền cho PS5 nhân sự kiện State of Play
Một vài nét về bố đường quốc dân Nanami Kento - Jujutsu Kaisen
Một vài nét về bố đường quốc dân Nanami Kento - Jujutsu Kaisen
Lúc bạn nhận ra người khác đi làm vì đam mê là khi trên tay họ là số tiền trị giá hơn cả trăm triệu thì Sugar Daddy Nanami là một minh chứng khi bên ngoài trầm ổn, trưởng thành
[Phần 1] Nhật ký tình yêu chữa trĩ của tôi
[Phần 1] Nhật ký tình yêu chữa trĩ của tôi
Một câu truyện cười vl, nhưng đầy sự kute phô mai que