Không mô hình (học tăng cường)

Trong học tăng cường (RL), một thuật toán không mô hình (trái ngược với một thuật toán dựa trên mô hình) là một thuật toán mà không sử dụng các phân bố xác suất chuyển tiếp (và các hàm phần thưởng) được gắn liền với quá trình quyết định Markov (MDP) [1],cái mà trong RL dùng để biểu diễn cho vấn đề cần giải quyết. Phân phối xác suất chuyển tiếp (hoặc mô hình chuyển tiếp) và hàm phần thưởng thường được gọi chung là "mô hình" của môi trường (hoặc MDP), do đó có tên "không mô hình". Một thuật toán RL không mô hình có thể được coi là một thuật toán thử và lỗi "rõ ràng" [1]. Một ví dụ về thuật toán không mô hình là Q-learning.

Tham khảo[sửa | sửa mã nguồn]

  1. ^ a b Sutton, Richard S.; Barto, Andrew G. (ngày 13 tháng 11 năm 2018). Reinforcement Learning: An Introduction (PDF) . A Bradford Book. tr. 552. ISBN 0262039249. Truy cập ngày 18 tháng 2 năm 2019.
Chúng tôi bán
Bài viết liên quan
Ray Dalio - Thành công đến từ những thất bại đau đớn nhất
Ray Dalio - Thành công đến từ những thất bại đau đớn nhất
Ray Dalio là một trong số những nhà quản lý quỹ đầu tư nổi tiếng nhất trên thế giới
Power vs Force – khi “thử cơ” bá đạo hơn “cầu cơ”
Power vs Force – khi “thử cơ” bá đạo hơn “cầu cơ”
Anh em nghĩ gì khi nghe ai đó khẳng định rằng: chúng ta có thể tìm ra câu trả lời đúng/sai cho bất cứ vấn đề nào trên đời chỉ trong 1 phút?
The Alley Flash - Weapon Guide Genshin Impact
The Alley Flash - Weapon Guide Genshin Impact
The Alley Flash is a Weapon Event's weapon used to increase the damage dealt by the wearer, making it flexible to the characters
Review Phim:
Review Phim: "Gia Tài Của Ngoại" - Khi "Thời Gian" Hóa Thành "Vàng Bạc"
Chắc hẳn, dạo gần đây, "How to Make Millions Before Grandma Dies" hay "หลานม่า" (Lahn Mah) đã trở thành cơn sốt điện ảnh Đông Nam Á