Không mô hình (học tăng cường)

Trong học tăng cường (RL), một thuật toán không mô hình (trái ngược với một thuật toán dựa trên mô hình) là một thuật toán mà không sử dụng các phân bố xác suất chuyển tiếp (và các hàm phần thưởng) được gắn liền với quá trình quyết định Markov (MDP) [1],cái mà trong RL dùng để biểu diễn cho vấn đề cần giải quyết. Phân phối xác suất chuyển tiếp (hoặc mô hình chuyển tiếp) và hàm phần thưởng thường được gọi chung là "mô hình" của môi trường (hoặc MDP), do đó có tên "không mô hình". Một thuật toán RL không mô hình có thể được coi là một thuật toán thử và lỗi "rõ ràng" [1]. Một ví dụ về thuật toán không mô hình là Q-learning.

Tham khảo

[sửa | sửa mã nguồn]
  1. ^ a b Sutton, Richard S.; Barto, Andrew G. (ngày 13 tháng 11 năm 2018). Reinforcement Learning: An Introduction (PDF) . A Bradford Book. tr. 552. ISBN 0262039249. Truy cập ngày 18 tháng 2 năm 2019.
Chúng tôi bán
Bài viết liên quan
Giới thiệu các Tộc và Hệ trong Yugioh
Giới thiệu các Tộc và Hệ trong Yugioh
Trong thế giới bài Yu - Gi- Oh! đã bao giờ bạn tự hỏi xem có bao nhiêu dòng tộc của quái thú, hay như quái thú được phân chia làm mấy thuộc tính
Nhân vật Nigredo trong Overlord
Nhân vật Nigredo trong Overlord
Nigredo là một Magic Caster và nằm trong những NPC cấp cao đứng đầu danh sách của Nazarick
Pokémon Nobelium
Pokémon Nobelium
Due to it's territorial extent over a large amount of land, Aloma is divided into two parts, Upper and Lower Aloma
Vật phẩm thế giới Five Elements Overcoming - Overlord
Vật phẩm thế giới Five Elements Overcoming - Overlord
Five Elements Overcoming Hay được biết đến với cái tên " Ngũ Hành Tương Khắc " Vật phẩm cấp độ thế giới thuộc vào nhóm 20 World Item vô cùng mạnh mẽ và quyền năng trong Yggdrasil.