增強式學習

#重定向强化学习.

强化学习

强化学习（Reinforcement learning，簡稱RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下，强化学习被称作“近似动态规划”（approximate dynamic programming，ADP）。在最优控制理论中也有研究这个问题，虽然大部分的研究是关于最优解的存在和特性，并非是学习或者近似方面。在经济学和博弈论中，强化学习被用来解释在有限理性的条件下如何出现平衡。在机器学习问题中，环境通常被规范为马可夫决策过程（MDP），所以许多强化学习算法在这种情况下使用动态规划技巧。传统的技术和强化学习算法的主要区别是，后者不需要关于MDP的知识，而且针对无法找到确切方法的大规模MDP。强化学习和标准的监督式学习之间的区别在于，它并不需要出现正确的输入/输出对，也不需要精确校正次优化的行为。强化学习更加专注于在线规划，需要在探索（在未知的领域）和遵从（现有知识）之间找到平衡。强化学习中的“探索-遵从”的交换，在问题和有限MDP中研究得最多。.

查看增強式學習和强化学习

联盟百科是组织像一个百科全书或字典中的概念图和语义网络。它给每一个概念及其关系的简单定义。

这是用作概念图的基础的大型在线心理地图。它是免费使用，每篇文章或文档可以下载。它是一个工具，资源或学习，研究，教育，学习或教学参考书，也可以由教师，教育工作者，学生或学生; 对于学术界：学校，小学，中学，高中，初中，大学，工科学历，大专，本科，硕士或博士学位; 对于论文，报告，项目，理念，文档，调查，汇总，或论文。这里的定义是，说明中，描述，或每显著在其上需要的信息的含义，并且它们的相关概念，作为词汇列表。可在中文, 英文, 西班牙文, 葡萄牙文, 日文, 法文, 德文, 意大利文, 波兰文, 荷兰文, 俄文, 阿拉伯文, 印地文, 瑞典文, 乌克兰文, 匈牙利文, 加泰罗尼亚文, 捷克文, 希伯来文, 丹麦文, 芬兰文, 印度尼西亚文, 挪威文, 罗马尼亚文, 土耳其文, 越南文, 한국어, 泰语, 希腊语, 保加利亚语, 克罗地亚语, 斯洛伐克语, 立陶宛语, 菲律宾人, 拉脱维亚语, 爱沙尼亚语和斯洛文尼亚语。更多语言很快。

信息基于维基百科文章和其他维基媒体项目，并根据知识共享署名-相同方式共享许可协议提供。

联盟百科不受维基媒体基金会的认可或附属。

Google Play、Android 和 Google Play 徽标均为 Google Inc. 的商标。

隐私政策

增強式學習

目录

强化学习