测试
强化学习 (英語:Reinforcement learning ,簡稱RL )是机器学习 中的一个领域,强调如何基于环境 而行动,以取得最大化的预期利益[ 1] 。强化学习是除了监督学习 和非监督学习 之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡[ 2] ,强化学习中的“探索-利用”的交换,在多臂赌博机 问题和有限MDP中研究得最多。
其灵感来源于心理学中的行为主义 理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论 、控制论 、运筹学 、信息论 、仿真优化、多智能体系统 、群体智能 、统计学 以及遗传算法 。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。在最优控制 理论中也有研究这个问题,虽然大部分的研究是关于最优解的存在和特性,并非是学习或者近似方面。在经济学 和博弈论 中,强化学习被用来解释在有限理性 的条件下如何出现平衡。
在机器学习问题中,环境通常被抽象为马尔可夫决策过程 (Markov decision processes,MDP),因为很多强化学习算法在这种假设下才能使用动态规划 的方法[ 3] 。传统的动态规划方法和强化学习算法的主要区别是,后者不需要关于MDP的知识,而且针对无法找到确切方法的大规模MDP。[ 4]
核心定义及探索数学机制
完全可观测MDP:ot =st
部分可观测MDP (POMDP):ot ⊂st [ 5]
π (a ∣s )=∑b ∈A eQ (s ,b )/τeQ (s ,a )/τ
其中τ 为温度参数[ 6]
介绍
强化学习的典型框架:智能体在环境中采取一种行为,环境将其转换为一次回报和一种状态表示,随后反馈给智能体。
由于其通用性很强,强化学习已经在诸如博弈论 、控制论 、运筹学 、信息论 、仿真优化 、多智能体系统 、群体智能 和统计学 等领域有了深入研究。在运筹学和控制文献中,强化学习被称为近似动态规划 或神经动态规划 。强化学习所感兴趣的问题在最优控制 (一种关注最优解的存在性、表示和求解的理论,但较少涉及学习和近似)中也有所研究,尤其是环境的数学模型难以求得的时候。在经济学和博弈论中,强化学习可能被用来解释在有限的理性(rationality )下如何达到平衡状态。
基本的强化学习被建模为马尔可夫决策过程:
环境状态的集合
S
{\displaystyle S}
;
动作的集合
A
{\displaystyle A}
;
在状态之间转换的规则(转移概率矩阵)
P
{\displaystyle P}
;
规定转换后“即时奖励”的规则(奖励函数)
R
{\displaystyle R}
;
描述主体能够观察到什么的规则。
规则通常是随机 的。主体通常可以观察即时奖励和最后一次转换。在许多模型中,主体被假设为可以观察现有的环境状态,这种情况称为“完全可观测”(full observability),反之则称为“部分可观测”(partial observability)。通常,主体被允许的动作是有限的,例如,在棋盤中棋子只能上、下、左、右移動,或是使用的钱不能多于所拥有的。
强化学习的主体与环境基于离散的时间步作用。在每一个时间
t
{\displaystyle t}
,主体接收到一个观测
o
t
{\displaystyle o_{t}}
,通常其中包含奖励
r
t
{\displaystyle r_{t}}
。然后,它从允许的集合中选择一个动作
a
t
{\displaystyle a_{t}}
,然后送出到环境中去。环境则变化到一个新的状态
s
t
+
1
{\displaystyle s_{t+1}}
,然后决定了和这个变化
(
s
t
,
a
t
,
s
t
+
1
)
{\displaystyle (s_{t},a_{t},s_{t+1})}
相关联的奖励
r
t
+
1
{\displaystyle r_{t+1}}
。强化学习主体的目标,是得到尽可能多的奖励。主体选择的动作是其历史的函数,它也可以选择随机的动作。
将这个主体的表现和自始自终以最优方式行动的主体相比较,它们之间的行动差异产生了“悔过”的概念。如果要接近最优的方案来行动,主体必须根据它的长时间行动序列进行推理:例如,要最大化我的未来收入,我最好现在去上学,虽然这样行动的即时货币奖励为负值。
因此,强化学习对于包含长期反馈的问题比短期反馈的表现更好。它在许多问题上得到应用,包括机器人控制 、电梯调度、电信 通讯,AlphaGo (蒙特卡洛树搜索 +RL )和星际争霸II AI(AlphaStar)[ 7] 。
强化学习的强大能力来源于两个方面:使用样本来优化行为,使用函数近似来描述复杂的环境。它们使得强化学习可以使用在以下的复杂环境中:
模型的环境已知,且解析解不存在;
仅仅给出环境的模拟模型(模拟优化方法的问题)[ 8]
从环境中获取信息的唯一办法是和它互动。前两个问题可以被考虑为规划问题,而最后一个问题可以被认为是genuine learning问题。使用强化学习的方法,这两种规划问题都可以被转化为机器学习 问题。
策略迭代(Policy Iteration)是RL中策略梯度法的理论基础
值迭代(Value Iteration)与Q-learning存在收敛性等价证明[ 9]
常用算法
蒙特卡洛学习 Monte-Carlo Learning
Temporal-Difference Learning
SARSA算法
Q学习
现代基准补充
算法
环境
性能指标
Year
PPO
MuJoCo Humanoid
Avg.Reward: 6000
2017
SAC
Atari Breakout
Max Score: 800+
2018
R2D2
StarCraft II
League Win Rate:72%
2020
探索机制
强化学习需要比较聪明的探索机制,直接随机的对动作进行采样的方法性能比较差。虽然小规模的马氏过程 已经被认识的比较清楚,这些性质很难在状态空间规模比较大的时候适用,这个时候相对简单的探索机制是更加现实的。
其中的一种方法就是
ϵ
{\displaystyle \epsilon }
-貪婪演算法 ,这种方法会以比较大的概率(1-
ϵ
{\displaystyle \epsilon }
)去选择现在最好的动作。如果没有选择最优动作,就在剩下的动作中随机选择一个。
ϵ
{\displaystyle \epsilon }
在这里是一个可调节的参数,更小的
ϵ
{\displaystyle \epsilon }
意味着算法会更加贪心。[ 10]
前沿方向补遗
多智能体RL 引入Nash Q-learning框架: Qiπ ∗(s ,a )=ri +γs ′∑P (s ′∣s ,a )Viπ ∗(s ′) 其中π ∗为纳什均衡策略[ 11]
离线RL(Offline RL) 强调重要性权重约束: π minE(s ,a )∼D [β (a ∣s )π (a ∣s )Qπ (s ,a )] 防止分布偏移问题[ 12]
参考文献
^ Hu, Junyan; Niu, Hanlin; Carrasco, Joaquin; Lennox, Barry; Arvin, Farshad. Voronoi-Based Multi-Robot Autonomous Exploration in Unknown Environments via Deep Reinforcement Learning . IEEE Transactions on Vehicular Technology. 2020-12, 69 (12): 14413-14423. ISSN 1939-9359 . doi:10.1109/TVT.2020.3034800 . (原始内容存档 于2021-08-13).
^ Kaelbling, L. P.; Littman, M. L.; Moore, A. W. Reinforcement Learning: A Survey . Journal of Artificial Intelligence Research. 1996-05-01, 4 : 237-285 [2025-03-15 ] . ISSN 1076-9757 . S2CID 1708582 . arXiv:cs/9605103 . doi:10.1613/jair.301 . (原始内容存档 于2025-05-04).
^ van Otterlo, Martijn; Wiering, Marco, Wiering, Marco; van Otterlo, Martijn , 编, Reinforcement Learning and Markov Decision Processes 12 , Springer Berlin Heidelberg: 3–42, 2012 [2025-03-15 ] , ISBN 978-3-642-27644-6 , doi:10.1007/978-3-642-27645-3_1
^ 强化学习:原理与Python实现. 北京. 2019: 16–19. ISBN 9787111631774 .
^ Partially Observable Markov Decision Processes , Springer-Verlag, [2025-08-11 ]
^ Noguer I Alonso, Miquel. Unifying Mathematical Perspectives on Reinforcement Learning: Integrating Sutton-Barto, Bertsekas and Powell . doi.org. 2025 [2025-08-11 ] .
^ Figure 3: Risk of bias summary (Abreu et al., 2017; Afshar et al., 2010; Ai, 2020; Bolasco et al., 2011; Cai et al., 2022; Chen, Zhao & Huang, 2019; Dai & Ma, 2021; Deng, 2011; Dong et al., 2011; Fakhrpour et al., 2020; Fang et al., 2023; Feng et al., 2020; Frih et al., 2017; Hristea et al., 2016; Jeong et al., 2019; Kozlowska et al., 2023; Leng, 2012; Li et al., 2008; Li & Feng, 2020; Liao et al., 2016; Limwannata et al., 2021; Lu, 2022; Martin-Alemañy et al., 2020, 2016, 2022; Sezer et al., 2014; Shi et al., 2021; Su et al., 2022; Sun, Sun & Yang, 2022a; Tabibi et al., 2023; Tan et al., 2015; Tayebi, Ramezani & Kashef, 2018; Vijaya et al., 2019; Wang & Liu, 2021; Wang, 2018; Wang et al., 2019; Wang, 2019; Wang et al., 2023; Wei, 2020; Wen et al., 2022; Wilund et al., 2010; Xu et al., 2022; Xu & Fang, 2016; Yan, Zhao & Peng, 2022; Yang et al., 2021; Yao et al., 2020; Yu & Cao, 2018; Zeng et al., 2020; Zhou, 2020; Zhou et al., 2016; Zhu et al., 2020). . doi.org. [2025-08-11 ] .
^ Gosavi, Abhijit . Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement . Springer. 2003 [2015-08-19 ] . ISBN 1-4020-7454-9 . (原始内容存档 于2012-06-15).
^ Bertsekas, Dimitri P. Regular Policies in Abstract Dynamic Programming . SIAM Journal on Optimization. 2017-01, 27 (3) [2025-08-11 ] . ISSN 1052-6234 . doi:10.1137/16m1090946 .
^ Tokic, Michel; Palm, Günther, Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax, KI 2011: Advances in Artificial Intelligence (PDF) , Lecture Notes in Computer Science 7006 , Springer: 335–346, 2011 [2018-09-03 ] , ISBN 978-3-642-24455-1 , (原始内容存档 (PDF) 于2018-11-23)
^ Walsh, W. E.; Wellman, M. P. Decentralized Supply Chain Formation: A Market Protocol and Competitive Equilibrium Analysis . Journal of Artificial Intelligence Research. 2003-11-01, 19 [2025-08-11 ] . ISSN 1076-9757 . doi:10.1613/jair.1213 .
^ Levine, Seth M. A comment on Morey et al. (2020) . Translational Neuroscience. 2020-01-01, 11 (1) [2025-08-11 ] . ISSN 2081-6936 . doi:10.1515/tnsci-2020-0121 .