第一课强化学习简介

强化学习是什么

强化学习在不同领域有不同的表现形式：神经科学、心理学、计算机科学、工程领域、数学、经济学等有不同的称呼。

而强化学习是单独的一个机器学习的分支，他不属于监督学习，也不属于无监督学习。他的特点如下：

注：之前的深度学习，机器学习这些是基于数据的，而强化学习则是基于模拟实验的。

$R_t$ 是一个信号的反馈，是一个标量，而个体的工作就是最大化奖励总和（长期收益最大）。小哥说这个奖励用标量就已经足够了。

首先要注意的是智能体是不能直接得到环境的信息的。只能通过观察得到 $t$ 时间的观察评估 $O_t$ ，之后根据观察的结果选择行为 $A_t$，最终环境给智能体一个奖励信号 $R_{t+1}$。

而环境则可以接受智能体的动作，并以此更新环境。同时也能反馈个诶智能体奖励信号 $R_t$

历史是一个观测、行为、奖励的序列，这个序列如果全部记录下来的话太耗资源了。所以希望使用状态来表示已有的信息。这个是通过 Markov 的性质实现的。

是环境的私有呈现，包括环境用来决定下一个观测/奖励的所有数据，通常对个体并不完全可见，也就是个体有时候并不知道环境状态的所有细节。即使有时候环境状态对个体可以是完全可见的，这些信息也可能包含着一些无关信息。

而环境是否可观测，则是区分强化学习算法的一种分类方式：

包含智能体可以使用的、决定策略使用的所有信息。一般是一个历史的函数 $S_t^a = f(H_t)$

包括历史上所有的有用的信息，个人直观的感觉为是用在在智能体状态的一部分。

此外，根据个体在解决强化学习问题时是否建立一个对环境动力学的模型，将其分为两大类：

探索 Exploration 和利用 Explotiation，简单的来说就是我们已有一个最优策略，如果不改变的话收益是已知的，而探索的结果是不确定的收益可能增加也可能减少。就和我们人类做决策一样，如何平衡这种矛盾也是强化学习中的一个很有趣的问题。