Markov Decision Process 是强化学习的核心,帅气的 David 说所有的强化学习问题都可以转化为 MDP,即就像 RBM 是深度学习的发源地一样,MDP 是整个强化学习的基础。而和名字一样,我们需要首先理解 Markov 和 Decision(Reward),接下来会从 Markov 过程到 Markov 过程加上 Reward 之后的马尔可夫奖励过程,最后引入 Bellman 方程,通过解 Bellman 方程的方式深入了解到底何为决策。
第三课 动态规划寻找最优策略
这节课是接着第二节课的,个人对这节课的总结只有一句话对 Bellman 方程多次迭代能得到最优策略和最大价值。课程开始的时候,David 大佬答大体讲了下什么是动态规划,这个想必大家都很熟悉了,就不赘述了。我们仔细想 Bellman 方程其实是完美的复合了动态规划的要求的条件的。所以我们就有了以下的内容。
Iterative Policy Evaluation
简单的来说就是重复迭代上述的过程,最终 $v(s)$ 会收敛到最大值,这样子我们就能评估当前选择的 Policy $\pi$ 好不好了。下图为算法收敛的过程。
第一课 强化学习简介
Tensorflow进阶之数据导入
不同格式的数据的导入
Numpy 数据的导入
这种导入非常直白,就是使用 Numpy 把外部的数据进行导入,然后转换成 tf.Tensor
,之后使用 Dataset.from_tensor_slices()
。就可以成功导入了。简单的案例如下:
python数据可视化之 seaborn
简介
Seaborn 是一个数据可视化的库,主要用来生成热力图的,详情查看它的官网。这个工具一定要混合 matplotlib
来使用,我们在做好图之后还是必须要用 plt.show
才能展示图片,同时图片的布局也是靠 matplotlib
。
python 多进程并发
前言
最近在处理大数据相关的东西,数据动辄上百万,还不能用 GPU 加速,于是开始动起了多进程的念头。众所周知,Python 的多线程是假的,不过好在开发者老大还是给我们留了一个活路,也就是进程池。这个方法的优点在于进程的并发细节完全不用我们操心,我们只需要把并发的任务仍到进程池里就好了。
python使用二进制文件存取中间变量
前言
我们经常遇到一种情况,就是废了很大的精力和时间通过程序算取的数值,在程序结束后就会被销毁,而下次再想使用则需要再算一遍。通用的存储这些值的方法为把他们以文本的方式存到文件中,之后需要的时候再读取。然而这种方式的效率实在是比较低,python 为我们提供了一个将值存储到 2进制文件的方案,其速度亲测可以快 3 倍左右。
Tensorflow 进阶之 Estimator
之前的入门部分的 Estimator介绍了如何使用预训练模型,对整体有了一个直观的感受感受。在这部分中着重讲解如何创建自定义 Estimator。
Tensorflow入门之数据导入
tf.data API 简介
借助这个 API 可以较为快速的入门数据导入的部分。自定义数据输入可以说是跑任何模型必须要会的部分。学习这部分 API 是入门 Tensorflow跳不过的部分。本部分和之前的 Tensorflow 部分一样,主要是筛选自官方教程,意在跳出自己认为核心的入门内容,抛去复杂的细节,以求快速入门。