OKR (Objectives and Key Results) is a goal system used by Google and others. It is a simple tool to create alignment and engagement around measurable goals.
Style Transfer Loss Summary
《思维简史》 - 伦纳德·蒙洛迪诺
Few-shot Learning 总结
N ways K shot few-shot Learning 问题的描述
最终训练模型的效果需要达到,给模型之前完全没见过的 $N$ 个新类,每个新类中只有 $K$ 个样本。该模型需要能够通过利用这仅有的 $N \times K$ 个样本,来对接下来给出的新样本进行分类。在 RelationNet work 1 的问题描述中,将这给出的 $N \times K$ 个样本集称为 Support Set ,待分类的图片集称为 Query Set。
常用的训练步骤
训练集中的类的样本不止 $K$ 个样本
若我们使用数据集 $D$ 来训练模型, 而 $D$ 中所有的类中 $a$ 个样本,eg. mini-imagenet 中每个类有 600 个样本,则 $a=600$。整体的训练过程可以分为多个 meta-learning 的过程,在每个 meta-learning 开始的时候,从训练集 $D$ 中随机抽取 $N$ 个类,每个类中抽取 $K$ 个样本做成 Support Set,除此之外,还从已经抽取得到每个类中,除已抽取的样本外,再抽取 $T$ 个样本作为 Query Set。之后,模型将会去学习如何根据 Support Set 的样本,来正确分类 Query Set 的样本。
-
Learning to Compare:Relation Network for Few-Shot Learning CVPR 2018 ↩
让命令行多一个进度条
使用场景
当我们在拷贝或者解压的时候,我们需要一个进度条。但是遗憾的是,Linux 自带的指令的选项中并没有这个选项,所以我们需要手动给他创造一个。这时候就用到了一个 Github 上开源的软件 cv
,地址在这里。
第五课 无模型控制
Intro
上一篇我们讲了 MonteCarlo 和 TD 方法,他们都是用于在五模型的时候估算当前各个状态的 Value 的,即已经有了 Policy Evaluation 部分。我们还需要一个 Policy Impovement 的部分。这部分就是来解决这个问题的。在优化控制部分,我们根据是否根据已经拥有他人的经验来更新自身的控制策略,将优化控制分类下面两类:
- Online-policy Learning 其基本思想是个体已经有一个策略,并且根据这个策略去进行采样,并根据使用了这个策略得到的一些行为的奖励,更新状态函数,最后根据更新的价值函数来优化策略得到的最有的策略。
- Offline-policy Learning 其资本思想是个体已经有了一个策略,但是不根据这个策略进行采样,而是根据另一个策略进行采用。这个策略的来源可以是先前学习的策略,也可以是人类给出的策略。在自己的策略形成的价值函数的基础上观察别的策略产生的行为,以达到学习的目的。小帅哥说,这种事类似于“站在别人肩膀后面观察他人行为的一种方式”。
第四课 无模型的预测
这一课帅小哥主要讲的内容是预测的部分,在第五课会加入控制的部分。其中预测的部分主要是两个相似的算法,一个为 Monte-Carlo(MC),另一个为 Temporal-Difference(TD)。两者的区别主要在于,MC 为需要在出现终止状态后,才能得到 Reward,而 TD 则是实时的。
第二课 马尔可夫决策过程 MDP
Markov Decision Process 是强化学习的核心,帅气的 David 说所有的强化学习问题都可以转化为 MDP,即就像 RBM 是深度学习的发源地一样,MDP 是整个强化学习的基础。而和名字一样,我们需要首先理解 Markov 和 Decision(Reward),接下来会从 Markov 过程到 Markov 过程加上 Reward 之后的马尔可夫奖励过程,最后引入 Bellman 方程,通过解 Bellman 方程的方式深入了解到底何为决策。
第三课 动态规划寻找最优策略
这节课是接着第二节课的,个人对这节课的总结只有一句话对 Bellman 方程多次迭代能得到最优策略和最大价值。课程开始的时候,David 大佬答大体讲了下什么是动态规划,这个想必大家都很熟悉了,就不赘述了。我们仔细想 Bellman 方程其实是完美的复合了动态规划的要求的条件的。所以我们就有了以下的内容。
Iterative Policy Evaluation
简单的来说就是重复迭代上述的过程,最终 $v(s)$ 会收敛到最大值,这样子我们就能评估当前选择的 Policy $\pi$ 好不好了。下图为算法收敛的过程。