Pre-Demo-Field

《思维简史》 - 伦纳德·蒙洛迪诺

发表于 2019-08-09 | 分类于读书笔记

| 字数统计 1023 | 阅读时长 5

简要

思维简史这本书是伦纳德·蒙洛迪诺关于人类思维发展、进步的“历史”系书籍。由于作者本身为物理学家，书中后半段对物理发展的描写比较多。

阅读全文 »

Few-shot Learning 总结

发表于 2019-03-26 | 分类于 FewShotLearning

| 字数统计 972 | 阅读时长 4

N ways K shot few-shot Learning 问题的描述

最终训练模型的效果需要达到，给模型之前完全没见过的 $N$ 个新类，每个新类中只有 $K$ 个样本。该模型需要能够通过利用这仅有的 $N \times K$ 个样本，来对接下来给出的新样本进行分类。在 RelationNet work ¹ 的问题描述中，将这给出的 $N \times K$ 个样本集称为 Support Set ，待分类的图片集称为 Query Set。

Learning to Compare：Relation Network for Few-Shot Learning CVPR 2018 ↩

阅读全文 »

让命令行多一个进度条

发表于 2019-03-22 | 分类于软件使用

| 字数统计 209 | 阅读时长 1

使用场景

当我们在拷贝或者解压的时候，我们需要一个进度条。但是遗憾的是，Linux 自带的指令的选项中并没有这个选项，所以我们需要手动给他创造一个。这时候就用到了一个 Github 上开源的软件 cv，地址在这里。

阅读全文 »

第五课无模型控制

发表于 2019-03-11 | 分类于 ReinforceLearning

| 字数统计 1931 | 阅读时长 9

Intro

上一篇我们讲了 MonteCarlo 和 TD 方法，他们都是用于在五模型的时候估算当前各个状态的 Value 的，即已经有了 Policy Evaluation 部分。我们还需要一个 Policy Impovement 的部分。这部分就是来解决这个问题的。在优化控制部分，我们根据是否根据已经拥有他人的经验来更新自身的控制策略，将优化控制分类下面两类：

Online-policy Learning 其基本思想是个体已经有一个策略，并且根据这个策略去进行采样，并根据使用了这个策略得到的一些行为的奖励，更新状态函数，最后根据更新的价值函数来优化策略得到的最有的策略。
Offline-policy Learning 其资本思想是个体已经有了一个策略，但是不根据这个策略进行采样，而是根据另一个策略进行采用。这个策略的来源可以是先前学习的策略，也可以是人类给出的策略。在自己的策略形成的价值函数的基础上观察别的策略产生的行为，以达到学习的目的。小帅哥说，这种事类似于“站在别人肩膀后面观察他人行为的一种方式”。

阅读全文 »

第四课无模型的预测

发表于 2019-03-11 | 分类于 ReinforceLearning

| 字数统计 812 | 阅读时长 4

这一课帅小哥主要讲的内容是预测的部分，在第五课会加入控制的部分。其中预测的部分主要是两个相似的算法，一个为 Monte-Carlo（MC），另一个为 Temporal-Difference（TD）。两者的区别主要在于，MC 为需要在出现终止状态后，才能得到 Reward，而 TD 则是实时的。

阅读全文 »

第二课马尔可夫决策过程 MDP

发表于 2019-03-11 | 分类于 ReinforceLearning

| 字数统计 2069 | 阅读时长 10

Markov Decision Process 是强化学习的核心，帅气的 David 说所有的强化学习问题都可以转化为 MDP，即就像 RBM 是深度学习的发源地一样，MDP 是整个强化学习的基础。而和名字一样，我们需要首先理解 Markov 和 Decision（Reward），接下来会从 Markov 过程到 Markov 过程加上 Reward 之后的马尔可夫奖励过程，最后引入 Bellman 方程，通过解 Bellman 方程的方式深入了解到底何为决策。

阅读全文 »

第三课动态规划寻找最优策略

发表于 2019-03-11 | 分类于 ReinforceLearning

| 字数统计 463 | 阅读时长 2

这节课是接着第二节课的，个人对这节课的总结只有一句话对 Bellman 方程多次迭代能得到最优策略和最大价值。课程开始的时候，David 大佬答大体讲了下什么是动态规划，这个想必大家都很熟悉了，就不赘述了。我们仔细想 Bellman 方程其实是完美的复合了动态规划的要求的条件的。所以我们就有了以下的内容。

阅读全文 »

第一课强化学习简介

发表于 2019-03-11 | 分类于 ReinforceLearning

| 字数统计 1195 | 阅读时长 5

强化学习是什么

强化学习在不同领域有不同的表现形式：神经科学、心理学、计算机科学、工程领域、数学、经济学等有不同的称呼。

而强化学习是单独的一个机器学习的分支，他不属于监督学习，也不属于无监督学习。他的特点如下：

没有监督数据、只有奖励信号
奖励信号不一定是实时的，很可能会延后很多
时间（序列）是一个关键因素
当前的行为会影响后续的数据

注：之前的深度学习，机器学习这些是基于数据的，而强化学习则是基于模拟实验的。

阅读全文 »

Tensorflow进阶之数据导入

发表于 2018-12-16 | 分类于 Tensorflow

| 字数统计 1724 | 阅读时长 8

不同格式的数据的导入

Numpy 数据的导入

这种导入非常直白，就是使用 Numpy 把外部的数据进行导入，然后转换成 tf.Tensor ，之后使用 Dataset.from_tensor_slices()。就可以成功导入了。简单的案例如下：

# Load the training data into two NumPy arrays, for example using `np.load()`.
with np.load("/var/data/training_data.npy") as data:
  features = data["features"]
  labels = data["labels"]

# Assume that each row of `features` corresponds to the same row as `labels`.
assert features.shape[0] == labels.shape[0]

dataset = tf.data.Dataset.from_tensor_slices((features, labels))

上面的简单的实例有一个很大的问题，就是 features 和 labels 会作为 tf.constant() 指令嵌入在 Tensorflow 的图中，会浪费很多内存。所以我们可以根据 tf.palceholder() 来定义 Dataset，同时在对数据集初始化的时候送入 Numpy 数组。

with np.load("/var/data/training_data.npy") as data:
  features = data["features"]
  labels = data["labels"]

# Assume that each row of `features` corresponds to the same row as `labels`.
assert features.shape[0] == labels.shape[0]

features_placeholder = tf.placeholder(features.dtype, features.shape)
labels_placeholder = tf.placeholder(labels.dtype, labels.shape)

dataset = tf.data.Dataset.from_tensor_slices((features_placeholder, labels_placeholder))
# [Other transformations on `dataset`...]
dataset = ...
iterator = dataset.make_initializable_iterator()

sess.run(iterator.initializer, feed_dict={features_placeholder: features,
                                          labels_placeholder: labels})

阅读全文 »

python数据可视化之 seaborn

发表于 2018-12-11 | 分类于 Python

| 字数统计 501 | 阅读时长 2

简介

Seaborn 是一个数据可视化的库，主要用来生成热力图的，详情查看它的官网。这个工具一定要混合 matplotlib 来使用，我们在做好图之后还是必须要用 plt.show 才能展示图片，同时图片的布局也是靠 matplotlib。

阅读全文 »