Pre-Demo-Field

DeamoV's Blog


  • 首页

  • 分类

  • 关于

  • 归档

  • 标签

  • 搜索

终端登录北邮校园网

发表于 2019-08-30 | 分类于 软件使用
| 字数统计 284 | 阅读时长 1

curl 直接登录

重要的事情写在开头:现在 10.3.8.211 使用命令行登录可能会出现问题。

  1. 登录默认计流量的账号
    1
     curl 'http://10.3.8.217/login' --data 'user=student_id&pass=password&line='
    
  2. 登录联通 or 移动的账号

    1
    2
    3
     curl 'http://10.3.8.217/login' --data 'user=student_id&pass=password&line=CUC-BRAS'
     # CUC-BRAS for 联通
     # CMCC-BRAS for 移动
    
阅读全文 »

SVD 奇异值分解

发表于 2019-08-26 | 分类于 数据分析
| 字数统计 439 | 阅读时长 2

简述

SVD(Singular Value Decomposition),即奇异值分解,本质上是一种矩阵分解技术,在应用领域已经出现了进百年。矩阵分解技术指的是将一个原始矩阵表示成新的易于处理的形式,这种形式是两个或多个矩阵的乘积,可以简单的理解为因式分解。最早使用 SVD 的应用的领域为信息检索,使用 SVD 的检索方法称为隐性语义索引(Latent Semantic Index,LSI)或隐性语义分析(Latent Semantic Analysis,LSA)。

阅读全文 »

PCA 主成分分析

发表于 2019-08-20 | 分类于 数据分析
| 字数统计 849 | 阅读时长 4

PCA

简要说明

PCA 的全称为主成分分析(Principal Component Analysis)。简单的来说,PCA 的本质是将原来的坐标系转变为新的坐标系,而新的坐标系的基的选择为原始数据中方差最大的方向。

阅读全文 »

Style Transfer Loss Summary

发表于 2019-08-12 | 分类于 Losses
| 字数统计 733 | 阅读时长 3

TransferLoss

VGGLoss

VGGLoss 是提取 VGG 的不同的层学到的图片的特征,之后通过对比这些不同层的特征来计算两个图片的相似度,计算相似度的功能如下:

\[l_{vgg}(x, y) = ||f_\phi(x) - f_\phi(y)||^{2}_2\]
阅读全文 »

《思维简史》 - 伦纳德·蒙洛迪诺

发表于 2019-08-09 | 分类于 读书笔记
| 字数统计 1023 | 阅读时长 5

简要

思维简史这本书是伦纳德·蒙洛迪诺关于人类思维发展、进步的“历史”系书籍。由于作者本身为物理学家,书中后半段对物理发展的描写比较多。

阅读全文 »

Few-shot Learning 总结

发表于 2019-03-26 | 分类于 FewShotLearning
| 字数统计 972 | 阅读时长 4

N ways K shot few-shot Learning 问题的描述

最终训练模型的效果需要达到,给模型之前完全没见过的 $N$ 个新类,每个新类中只有 $K$ 个样本。该模型需要能够通过利用这仅有的 $N \times K$ 个样本,来对接下来给出的新样本进行分类。在 RelationNet work 1 的问题描述中,将这给出的 $N \times K$ 个样本集称为 Support Set ,待分类的图片集称为 Query Set。

  1. Learning to Compare:Relation Network for Few-Shot Learning CVPR 2018 ↩

阅读全文 »

让命令行多一个进度条

发表于 2019-03-22 | 分类于 软件使用
| 字数统计 209 | 阅读时长 1

使用场景

当我们在拷贝或者解压的时候,我们需要一个进度条。但是遗憾的是,Linux 自带的指令的选项中并没有这个选项,所以我们需要手动给他创造一个。这时候就用到了一个 Github 上开源的软件 cv,地址在这里。

阅读全文 »

第五课 无模型控制

发表于 2019-03-11 | 分类于 ReinforceLearning
| 字数统计 1931 | 阅读时长 9

Intro

上一篇我们讲了 MonteCarlo 和 TD 方法,他们都是用于在五模型的时候估算当前各个状态的 Value 的,即已经有了 Policy Evaluation 部分。我们还需要一个 Policy Impovement 的部分。这部分就是来解决这个问题的。在优化控制部分,我们根据是否根据已经拥有他人的经验来更新自身的控制策略,将优化控制分类下面两类:

  • Online-policy Learning 其基本思想是个体已经有一个策略,并且根据这个策略去进行采样,并根据使用了这个策略得到的一些行为的奖励,更新状态函数,最后根据更新的价值函数来优化策略得到的最有的策略。
  • Offline-policy Learning 其资本思想是个体已经有了一个策略,但是不根据这个策略进行采样,而是根据另一个策略进行采用。这个策略的来源可以是先前学习的策略,也可以是人类给出的策略。在自己的策略形成的价值函数的基础上观察别的策略产生的行为,以达到学习的目的。小帅哥说,这种事类似于“站在别人肩膀后面观察他人行为的一种方式”。
阅读全文 »

第四课 无模型的预测

发表于 2019-03-11 | 分类于 ReinforceLearning
| 字数统计 812 | 阅读时长 4

这一课帅小哥主要讲的内容是预测的部分,在第五课会加入控制的部分。其中预测的部分主要是两个相似的算法,一个为 Monte-Carlo(MC),另一个为 Temporal-Difference(TD)。两者的区别主要在于,MC 为需要在出现终止状态后,才能得到 Reward,而 TD 则是实时的。

阅读全文 »

第二课 马尔可夫决策过程 MDP

发表于 2019-03-11 | 分类于 ReinforceLearning
| 字数统计 2069 | 阅读时长 10

Markov Decision Process 是强化学习的核心,帅气的 David 说所有的强化学习问题都可以转化为 MDP,即就像 RBM 是深度学习的发源地一样,MDP 是整个强化学习的基础。而和名字一样,我们需要首先理解 Markov 和 Decision(Reward),接下来会从 Markov 过程到 Markov 过程加上 Reward 之后的马尔可夫奖励过程,最后引入 Bellman 方程,通过解 Bellman 方程的方式深入了解到底何为决策。

阅读全文 »
1 … 3 4 5 … 9
DeamoV

DeamoV

90 日志
21 分类
55 标签
RSS
Github Twitter
Links
  • J-Cabin
© 2025 DeamoV
由 Jekyll 强力驱动
主题 - NexT.Muse