在之前的SVM章节中我们介绍了其具体的原理和大致推导过程,但是由于SVM只能应用于线性可分的数据,那么如果出现了线性不可分的情况怎么办呢,这就要引入今天的重点核函数。这种思想将在未来的深度学习中也会出现。
Vim作者对高效使用编辑器的建议
原文链接:《Seven Habits of Effective Text Editing》
前言
本文摘自Vim主要作者Bram Moolennar的2000年11月在其个人网站发布的提高文本编辑效率的7个方法,个人认为从工具作者那里学习如何使用工具是最好的学习方式。本篇文章重点介绍了,达到高效使用编辑器的方法。
集成学习
集成学习
集成学习一句话版本
集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生新的学习器。
在学习这一章节中,老师提到了这个说法,我觉得非常言简意赅就直接引用了过来。集成学习算法的成功在于保证若分类器(错误率略小于0.5,即勉强比瞎猜好一点)的多样性,且集成不稳定的算法也能得到一种比较明显的提升。
注:深度学习其实也可以看作是一种集成学习
贝叶斯算法
知识前置
这个章节的机器学习,其实更像是一种概率论的学习,同时这也是机器学习和数据分析中非常重要的一环。如果学习遇到了困难非常推荐参考张宇考研概率论部分的内容。同时这一章的算法,也是在文本分类中使用的比较多的。
名词解释:
- 先验概率:$P(A)$
- 条件概率:$P(A|B)$
- 后验概率:$P(B|A)$
- 全概率:$P(B) = \sum_{i=1}^n P(A_i)*P(B|A_i)$
- 贝叶斯公式:$P(A|B) = \frac{P(A)P(B|A)}{\sum_{i=1}^n P(B|A_i)P(A_i)}$
概率分布:
- 高斯分布:简单的来说它的分布呈现的是正态分布的样子。参考链接
- 伯努利分布:伯努利分布是0-1分布,简单的来说就是那种仍硬币的概率分布。参考链接
- 多项式分布:是伯努利分布的推广,不再是只有两种情况,有多种情况的概率分布。参考链接
贝叶斯算法的核心思想:
找出在特征出现时,各个标签出现的概率,选择概率最大的作为其分类。
聚类算法(下)
聚类算法上中讲了大名鼎鼎的K-Means算法及其优化变种,在这篇中几种讲述两位两种不同思路的聚类算法。
聚类算法(上)
前言
聚类算法很多,所以和讲回归算法一样,分成了上下,上中主要讲了传统的 K-Means 算法以及其相应的优化算法入 K-Means++,K-Means|| 和 Canopy 等。下中主要讲了另外两种的思路的聚类算法,即层次聚类和密度聚类。
Tobias的小粉丝在此
序言
最近迷上了吉他,当然不是指那种一周速成的把妹弹唱啦。为了防止大家对吉他有一种特别简单,把妹专用道具的奇怪印象。特别提一个小知识,古典吉他在世界公认的十大难学的乐器中排第三,顺便一提,钢琴排第五。
支持向量机SVM
1、前言
在之前我们介绍了线性回归算法以及其变种,LASSO回归、Ridge回归。他们是从减少过拟合的角度出发而得到的算法,而 SVM(支持向量机)则是优化原本线性回归算法中选择“分割线”,或者说选择分割超平面这样一个过程。
TAG:# 拉格朗日数乘子算法 # KKT条件
使用Github创建自己的小博客
懒人攻略
只有四步:
- 找到自己喜欢的别人的博客的Github地址,一般为
username.github.io
结尾。 - Fork一份对方的源码,之后把仓库名改为
YourGithubName.github.io
- 在
_config.yaml
中更改个人信息,同时把_posts
中的文章都删了,注意别人的文章格式,之后仿照对方的格式写即可。 - 给你Fork的原作者写封邮件表达感谢!说不定就这么勾搭了一个大佬也不一定呢。
完成了四步后,浏览器输入
YourGithubName.github.io
就能在晚上看到自己的博客啦。
决策树优化策略
1、剪枝优化是什么?
决策树的剪枝是决策树算法中最基本、最有用的一种优化方案,分为以下两类:
-
前置剪枝:在构建决策树的过程中,提前停止。这种策略无法得到比较好的结果
-
后置剪枝:在决策树构建好后,然后开始剪裁,一般使用两种方案。a)用单一叶子结点代替整个子树,也节点的分类采用子树中最主要的分类。b)将一个子树完全替代另一个子树。后置剪枝的主要问题是存在计算效率问题,存在一定的浪费情况。