深入浅出核函数

前言

支持向量机是最重要的机器学习算法之一，支持向量机的一个重要特点是通过核函数进行非线性分类。本文深度剖析了核函数的含义，并从该角度去理解线性回归和非线性分类的问题。

1、线性回归的核函数表示

2、核函数含义解析

3、核函数含义理解线性回归

4、核函数含义理解非线性分类

5、核函数的应用范围

6、总结

线性回归的核函数表示

我们先通过构建最优线性回归模型来引出核函数的表达式。

总结：

（1）1.5式就是传说中的核函数方程，核函数方程的展开式有很多种情况，这一节的核函数方程展开式是基函数向量的内积。

（2）1.4式是线性回归的核函数对偶形式，对偶形式都会包含下面这项：

核函数含义解析

我们用1.5式和1.6式来解析核函数的含义。

1.5式和1.6式结合，得：

上式表示，先对输入变量映射为特征空间

，然后在该特征空间下内积。

现在，我们考虑三种常用的基函数，分别为多项式基函数，高斯基函数，S型基函数。

令输入变量x'为常数，x'的值用红色叉号表示，可以画出x与k(x,x')的关系曲线：

图的第一行为基函数曲线，第二行为x与核函数k(x,x')的曲线。

由上图可知，核函数k(x,x')取得最大值的必要条件是x=x'，核函数值的大小可以表示两个输入变量x和x'的相似度。举例说明这一含义：

如上图第二列，归一化的正态分布在x=0具有最大概率，当两个输入变量值都是0时，核函数具有最大值，它们的相似度最高。

如上图第三列，S型函数值表示P(y=1|x)的概率，当两个输入变量都是1时，核函数具有最大值，它们的相似度最高。

因此，核函数的含义可以用相似度来解释，若两个输入变量的特征空间

都较大，则两个输入变量在该核函数下具有较高的相似度。

核函数含义理解线性回归

为了阅读方便，1.4式预测目标表达式：

结论

线性回归可以理解成训练目标值的权值相加，权值与核函数成正比，若输入特征与某一训练样本的特征相似度越高，相应的核函数越大，则对应的权值就越大，该训练样本的目标变量对预测目标变量的影响亦越大。

核函数含义理解非线性分类

解决如下图的二分类问题，不同形状表示不同的类。

（1）显示映射法

分类效果图如下：

（2）核函数法

我们知道核函数的含义是相似度，我们考虑用高斯核函数进行分类，高斯核函数用样本的相对距离来表示相似度，若相对距离越小，则相似度越大，反之相似度越小。

首先用核函数将低维映射成高维空间，然后用线性支持向量机的方法进行分类（后续文章会详细讲支持向量机算法）。

请用核函数法

第二节用显示映射函数的方法说明了核函数的含义，这一节用该方法求决策函数，但是这种方法难点在于定义显示映射函数，而核函数法是隐式的映射特征空间且核函数法计算k(x,x')比较容易，因此推荐核函数法作特征的多维映射。

核函数的应用范围

这一节用一句话来概括：凡是有特征内积出现的式子都可以用核函数来代替。

如下图：

左边为核函数，右边为内积。

总结

本文详细的解释了核函数的含义——相似度，然后从核函数的角度去理解线性回归和非线性分类，核函数是隐式的特征空间映射，不需要定义特征映射函数。特征内积出现的式子都可以用核函数来代替，因此，核函数在支持向量机的非线性分类具有不可替代的作用。

参考

李航《统计学习方法》

Christopher M.Bishop <<Pattern Reconition and Machine Learning>>

推荐阅读文章

深入理解线性回归算法（一）

线性分类模型（一）：浅谈判别模型分析

-END-

继续阅读

阅读原文