机器学习-分门别类:分类器
分类器就是一个由特征向量到预测类别的函数。在鸢尾花的分类问题中,我们用+1和-1两个值分别代表变色鸢尾和山鸢尾两个类别,并用字母y表示,即y可以取+1和-1两个值。前面我们已经提取了鸢尾花的特征,将它表示为特征向量,并把特征向量画在了特征空间。从下图(一)看,对鸢尾花品种分类的问题就转变成在特征空间中将一些特征点分开的问题。如果我们用直线作为分界线,那么这个问题就变成:坐标平面中有两类点,画一条直线将这两类点分开。
图(1)
我们可以轻而易举地在图中画出一条直线0.5x₁+x₂-2=0,它将整个坐标平面分为两个区域。若使落在直线的特征点输出+1,代表变色鸢尾;落在直线左下区域的特征输出-1,代表山鸢尾,应用这样的规则,我们就能够得到将鸢尾花正确分类的分类器,这规则代表的分类器可以用下面的函数表示:
+1, 0.5x₁+x₂-2≥0
g(x₁,x₂)=
-1, 0.5x₁+x₂-2<0
期中,0.5x₁+x₂-2和图中所画的直线有着对应关系,我们把它记为f (x₁,x₂)。如果f (x₁,x₂)≥0,就表示特征点(x₁,x₂)在直线的右上区域;反之,表示特征点在直线的左下区域。
f(x) 是分类函数g(x)的核心。f(x)的不同,相当于在图(1)中画了不同的线用来分开不同的类。函数f (x) 的形式多样,具有 f(x₁,x₂,.......xn )=ɑ1x1+ ɑ2x2+......+ɑnxn+b形式的分类器被称为线性分类器,期中n是特征向量维数。ɑ1,ɑ2,...ɑn,b是函数的系数,被称为分类器的参数。在上面的列子中,0,5,1,-2就是分类器的参数的取值。
特征向量 分类器ɡ(x) 类别
(x1,x2,x3) 参数 y
在区分鸢尾花品种的简单例子中,我们可以直接画出一条直线将两类点分开。实际情况中,特征点在特征空间中的位置分布非常复杂,采用观察和尝试来画出分类直线往往是不可能的,也是没有效率的。因此,需要通过一些方法,让分类器自己学习得到分类直线。