适用场景:

处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广于预测和综合评价,主要场景包括人像识别、文本分类、手写字符识别、生物信息学等。


算法思想:

将实例表示为空间中的点,寻找到一个超平面将样本分成两类,并使该平面两侧距平面最近的两类样本之间的间隔最大,然后将新的实例映射到同一空间,并基于其落于间隔的哪一侧来预测所属类别。


例如:分类的函数是个圆形x^2+y^2-4=0。令x^2=a; y^2=b,分类函数就变成了a+b-4=0 这种直线问题了。

支持向量机训练过程如下图所示:


案例:

一天孔乙己走进鲁镇的咸亨酒店,对着小二来了一句“温一碗酒,要一碟茴香豆”。酒店小二调戏于他,便和他玩了一个游戏,只要他通过了就再送他一碟。
小二在桌子上似乎有规律放了两种颜色的茴香豆,说:“你用一根棍分开它们?要求:即便再放更多茴香豆之后,仍然能将它们分开。”


于是孔乙己这样放,干的不错?!


然后店小二想了想,又在桌上放了更多的茴香豆,故意搞怪,让一个茴香豆站错了阵营。


孔乙己没有乱了阵脚,只是稍微调整一下棍子。说道:即使你放了更多的茴香豆,我的棍仍然是一个好的分界线。


(点评时刻:SVM就是试图把棍放在最佳位置,好让在棍的两边有尽可能大的间隙。)

店小二看到孔乙己这么厉害,准备给了孔乙己一个新的挑战,这次的茴香豆更乱了。


现在,孔乙己没有合适的棍可以很好帮他分开两种茴香豆了,现在怎么办呢?
看着,店小二手中,另一盘心爱的茴香豆,孔乙己焦急万分。
突然,孔乙己灵光一闪。桌子一拍,茴香豆飞到空中。然后,孔乙己使用trick绝招(SVM工具箱)抓起一张纸,插到了两种球的中间。


现在,从店小二的角度看这些茴香豆,这些茴香豆看起来像是被一条曲线分开了。


而且,这一招理论上几乎通用于所有分类。
店小二看到后,只能无奈的又给了孔乙己一份茴香豆。
再之后,无聊的人们,把这些茴香豆叫做 「data」(数据源),把棍子叫做 「classifier」(分类器), 最大间隙trick 叫做「optimization」(最优化), 拍桌子叫做「kernelling」(建立核函数), 那张纸叫做「hyperplane」(超平面)。



补充说明:

算法优点

  • ● 对可以解决高维问题,即大型特征空间
  • ● 能够处理非线性特征的相互作用
  • ● 无需依赖整个数据
  • ● 可以提高泛化能力
  • ● 需要对数据提前归一化,很多人使用的时候忽略了这一点,毕竟是基于距离的模型,所以LR也需要归一化

算法缺点

  • ● 当观测样本很多时,效率并不是很高
  • ● 对非线性问题没有通用解决方案,有时候很难找到一个合适的核函数
  • ● 对缺失数据敏感

关于优必杰教育 | 擎课堂 | AI教学平台 | 嘉定集散地 | 余杭集散地 | 常用工具

©2017-2020 上海优必杰教育科技有限公司 · 沪ICP备17047230号-3