koorio.com
海量文库 文档专家
相关标签
当前位置:首页 >> 电子/电路 >>

支持向量机算法原理与应用


料掌伦坛

支持向量机算法原理与应用
李建军1竹俊杰 (1.北京京北职业技术学院基础部
北京

101400?2.中铁十六局四公司

北京101400)

【摘

要】支持向量机悬基于统计学习理论的一种模式识埘方法,近年来以其优良的特性引起了研究者的广泛关注,已经成为一个十分活跃的研究领域?

本文系统介绍了支持向量机的理论及应用方法,讨论了支持向量机中棱函数的选择问题,然后对二龚SVM实现算法和多类SVM实现算法进行分析,总结其
性能与优缺点.最后指出SVM中待解次的一些问题和日后的研究方向.

陕:键词1支持向量机
【中图分类号】0

曩式识用

统计学习理论

【文i欲标识码协

l文章编号Jl∞9-914X(2009)04(b)—0l“-03.

1前育
支持向量机(Support Vector

Machines,简称SVM)是vaPnik等人提

嗍I(Structoral

SVM是基于统计学习理论的一种训练方法,它是对结构化风险量小化
Risk Minimization Inductive

Principle)的近似.

出的一仲机器学习方法。由于其出色的学习性能.该技术巳成为机器学习界 的研究热点,井在很多领域都得到了成功的应用.如人脸检一、手写体数字
识嗣.文本自动分类辱。

为了量小化期望风险的上羿.SVM在固定学习机经验风险的条件下最小化 VC置信魔。SVM的目标是:找到一个超平面,使得它能够尽可能多的将两 类数据点正确的分开,同时使分开的两类数据点距离分类面量远.为了达爿

部为锌矿体.Pb 0.36%,Zn 1.80*/,.Pb+Zn

2.16%.

田3

洪桥铅锌矿床区域地球化学剩余异常田

矿体沿倾向变化:总体看矿体自地表向深部铅品位降低较快.锌亦有 所障低,但铅品位降低幅度比锌大。运步过洼为锌矿体. 2.5圈岩蚀变 矿床近矿圈岩蚀变明显,以绢英岩化.硅化为主.次为碳酸盐化,象泥 石化、绿帘石化.黄铁矿化、镜铁矿化辱。沿控矿断裂带.盛强或弱.均有 蚀变岩分布。离开构造带,蚀变刖明显减弱。在垂直方向,从上面下硅化、 绢英岩化减弱,含锰碳酸盐化刑被方解石化取代. 2.6矿床类型 矿床产于陆相火山岩发育区,矿化带,矿体受断裂控翻.矿体呈脉状,
透镜体状产于断袈带中,成矿与次火山岩关系密切。矿石以浸来状,脉状为

3.2成矿预测 根据对临海市洪桥钳锌矿床的研兜,矿床明星受火山机构和豫断疆共 同控制。次火山岩是该类矿床的典型岩性.蚀变以绢英岩化、硅化为主.次 为碳酸盐化、绿泥石化,绿帘石化、黄铁矿化.镜铁矿化. 因此,在该火山构造洼地外缘及凝灰岩分布区,琢舅花桥火山构造洼 地北缘秋水山、里金~康谷岩体断裂北饲的龙球山为有和的找矿远景区.其 中龙珠山有利找矿远景区,区内出露酸性岩体及中基性岩脉,有多组北东向 和东西向断裂构造通过.并且区内Ag、Pb.Zn.Cu、Cd辱多金属元素异 常明显.呈环形套合,各元素都有相近浓集中心.在区内的断裂交叉部位和
元紊异常浓集中心是有利找矿部位.

主,方铅矿,闪锌矿呈细脉沿袈隙充填及交代其他矿物.这些特征表明洪桥
铅锌矿床成因类型为陆相火山期后热液充填交代矿床.

4结语 在浙东南地区发育有较多相类似的陆相火山构造盆地.在盆地外簟火 山侵入岩体和构造的复台部位是捷寻铅锌矿床的有利靶区. 【参考文献l n】南京地质矿产研究所.浙江省象山一三门一临海一带有色金■赢
矿规律及馕荫M】.1994。117-147.

3找矿标志与成矿预霸 3.1找矿标志 3.I.1地质、火山构造标志 在火山机构与区域构造叠加的部位.代表火山岩紫长期活动的中心地 带.是岩浆地热系统活跃场所.多种类型、多期次的构造叠加,有利于形成 良好的储矿空问和赋矿部位iL”.洪桥矿区次火山岩与圈岩的内、外接触带 部位,尤其是深大所裂与构造火山洼地边缘的断裂塌陷的叠加复合部位是t
有利的置矿空问.

【2】浙江省地矿厅.区域地质报告(罄海县■)【M1.北京?坨质出版 社.1996,152—160. 【3】一奎元.火山岩相构造学【M】.江苏科学技术出版社.1994,178—
190.

3.1.2地球化学标志(如图3) 洪桥铅锌矿床位于由Pb,Zn、Ag、Cd等组成的多垒■异常中心,由 矿床中心到外圈异常略呈Ag—Cd—Zn—Pb的分带序列(图3).各元素异常 面积:Ag为12 km2,Cd为13 km2,Pb为28 kin2.Zn为32km2。其 中伴生元素有W、M0.Bi、Hg等.异常套合较好,在矿体周圈形成浓集 中心.在走向上分布具同步增减趋势,规模上银异常较铅锌异常小,异常浓 度梯度变化大。异常值低.据国内相似矿床拽矿经验l“。规模相对较小的t 曩银,钳.锌异常也是铅锌矿找矿的指示标去.

【4】张寿穗.安t省纵阳县拨茅山铜矿地质特在IJl.壹蠢调查与环境. 2∞7.28(3):193-198. 【5】耿文霹.中田东部中生代次火山岩型铜锟多金■矿床【M1.t京,
冶金工业出版社。2006。142--163.

【6】白德胜.靠景会.冯有和.河南省鬻县东湾一蛮峪金矿床地曩特t 及找矿意义【J1.夤源调查与环境,2007.28(4):276-284. 【7】尤岳昌.许祖式,章雏志等.新江省临海市洪轿铅锋矿区瞢叠地t 报告【M】.浙江省第五地质大队.1986。?9-1
10.

164

I科技博览

万方数据  

料掌伦坛
这个目标,我们要构造一个在约束条件下的优化问置。具体的说是一个受限 二次规划问麓。求解该问置,得到分类器函数.本文首先给出一些支持It]量 机的先备知识.在此基础上对线性SVM和非线性SVM进行介绍,给出目 麓常用的一些SVM训练算法并系统分析其优缺点.量后指出SVM算法存 在的局限和将来进一步研究的方向. 2支持向量机的先鲁知识 2.1模式识别问置的一般描述 巳知:11个现翻样本,(xl,y1).(x2.y2)……(xn,”I) 求;量优函敦y=f(x,W) 囊不同的支持向量算法。棱函数是如此之重要.那么如何去构造、选择核函 敦及参教成为人们关注的问题。一旦核函数确定,对于SVM分类器刖只有 一个参敢可调整(误差惩罚参致c)。通常的做法是找出样本集分布特点与量 优分类嚣之间可能的对应关系,根据待训练样本的一些先验知识选择分类嚣 类塑和参致?威直接构造新的类星,可以援先确定或在训练过程中运步优 化. 3支持向量机原理 3.1线性可分情形 训练样本线性可分时,可以傲刮经验风险等于0。但为了保证在翻试集 上有小的错误事。按照结构风险最小化原理应该选择这样的学习机嚣:它含 有把堋练样本正确无误分开的标准超平面.同时它的VC维敦蔓最小.这可
¨

SVM由训练样本集和核函教完全描述.因此采用不同核函敦

置“.善,),就可以构造实现输入空闻中不同类型的非线性决策面的学习机导

。冀足条件:期蔓风险■小印min:耳叼=I L(y,f(x.叻)d:F仇力

舢失函虬吖(删沪{o;=训fO训,w;
期望风险R(w)要依赣联合概事f(x。w)的信息,实际向量中无法计算.

¨

迁过令0卅I量小来保证。于是向量转化为I.1。

一般用经验风险凡.(叻代替期望风险足(叻Ⅲ

~∽=蒜鲰胝嗍=堕竽
一般模式识殉方法的存在的不足有:经验风险■小不等于期望风险t 小.不能保证分类 嚣的推广能力,经验风险只有在样本敦无穷大趋近于期望风险。需要 非常多的样本才能保证分类嚣的性能-番蔓找到经验风险量小和推广能力量 大帕平衡点。 2.2量优超平面

末解min:三H
其约束条件是:乃(’.,?X+6)≥l,i=1,二…,j.这样就解得量优
分膏超平面。 3.2线性不可分情形

调练样本线性不可分时.可以通过引入松弛变量f的方法推广量优分
类超平面的概念,t终通过下面的优化向囊来实现.
, '

设给定的堋练集为f“,乃),(jr2,儿)。……,(‘,以)l;其中
而E

木解,g,专c∑够,晶)+a叫.f=l,2,…,J
其约柬条件鼍t乃(w?而+∞≥l且卣≥0.其中c是自定义的正冀(重
罚系披)。如果掌=o’够,善)=0,就得到广义量优趣平蕾. 3.3—般的SVM 非线性翔别问囊的思路是先通过非线性变换将输入向量,头射霸一个 寓维空问中,然后在此高维特征空问中进行分类运算,得到最优分类面.事 实上,我们只要定义变抉后的内积运算,而不必真的进行这种变换。支持向 ■机(S


R‘ye{-l'+l}..再但设谈训练集可t一个超平面线性捌分。该超

平面记为(w?曲+6=0.
如果堋练集中的所有向量均能被某超平面正确捌分.并且砸超平面●

近的异类向量之问的距离最大(即边缘最大化),一该超平面为量优超平面.
其中砸膏超平面最近的异类向量被称为支持向量(support vector).一组支

持向量可以唯一地确定一个超平面.对于线性可分的同囊,不失一般性,可
曩定谰缘集中的向量满足一

乃(w?工+6)≥1.i=l,’2,…,1.

M)适过对待分类数据进行用核函数定义盼非线性特征映射

一(曲:R‘—'E.耨其映射刊莱一更高维特征空问中.从而能够线性可分,

由于支持向-与超平面之问的距鼻为爿-.支持向量之问的臣^为

然后在新特征空问中构造(广义)最优分类面。形成样本分类的决策规婀.14,M SVM的优化准则为最大化类问边际(即围绕决策面的区域,由堋练集 样本与决策面问的最小距离确定).通过最大化边际可使支持向量个数最小 化。由支持向量决定分类决策函敦。理论和实验结果表明,SVM学习算法
可以产生大边际分类器并有较好的泛化性能。

舶,因此构造量优超平面的问置就转化为在式片('.,?z+6)≥1,
f=I,,2,…,,的约柬下束式≯(忉=l叫12的量小值.对一个规范超平面子
囊来说,其、rc维辩足h不辱式IIIsmin([R2彳2】,^)+l其中n为向量空阔的维

SVM本质上为2值分类器,分类决策函致为l

tt.R为疆蕾所有向■的趋球俸半径.H墨A.

y=f(x)=sign(Z.Y.置(而。曲+6)
扣l

由式.IIsmin([e2A2】,万)+l可知,可以通过-小化0卅I使Vc置信度 量小.如果目定经验风险.-小化期望风险的问置就转化为-小化0卅的同
一.这就是SVM方法的出发点. 2.3核函数例 对于非线性分类。支持向量机理论只考虑特征空间的点积运算

=sign(∑%乃x(而.功+∞
V*c:Sy

其中K(?)为校函敦.x为待分类样本。训练样本集为“,乃)。
f=l,…。n,n Ystal练样本个数,而∈R。为枷练样奉,ye{-l,+l’是样本 而的类标记.SV为支持向量集是训练样本集的一个子集. 采用Lagrange秉子转换为一个对儡向置形式如下;

K(x。力,从而巧妙地毫免了直接解未知函数的向量。其中K(x,y)称为棱
函敦.在实际问囊中叠常是直接给出的,目前我t】量常用的核函敦有;

事解m旺:二;∑口.一{∑口p,乃乃置“,_)


‘々扣1
扭I

缱性内棱足“,■)=而’一? 径向基函数内棱K(毛,而)=【“‘■)+lr?

受约束于。c≥口.,og.∑口』乃=o
量优超平面为。

多项式内棱鲰班唧卜与当.
S形内棱蜀∽,而)。伽|h∞“’■)+c).

g(曲=w?m(砷一6=∑口。J一“)?∞(对一6=∑‘z。乃置“,x)-b

万方数据  

斜技博览I

165

料掌殓瑷
分类毒.谈方式下.是对个分类的堋练集进行两两区分.舅试时常用投票 法。得票量多的类为舅试样本所属类.SvM决麓树(SVM
decision tree)方

其中q为每一个样本对应的Lagrange秉子.根据■优化的充要条件 (Kuho Tucke索件)。这个优化的解崧覆蔫足于

法:将SVM和二叉决策树结合起来.构成多类分类暑.这种方法训练速度较 快,但如果在某个节点上发生了分类错误,捌会挹分类错误廷绫到该节点的 后续下一缎节点上. (3)多类svM(Multi-cte¨Obi¨tive FunctiQn-) 系统通过改写SVM的目标函数.使其满足多值分类的需要.在构造决 策函敦的同时考虑所有的类.这种方法计算■大.一般很少采用.现有的多 值分类算法一般直接采用。一对一方法。。或者在‘一对一方法。的基翻上 改进实现.如决策树算法,决麓导向无环田算姥辱. 5结语 SVM是一种能在枷练样本致很小的情况下达刭很好分类推广能力的学

q(*【,而+hi-Dr0,j=l,…,刀.因此多数样本对应口』将为0。少部分 不为0的a,对应的样本就是支持向量.■后得到分类翔朋函致

gfx)=sisH(∑q■配,力+6’)
主持一●H

奏闻交迭由惩罚系致C>0撞翻。C--0崩不允许交迭.C为某个指定的 常致,它实际上起控翻对错分样本惩罚程度的作用.实现在错分样本的比饲 与算法复杂度问的折中.b是分类的一值,可由下式束得:

W;乙a,Yl毛。J,f(’.,?而+6)一l≥0,f=1,2,……,刀
I-t

习算法,它能做刊与数据的维致无关.具有很好的扩展性.对于SVM的训 练和实现。目荫已经从不同的方面提出了许多解决方法和改进算法.但是仍 热存在着以下困难和问置: (1)核函数和参敦的构造和选择峡乏理论指导。SVM棱函敦的选择影响 着分类器的性能,如何根据待解决同焉的先验知识和实际样木教据,选择和 构造合适的接函赣、确定核函数的参教.等问怎都缺乏相应的理论指导. (2)训练大规模数据集的问题。如何解决训练速度与训练样本规筷问昀矛 詹,舅试速度与支持向量数目闻的矛盾,找到对大规模样本集有效的SVM 训练算法和分类实现算法仍是未很好解决的问鼍. (3)尽管训练多类SVM的算法巳被提出,但SVM用于多类分类向囊时 的有效算法,多英SVM的优化设计仍是一个需要进一步研究的向置. (4)具有增量学习麓力是许多在线训练、实时应用的关健.■要拽舅有效 的增量学习算法,嗣时满足在线学习和期望风险控麓的要隶.●‘外,各种算 法的比较缺乏统一的平台. 因此.在对SVM方法进行进一步的机理分析和实验分析.拓宽SVM 的应用领域的同时.针对上述几个方面捋是SVM今后研究的方向,奠着研 究者们的努力和实际应用薯隶的不断增长。对SVM研究和应用必符获得更
深入和广泛的成果.

从优化目标函教可以看到,SVM方法的复杂度与特征维敦无关。但受 训练样本集规模11的翻约.SVM方法需要计算所有训练样本两两之问的棱 函敦,产生一个n?n的棱函数矩阵.n为训练样本个敦.当样本点数目程大 时,存储该榜函数矩阵需要大量内存.同时。SVM在二次型寻优过程中誓 进行大量矩阵运算,使得算法收敛速度慢。因此SVM训练需要从提高训练 算法收敛遗度以及如何处理大规模样本集的训练同曩等两方面进行改进i’I. 4支持向■机应用方法 传统的利用标准二次型优化技术解决对儡问置的方法.是SVM调练算 法侵及受到训练样本集规模爿约的主要原因.目前巳提出了许多解决方法和 改进算法,主要是从如何处理大规筷样本集的训练同囊、挺高训练算法收敛 遗度等方面改进. 4.1增量学习方法 现实同囊中饭多倩况不t■足调练集大小的目定性.园此学习机具有 增量(Incremental Learning)学习能力是应用问量的追切需要。经典SVM 学习算法不直接支持增量学习,研兜者们给出每次只选一小批常规二次规魍 算法能处理的训练样本,然后保留支持向量,抛弃非支持向量,和新进来的 样本混台进行训练,直翻训练样本用完Ⅲ.这种方法简洁高速。但过于依囊 历史训练集中的支持向量,这将有可能导致有用信息的过早揖失而髟响后续
的学习精度.它实现的只是近似的增量学习.

【参考文献】 【l】Vapnik V.11M Nature of Statistical teaming Theory.New
York,Springer-Verlag.1995.

4.2几何方法 由于SVM具有明星的几何意义.可以利用了锕练向量的结构信息提取 卫向量集.并使用卫向量集构建SVM优化决策面的方法.卫向量(Guard vector)是通过该向量能够使输入空问线性可分的向量。它通过求解一组线性 规翘问置得翻.对人工以及真实致据集的实验表明该算法在连度和内存需求 方面优于传统方法(如速度提高30倍,内存要求减少3/4),但目前对卫向量 t与支持向量敦问的关系尚缺乏相应的理论分析171. 我们也可以把SVM原理建立在题膏空问上,设计出基于舔域原理的计 算海量数据支持向量的算法.并进行了实验分析.研究表明,在大规丧样奉 情况下。用邻域原理方法求解支持向量速度极快.同时对计算机资舞要求覆
慨.

【2】边肇棋,张学工.模式识嬲rMJ.北京:清华大学出骸社,2000. 【3J罗公亮.从神经网络刊支捧矢量机(下).冶金自动化.2001。26(1)-
l一5.

【4l莆峰.一种SVM增量学习算法.软件学报,2001.12(12):1818一
1824.

【5】Weston J.and Watkins C.Multi-Class Support Vector
Machines.In M.Verleysen,editor。Proceedings of
Press.1999.

ESANN99.

Brusselsl D.Factor

【6】张文生。丁埤.王环.基于邻域原理计算海量敦据支持向量的研兜 rJJ.软件学报.2001.1 2(5):711-720. 【71
Alex

J.Smola,Bernhard Schlkop!。A tutorial

011 support

4.3多类SVM算法 SVM本质上是2类分交墨.■对其进行推广以囊足多值分类的需要.设

vector

regression.NeuroCOLT2 Technical Report NC-TR-98-030. London.UK.1998.

Royal HoUoway College.University of

现鲁要将11个样奉分为k交,印有.“,M),i=l'……,一。毛E
见=fl,2,….七}.常用方法有: (1)一对多方法(one-agninst-thl---rest)

R。.

将问题转化为2类问囊.在第类和其它樊之问杓建翘平面.在这种方式 下,系统仅构童个SVlVl,每个SVM分嗣将莱一分类的散据从其它分类的敦 据中鉴髑出来.这种方法的一个明显优点是.只需要训练个两类分类支霉矢 量机.其分类速度相对较快.但这种方法中每个分类器的堋练都是将全部的 样奉作为训练样本。这样看委求解个有个变量的二次规划闩曩,因此这种方 法谰练时闽较长. ∞一对一方法(one-against-one) 将向毫转化为2类目■.为任意2个赛构麓超平面。共■训练个2■SVM

l“I科技博览

万方数据  


推荐相关:

支持向量机(SVM)原理及应用概述

12 支持向量机(SVM)原理应用一、SVM 的产生与发展自1995年Vapnik在统计学习...LS—SVM)算法, Joachims等人提出的SVM-1ight, 张学工提出的中心支持向量机 (...


SVM算法原理及其Matlab应用

SVM算法原理及其Matlab应用_计算机软件及应用_IT/计算机_专业资料。SVM算法原理...l 是支持向量机的个数; SV and sv_coef 是支持向量和对应的系数,假设有 k...


支持向量机原理

支持向量机原理_信息与通信_工程科技_专业资料。介绍了支持向量机原理,以及多类...PSO算法是从这种生物种群行为特征中得到启发, 并应用于优化问题的求解。 与遗传...


SVM分类器的原理及应用

SVM 分类器的原理应用姓名:苏刚 学号:1515063004 学院:数学与计算机学院 一、...支持向量机算法的目的在于寻找一个超平面 H(d),该 超平面可以将训练集中的...


支持向量机原理

支持向量机 1 简介 支持向量机基本上是最好的有监督学习算法了。最开始接触 ...现在我们再讲一种方法称为坐标上升法(求解 最小值问题时,称作坐标下降法,原理...


SVM支持向量机算法及其代码实现

後来它又被拓展到回归和聚类应用。SVM 是一种基于核函数的方法,它通过某 些核...SVM 支持向量机 SMO 算法 实现 机器学习 如果对 SVM 原理不是很懂的,可以先...


支持向量机原理

支持向量机原理支持向量机于 1995 年正式发表,由于在文本分类任务中显示出卓越...SVM 学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目 标函数的...


5.ENVI4.3 支持向量机分类原理、操作及实例分析0710yan...

5.ENVI4.3 支持向量机分类原理、操作及实例分析0710yang_计算机硬件及网络_IT/计算机_专业资料。ENVI4.3 支持向量机分类原理、操作及实例分析 一、 支持向量机算法...


SVM基本原理及其发展概述

SVM 基本原理及其发展概述摘要:支持向量机(Support Vector Machine,SVM)是一种...SVM 算法 在精度上已经超过传统的学习算法或与之不相上下, 这些应用都说明了...


SVM理论与算法分析

SVM理论与算法分析_计算机软件及应用_IT/计算机_专业资料。完整的支撑向量机理论...SVM原理及其软件使用 30页 1下载券 统计学习理论和SVM(支持... 21页 1下载...

网站首页 | 网站地图
All rights reserved Powered by 酷我资料网 koorio.com
copyright ©right 2014-2019。
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@126.com