当前位置:大学毕业论文> 本科论文>材料浏览

关于向量论文范文写作 一种局部优化边界的支持向量数据描述方法相关论文写作资料

主题:向量论文写作 时间:2024-02-05

一种局部优化边界的支持向量数据描述方法,该文是关于向量论文范文,为你的论文写作提供相关论文资料参考。

向量论文参考文献:

向量论文参考文献 论文方法有哪些数据挖掘论文论文调查方法国家级期刊的查询方法

摘 要:针对传统的支持向量数据描述(SVDD)因未考虑数据构成的多模态性和局部分布的非同一性,难以获取目标数据的优化决策边界,所建立的数学模型难以正确反映建模对象的时空变化规律的问题,提出一种基于局部优化边界的支持向量数据描述(LOB—SVDD)方法.通过求取局部数据样本的分散程度获取支持向量机算法中折衷参数的局部调整系数,以此优化求解决策边界函数,由此可实现数据分类、离群点检测和数据建模等.利用UCI数据集和人工双模态数据集进行的仿真表明,与传统方法相比,LOB_SVDD可获得更优的决策边界,作为分类器有更低的假正率和假负率.应用LOB_SVDD对具有多模态特性的铜锍吹炼实际生产数据进行预处理,能有效检测离群点,剔除异常样本,实现数据洁净化.

关键词:支持向量数据描述;决策边界;折衷参数;数据预处理

DOI:10.15938/j.emc.2015.10.014

中图分类号:TP181

文献标志码:A

文章编号:1007-449X(2015)10-0093-07

0 引言

支持向量数据描述方法(support vector data de-scription,SVDD)是一种源于统计学习理论和基于支持边界对数据分布进行描述的方法,它通过构建围绕目标数据的最小超球体边界将目标数据包络为一个封闭的超球体,而使非目标数据尽可能远离超球体.SVDD在数据预处理、分类、异常样本检测和数据建模等领域有重要应用,是机器学习和模式识别领域的研究热点之一.Tax D M J,Juszczak P提出使用核化的主元分析方法(核白化)作为SVDD的数据预处理方法,确保在所有维度上有统一的数据分布方差,以得到紧致的数据描述;Bo Liu,Yanshan Xiao等通过给每个正常样本引入一个置信度来表征样本属于正常类的可能性,从而产生集成置信度的伪训练集,再通过伪训练集来训练SVDD;CHA M等引入密度权重概念,通过集成密度权重的新SVDD方法,使高密度区域的数据得到重视,以更好地描述不同区域的数据分布;RehmanZ,Li T等用边界更灵活的超椭球及最小体积闭包椭球替代SVDD中的最小超球.这些方法都假定整体数据具有单一分布特性,故都使用全局相同的折衷参数,不适用于处理具有多模态性和局部分布非同一性的数据,即样本数据具有不同分布特征时.WANG C D等提出了一种新颖的位置正则化的支持向量域描述,通过计算特征空间中每个数据点与其他数据点的距离分配给每个数据点不同的权重,但对折衷参数的调整只考虑了数据整体分布,忽略了决策边界与局部数据分布密切相关的特点.YANGH等提出了LSVR(localized support vector regres-sion)方法,将反映训练样本间变化趋势的信息包含于其目标函数及约束条件中,以此自适应调整ε-不敏感带的宽度,使超平面更为合理并提高模型的性能.

本文针对传统的SVDD方法不适用于处理具有多模态性和局部分布非同一性数据的问题,借鉴WANG C D等和YANG H等论文如何得到更平滑和紧致边界的基本思路,提出一种局部优化边界的SVDD方法(support vector data description with local optimiza-tion boundary,LOB_SVDD),通过求取局部数据样本的分散程度获取支持向量机算法中折衷参数的局部调整系数,以此优化求解决策边界函数,达到对具有多模态性和局部分布非同一性数据的更有效的描述.

1 SVDD边界特征分析

1.1

SVDD简述

给定数据集,其中,n为数据样本数,d为数据样本空间维度,映射空间中的一个样本集,将低维空间的样本映射到高维特征空间F中.在F中寻找一个体积最小的超球Ω等于(a,r),其中a为球心,r为球半径,使F中的样本集T等于中的样本尽可能包含于Ω中,超球体积最小化问题实质上是一个二次规划问题,即:式中:ζi为松弛变量;C为折衷参数,超球体Ω的边界直接依赖于C的取值.

式(1)的优化问题的解可通过求解式(2)所示的拉格朗日泛函的鞍点给出:

将式(3)、式(4)、式(5)、式(6)代人式(2),并将F中某数据点的范数代以核函数,即可得式(2)的对偶问题:

设式(7)的最优解为,若.则定义其对应的xi为支持向量,记为x*i,记支持向量集为Dsv,支持向量数为Nsv利用KKrr条件可得原始问题(l)关于a和r的最优解为

称r(x*i)为支持向量边界函数.当全体数据样本的数据分布特征相同时,所有支持向量具有相同的r(x*i).当全体数据样本由多个具有不同分布特征的子集构成时,不同的子集具有不同的支持向量边界函数,故此时利用上述算法得到的是次优的决策边界函数.

根据CHANDOLA V等给出的离群点定义,图1中,局部样本分散程度低的区域y中的样本点应被更紧密的边界函数包裹,而其的样本点为离群点,但若认为区域y与样本分散程度高的区域卢具有相同的样本分布特征,则样本点将被误认为正常样本点,即产生异常样本被划为正确类(false positive,FP)的现象.对区域β,其边界函数的紧密程度应被放松,因样本点与区域β内的样本具有相同的分布特性,故其应为正常样本,若边界函数取值不当,则样本点可能被划为离群点,即产生正确样本被划为异常类(Falsenegative,FN)的现象.显然,FP和FN现象的出现是因为传统的SVDD认为样本集具有单一分布特性,忽略了不同样本子集可能具有不同分布特性所造成的.

结论:适合不知如何写向量方面的相关专业大学硕士和本科毕业论文以及关于向量论文开题报告范文和相关职称论文写作参考文献资料下载。

支持向量机中一种参数优化选取方法
摘 要:本文给出一种支持向量机中的参数优化选取方法,它是通过遗传算法和确定性算法相结合解平衡约束优化问题,求出二分类支持向量机(SVM)中的正。

基于智能遗传算法和支持向量机生态文明建设体系
摘 要:本文针对生态文明建设评价问题,运用层次分析法、模糊综合评价法等方法,构建出我国的生态文明建设评价体系,从而对我国生态文明建设程度进行了综。

凸壳支持向量机在服务器性能报警中
摘要:随着计算机网络的广泛应用,服务器成为整个网络应用的核心,因此,对服务器性能的监测也越发重要。而服务器性能是否异常本质上属于模式识别问题,因。

支持向量机在舞弊审计数据分析中的运用
摘 要:支持向量机拥有良好的推广性能和较高的分类准确率,在舞弊审计中能提高效率和正确率,笔者通过研究,探索了支持向量机在舞弊审计数据分析中运用的。

论文大全