当前位置:文档之家› 离群点检测算法研究

离群点检测算法研究

1引言

传统离群检测算法大致可以分为四类:基于分布的、基于距离的、基于密度的和基于聚类的。随着科学技术的发展,数据的收集更快也更容易,从而导致更复杂的数据形式出现了。

高维数据的特征完全不同于传统数据,传统离群检测算法都不能很有效地应用于高维数据。在高维数据中,数据变得稀疏,数据集中的对象几乎是等距离彼此分开,数据在高维空间中的表现相对于低维空间有很大的差异。而且由于数据集变得更多样化,在高维数据中许多属性通常是不相关的,这些不相关的属性能够混淆离群算法。

除了高维数据,还出现了不确定性数据、流数

据等新兴数据模型,同时也出现了一些新的离群检测算法,因此关于新型数据领域的离群检测算法的研究更有意义。

2高维数据离群检测算法

高维数据离群检测是近年来数据挖掘的一个较为活跃的研究领域。目前,高维数据离群检测算法己在文本挖掘、生物信息学、信息安全等领域得到广泛应用。根据高维数据离群检测所采用的基本思想可以分为基于降维的、基于子空间的和离群联合技术。

2.1

降维

高维数据降维技术主要通过从数据集中提取重要特征来实现,其中主要包括特征变换和特征选

离群点检测算法研究

?

李俊丽芦彩林

(晋中学院信息技术与工程学院

晋中

030619)

离群检测作为数据挖掘中一项重要内容,已经应用于许多领域,因此引起广泛关注。介绍了传统的离群点检

测算法的分类,针对传统算法无法适用于新兴数据模型的问题,首先详细讨论了高维数据的离群点检测算法,并提出了离群组合技术的方法以解决与高维数据相关联的问题,其次描述了不确定数据和数据流离群检测算法,最后对离群检测算法的性能评价进行了讨论,并指出了进一步的研究方向。

关键词

高维数据;离群检测;不确定数据;数据流

中图分类号

TP311

DOI :10.3969/j.issn.1672-9722.2017.06.007

Research on Algorithms for Outlier Detection

LI Junli LU Cailin

(School of Information Technology and Engineering ,Jinzhong College ,Jinzhong 030619)

Abstract Outlier detection as an important item of data mining has been used in many areas thus caused wide public concern.

This paper introduces traditional classification of outlier detection algorithm ,aiming at the problem that traditional algorithm is not suitable for new data models ,the paper firstly discusses the outlier detection methods of high-dimensional data detailed ,and points out outlier ensembles for solving the problems associated with high-dimensional data.Secondly ,outlier detection algorithms of un?certain data and data streams are described ,and finally the evaluation of the outlier detection methods are discussed ,and the direc?tion for further research is pointed out.

Key Words high-dimensional data ,outlier detection ,uncertain data ,data streams

Class Number TP311

收稿日期:2016年12月18日,修回日期:2017年1月23日

基金项目:国家青年科学基金项目(编号:61602335)资助。作者简介:李俊丽,女,博士研究生,讲师,研究方向:数据挖掘。芦彩林,男,硕士,副教授,研究方向:计算机网络。?

万方数据

相关主题
文本预览
相关文档 最新文档