当前位置:文档之家› 粗糙集理论及其应用综述

粗糙集理论及其应用综述

粗糙集理论及其应用综述
粗糙集理论及其应用综述

控制理论与应用

CONTROL THEORY & APPLICATIONS

1999年 第16卷 第2期 Vol.16 No.2 1999

粗糙集理论及其应用综述*

韩祯祥 张琦 文福拴

摘要:粗糙集理论是一种较新的软计算方法,可以有效地分析和处理不完备信息.该理论近年日益受到国际学术届的重视,已经在模式识别、机器学习、决策支持、过程控制、预测建模等许多科学与工程领域得到成功的应用.本文介绍了粗糙集理论的基本概念,对其在各领域的应用情况进行了综述.

关键词:粗糙集;不确定性;数据分析;软计算;粗糙控制

A Survey on Rough Set Theory and Its Application

Han Zhenxiang, Zhang Qi and Wen Fushuan

(Department of Electrical Engineering,

Zhejiang University.Hangzhou,310 027,P.R.China)

Abstract: Rough set theory is a relatively new soft comput ingtool to deal with vagueness and uncertainty.It has received much attention of the researchers around the world.Rough set theory has been applied to many area s successfully including pattern recognition,machine learning,decision support, process control and predictive modeling.This paper introduces the basic concepts of rough set.A survey on its applicatoins is also given.

Key words: rough set; uncertainty; data analysis; soft computing; rough control

1 引言(Introduction)

粗糙集(Rougn Set,RS)理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律[1].RS理论是由波兰学者Pawlak Z在1982年[2]提出的.1991年Pawlak Z出版了专著[3],系统全面地阐述了RS理论,奠定了严密的数学基础.该书与1992年出版的RS理论应用专集[4]较好地总结了这一时期RS理论与实践的研究成果,促进了它的进一步发展,现已成为学习和应用RS理论的重要文献.从1992年至今,每年都召开以RS 为主题的国际会议,推动了RS理论的拓展和应用.国际上成立了粗糙集学术研究会,参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家.目前RS理论已成为人工智能领域中一个较新的学术热点,引起了越来越多的科研人员的关注.

2 粗糙集理论的基本概念(Basic concepts of rough set theory)

2.1 知识与不可分辨关系(Knowledge and indiscern ibility relation)

在RS理论中,“知识”被认为一种将现实或抽象的对象进行分类的能力[3].假定

我们具有关于论域的某种知识,并使用属性(attribute)及其值(value)来描述论域中的对象.例如:空间物体集合U具有“颜色”、“形状”这两种属性,“颜色”的属性值取为红、黄、绿,“形状”的属性值取为方、圆、三角形.从离散数学的观点看,“颜色”、“形状”构成了U上的一族等效关系(equivalent relation).U中的物体,按照“颜色”这一等效关系,可以划分为“红色的物体”、“黄色的物体”、“绿色的物

体”等集合;按照“形状”这一等效关系,可以划分为“方的物体”、“圆的物体”、“三角形的物体”等集合;按照“颜色+形状”这一合成等效关系,又可以划分为“红色的圆物体”、“黄色的方物体”、“绿色的三角形物体”…等集合.如果两个物体同属于“红色的圆物体”这一集合,它们之间是不可分辨关系(indiscernibility relation),因为描述它们的属性都是“红”和“圆”.不可分辨关系的概念是RS理论的基石,它揭示出论域知识的颗粒状结构.

2.2 粗糙集合的下逼近、上逼近、边界区和粗糙隶属函数(Lower and upper approximation of rough set,boundary region and rough membership function)

给定一个有限的非空集合U称为论域,R为U上的一族等效关系.R将U划分为互不相交的基本等效类,二元对K=(U,R)构成一个近似空间(approximation space).设X为U 的一个子集,a为U中的一个对象,[a]R表示所有与a不可分辨的对象所组成的集合,即由a决定的等效类.当集合X能表示成基本等效类组成的并集时,则称集合X是可以精确定义的;否则,集合X只能通过逼近的方式来刻划.集合X关于R的下逼近(lower approximation)定义为:

R*(X)实际上是由那些根据已有知识判断肯定属于X的对象所组成的最大的集合,也称为X的正区(positive region),记作POS(X).由根据已有知识判断肯定不属于X的对象组成的集合称为X的负区(negative region).记作NEG(X).

集合X关于R的上逼近(upper approximation)定义为

R*(X)是由所有与X相交非空的等效类[a]R的并集,是那些可能属于X的对象组成的最小集合.显然,R*(X)+NEG(X)=论域U.集合X的边界区(boundary region)定义为:

BN(X)为集合X的上逼近与下逼近之差.如果BN(X)是空集,则称X关于R是清晰的(crisp);反之如果BN(X)不是空集,则称集合X为关于R的粗糙集(rough set).图1为粗糙集概念的示意图.下逼近、上逼近及边界区等概念刻划了一个不能精确定义的集合的逼近特性.逼近精度定义为

式中|R*(X)|表示集合R*(X)的基数或势(cardinality),对有限集合来说表示集合中所包含元素的个数.显然,0≤αR(X)≤1,如果αR(X)=1,则称集合X相对于R是清晰的;αR(X)<1,则称集合X相对于R是粗糙的.αR(X)可认为是在等效关系R下逼近集合X的精度.

图1 粗糙集概念示意图

Fig.1 Sketch map for concepts of rough set

RS理论中定义了粗糙隶属函数(rough membership function).通过使用不可分辨关系,定义元素a对集合X的粗糙隶属函数如下

显然0≤μR X≤1,粗糙隶属函数也可以用来定义集合X的上、下逼近和边界区.

现举例说明粗糙集的概念.论域U及等效关系R={R1,R2}采用如下定义:

U={x1,x2,x3,x4,x5,x6,x7,x8,x9,x10},

U/R1={{x1,x2,x3,x4},{x5,x6,x7,x8,x9,x10}},

U/R2={{x1,x2,x3},{x4,x5,x6,x7},{x8,x9,x10}},

U/R={{x2,x3},{x4},{x5,x6,x7},{x8,x9,x10}}.

则关于集合X={x1,x2,x3,x4,x5}的逼近为

POS(X)={x4},

NEG(X)={x8,x9,x10},

BN(X)={x1,x2,x3,x5,x6,x7}.

{x4}是集合X的正区,因为x4肯定属于X;{x8,x9,x10}肯定不属于X,因此为X的负区;{x1, x2,x3,x5,x6,x7}是否属于X在等效关系R下无法确定,构成了X的边界区.

2.3 决策表、约简与核(Decision table,reduct and core)

RS理论中应用决策表来描述论域中对象.它是一张二维表格,每一行描述一个对象,每一列描述对象的一种属性.属性分为条件属性和决策属性,论域中的对象根据条件属性的不同,被划分到具有不同决策属性的决策类.表1为一张决策表,论域U有5个对象,编号1~5,{a,b,c}是条件属性集,d为决策属性.对于分类来说,并非所有的条件属性都是必要的,有些是多余的,去除这些属性不会影响原来的分类效果.约简(reduct)定义为不含多余属性并保证分类正确的最小条件属性集.一个决策表可能同时存在几个约简,这些约简的交集定义为决策表的核(core),核中的属性是影响分类的重要属性.表1化简后得到了两个约简:{a,c}和{b,c},见表2和表3.它们维持了与原有条件属性集{a,b,c}相同的分类能力.{c}是核,表明c是影响分类的重要属性.

表1 决策表

Table1 Decision table

U a b c d

11021

22102

32123

41221

51203

表2 约简{a,c}

Table2 Reduct{a,c}

U a c d

1121

2202

3223

5103

表3 约简{b,c}

Table3 Reduct{b,c}

U b c d

10*1

2102

3123

4221

5203

从另一个角度看,决策表中每一个对象都蕴含着一条分类规则,决策表实际上也是一组逻辑规则的集合.例如表1中的对象1蕴含的规则是a1b0c2d1.化简决策表的过程也就是抽取分类规则的过程.表2中对象4在去掉属性b后与对象1蕴含相同的分类规则,为避免重复而被除去.约简中的规则还可进一步化简,删除那些与分类无关的次要属性.表3第一行中的“*”表示属性c的取值不重要,即只要b=0,d一定为1(b0d1).

“约简”和“核”这两个概念很重要,是RS方法的精华.RS理论提供了搜索约简和核的方法.计算约简的复杂性随着决策表的增大呈指数增长,是一个典型的NP完全问题,当然实际中没有必要求出所有的约简.引入启发式的搜索方法如遗传算法[10]有助于找到较优的约简,即所含条件属性最少的约简.

3 粗糙集理论的特点(Features of rough set theory)

1)RS不需要先验知识.模糊集和概率统计方法是处理不确定信息的常用方法,但这些方法需要一些数据的附加信息或先验知识,如模糊隶属函数和概率分布等,这些信息有时并不容易得到.RS分析方法仅利用数据本身提供的信息,无须任何先验知识.

2)RS是一个强大的数据分析工具.它能表达和处理不完备信息;能在保留关键信息的前提下对数据进行化简并求得知识的最小表达;能识别并评估数据之间的依赖关系,揭示出概念简单的模式;能从经验数据中获取易于证实的规则知识,特别适于智能控制.

3)RS与模糊集分别刻划了不完备信息的两个方面[5]:RS以不可分辨关系为基础,侧重分类,模糊集基于元素对集合隶属程度的不同,强调集合本身的含混性(vagueness).从RS的观点看,粗糙集合不能清晰定义的原因是缺乏足够的论域知识,但可以用一对清晰集合逼近.有关RS和模糊集内在联系的阐述及模糊粗糙集(fuzzy-rough set)的概念,请参见文[6~8].RS和证据理论也有一些相互交叠之处[9],在实际应用中可以相互补充.

4 粗糙集理论的应用(Applications of rough set theory)

RS理论的生命力在于它具有较强的实用性,从诞生到现在虽然只有十几年的时间,但已经在许多领域取得了令人鼓舞的成果.

1)股票数据分析.文[11]应用RS方法分析了十年间股票的历史数据,研究了股票价格与经济指数之间的依赖关系,获得的预测规则得到了华尔街证券交易专家的认可.

2)模式识别.文[12]应用RS方法研究了手写字符识别问题,提取出了特征属性.

3)地震预报.文[13]研究了地震前的地质和气象数据与里氏地震级别的依赖关系.

4)冲突分析.文[14]应用RS方法建立了反映以色列、巴勒斯坦、约旦、埃及、叙利亚和沙特阿拉伯等六国关于中东和平问题各自立场的谈判模型.

5)从数据库中知识发现(knowledge discovery in database,KDD)[15,16].KDD又称数据发掘(data mining),是当前人工智能和数据库技术交叉学科的研究热点之一.RS方法现已成为KDD的一种重要方法,其导出的知识精练且更便于存储和使用.

6)粗糙控制(rough control)[17~23].RS根据观测数据获得控制策略的方法被称为从

范例中学习(learning from examples),属于智能控制的范畴.基本步骤是:把控制过程中的一些有代表性的状态以及操作人员在这些状态下所采取的控制策略都记录下来,形成决策表,然后对其分析化简,总结出控制规则[17,18].形式为:IF Condition=N满足THEN 采取Decision=M.RS方法是一类符号化分析方法,需要将连续的控制变量离散化,为此Pawlak Z提出了粗糙函数(rough function)的概念[19],为粗糙控制打下了理论基础.文[20,21]应用粗糙控制研究了“小车—倒立摆系统”这一经典控制问题,取得了较好的结果.在过程控制领域,文[22]应用RS方法成功地提取出了水泥窑炉的控制规则.粗糙控制的优点是简单迅速、实现容易,不需要象Fuzzy控制那样进行模糊化和去模糊化.因此在特别要求控制器结构与算法简单的场合,采取粗糙控制较为合适.另外,由于控制算法完全来自观测数据本身,其决策和推理过程可以很容易被检验和证实.一种新的有吸引力的控制策略“模糊-粗糙控制(fuzzy-rough control)”正悄然兴起,其主要思路是利用RS获取模糊控制规则.

7)医疗诊断.RS方法根据以往的病例归纳出诊断规则,用来指导新的病例.现有的人工预测早产的准确率只有17%~38%,应用粗糙集理论则可提高到68%~90%[1].

8)专家系统(ES).RS抽取规则的特点,为构造ES知识库提供了一条崭新的途径[24].

9)人工神经元网络(ANN).训练时间过于漫长的固有缺点是制约ANN实用化的因素之一.文[25]应用RS化简神经网络训练样本数据集,在保留重要信息的前提下消除了多余的数据,使训练速度提高了4.77倍,获得了较好的效果.文[26,27]将RS与ANN结合起来,充分利用RS处理不确定性的特长以增强ANN的信息处理能力.

10)决策分析[28~30].RS的决策规则是在分析以往经验数据的基础上得到的.RS允许决策对象中存在一些不太明确、不太完整的属性,弥补了常规决策方法的不足.希腊工业发展银行ETEVA应用RS理论协助制订信贷政策,是RS多准测决策方法的一个成功范例.

RS理论的应用领域还包括:近似推理[31,32]、软件工程数据分析[33]、图象处理[34]、材料科学中的晶体结构分析[35]、预测建模[36,37]、结构建模[38]、投票分析[39]、电力系统[40,42]等.RS在我国的研究刚刚起步,有关文献还不多[43~44].

5 结束语(Conclusion)

虽然RS至今只有十几年的发展历史,但取得的研究成果是令人瞩目的.它是一种较有前途的软计算方法,为处理不确定性信息提供了有力的分析手段[45].我们相信RS具有广阔的发展空间,今后会在更多的实际领域中发挥作用.

致谢 波兰华沙工业大学计算机科学研究所(Institute of Computer Science,Warsaw University of Technology)的Zdzislaw Pawlak教授和Bozena Skalska博士赠送了部分研究报告,在此向他们表示感谢.

*国家自然科学基金资助项目(59777011).

本文作者简介:

韩祯祥 1930年生.浙江大学教授,博士生导师.研究领域为软计算方法及其在电力系统中的应用.

张 琦 1971年生.浙江大学在读博士生.研究方向为粗糙集理论在电力系统中的应用.

文福拴 1965年生.浙江大学教授,博士生导师.研究领域为软计算方法在电力系统中的应用.

作者单位:浙江大学电机系.杭州,310027

参考文献(References)

 1 Pawlak Z et al. Rough https://www.doczj.com/doc/17584117.html,munications of ACM,1995,38(11):89-95

 2 Pawlak Z.Rough sets.International Journal of Information and Computer Science,1982, (11):341-356

 3 Pawlak Z.Rough set-theoretical aspects of reasoning about data.Dordrecht:Kluwer Academic Publishers,1991

 4 Slowinski R.Intelligent decision support-handbook of applications and advances of the rough sets theory.Dordrecht:Kluwer Academic Publishers,1992

 5 Pawlak Z.Vagueness and uncertainty-a rough set https://www.doczj.com/doc/17584117.html,putational Intelligence,1995,11(2):227-232

 6 Wygralak M.Rough sets and fuzzy sets-some remarks on interrelations.Fuzzy Sets and Systems,1989,29(3):241-243

 7 Nanda S et al.Fuzzy rough sets.Fuzzy Sets and Systems,1992,45(2):157-160

 8 Banerjee M and Pal S K.Roughness of a fuzzy https://www.doczj.com/doc/17584117.html,rmation Sciences,1996,93(3,4):235-246

 9 Skowton A et al.From rough set theory to evidence theory.Advances in the Dempster Shafer Theory of Evidence.New York:John Wiley & Sons Inc.,1994,193-236

 10 Jakub W.Finding minimal reducts using genetic algorithm.Institute of Computer Science Reports,Warsaw University of Technology,Warsaw,1995

 11 Golan R and Ziarko W.Methodology for stock market analysis utilizing rough set theory. Proc.of IEEE/IAFE Conference on Computational Intelligence for Financial Engineering,New Jersey,1995,32-40

 12 Nejman D. A rough set based method of handwritten numerals classification.Institutc of Computer Science Reports,Warsaw University of Technology,Warsaw,1994

 13 Teghem J et al. Use of rough sets method to draw premonitory factors for earthquakes by emphasizing gas geochemistry.In:Intelligent Decision Support-Handbook of applications and Advances of the Rough Sets Theory.Dordrecht:Kluwer Academic Publishers,1992,165-179

 14 Deja R.Conflict model with negotiations.In:Institute of Computer Science Reports. Warsaw University of Technlolgy,Warsaw,1995

 15 Hu Xiaohua et al.Mining knowledge rules from databases-a rough set approach.Proc.of IEEE International Conference on Data Engineering,Los Alamitos,1996,96-105

 16 Tsumoto Sh et al.Extraction of domain knowledge from databases based on rough set theory.IEEE International Conference on Fuzzy Systems,New Jersey,1996,748-754

 17 Sienkiewicz J.Rough set and rough function approaches to the control algorithm reconstruction.Institute of Computer Science Reports,Warsaw University of Technology, Warsaw,1996

 18 Mrozek A et al.Methodology of rough controller synthesis.Proc.of IEEE International Conference on Fuzzy Systems,New Jersey,1996,1135-1139

 19 Pawlak Z.Rough sets,rough relations and rough functions.Fundamenta

Informaticae,1996,27(2,3):103-108

 20 Plonka L and Mrozek A.Rule-based stabilization of the inverted pendulum. Computational Intelligence,1995,11(2):348-356

 21 Czogala E et al.Idea of a rough fuzzy controller and its application to the stabilization of a pendulum-car system.Fuzzy Sets and systems,1995,72(1):61-73

 22 Mrozek A.Rough sets and dependency analysis among attributes in computer implementations of expert's inference models.International Journal of Man-Machine Studies,1989,30(4):457-473

 23 Arima M et al. Fuzzy logic and rough sets controller for HVAC systems.Proc.of IEEE WESCANEX Communications,Power,and Computing,New York,1995,133-138

 24 Tsumoto S et al. Automated discovery of medical expert system rules from clinical databases based on rough sets.Proc.of Second International Conf.on Knowledge Discovery and Data Mining,USA,1996,63-72

 25 Jelonek J et al. Rough set reduction of attributes and their domains for neural networks. Computational Intelligence,1995,11(2):339-347

 26 Peng C et al.Multi-valued neural network and the knowledge acquisiti on method by the rough sets for ambiguous recognition problem.Proc.of the IEEE In ternational Conference on Systems,Man and Cybernetics,Beijing,1996,736-740

 27 Yasdi https://www.doczj.com/doc/17584117.html,bining rough sets learning and neural learning-method to deal with uncertain and imprecise information.Neurocomputing,1995,7(1):61-84

 28 Slowinski R.Rough set approach to decision analysis.AI Expert,March 1995,19-25

 29 Pawlak Z.Rough set approach to knowledge-based decision support.Institute of Computer Science Reports,Warsaw University of Technology,Warsaw,1995

 30 Slowinski R et al.Rough set sorting of firms according to bankruptcy risk.In:Applying Multiple Criteria aid for Decision to Environment Management,Dordrecht:Kluwer Academic Publishers,1994,339-357

 31 Slowinski R et al. Rough set reasoning about uncertain data.Fundamenta Informaticae,1996,27(2,3):229-243

 32 Parsons S et al. A rough set approach to reasoning under uncertainty.Journal of Exprimental and Theoretical AI,1995,7(2):175-193

 33 Ruhe G and Gesselschaft F.Rough set based data analysis in goal-oriented software measurement.Proc.of IEEE International software Metrics Symposium,Los Alamitos,1996,10-19 34 Wojcik Z et al.Application of rough sets for edge enhancing image filters.Proc.of IEEE International Conference on Image Processing,Los Alamitos,1994,525-529

 35 Jackson A et al.Rough sets applied to materials data.Acta Materialia,1996,44(11):4475-4484 36 Collette T and Szladow https://www.doczj.com/doc/17584117.html,e rough sets and spectral data for building predictive models of reaction rate constants. Applied Spectroscopy,1994,48(11):1379-1386

 37 Aijun A et al. Discovering rules for water demand prediction-an enhanced rough set approach.Engineering Applications of Artificial Intelligence,1996,9(6):645-653

 38 Wojcik Z et al.Structural modeling using rough sets.Proc.of IEEE International Conference on Fuzzy Systems,New Jersey,1996,761-766

 39 Nurmi H et al. Probabilistic,fuzzy and rough concepts in social choice.European Journal of Operational Research,1996,95(2):264-277

 40 Lambert-Torres G et al. Data Mining into a Control Center Database via Rough Set Techniques.Proc.of the International Conference on Intelligent Systems Applications to Power Systems (ISAP'97),Seoul,1997,246-250

 41 Zhang Q,Han Z X and Wen F S.A new approach for fault diagnosis in power systems based on rough set theory.Proceedings of APSCOM'97,Hong Kong,1997,597-602

 42 张琦,韩祯祥,文福拴.一种基于粗糙集方法的电力系统故障诊断/警报处理的新方法.中国电力,1998,31(4):32-38

 43 王珏,苗夺谦,周育键.关于Rough Set理论与应用的综述.模式识别与人工智能,1996,9(4):337-344

 44 曾黄麟.粗集理论及其应用.重庆:重庆大学出版社,1998

 45 Ewa Orlowska(ed.).Incomplete information-rough set analysis.New York:Physica-Verlag,1998

本文于1997年9月3日收到.1998年11月18日收到修改稿.

粗糙集理论及其应用综述

控制理论与应用 CONTROL THEORY & APPLICATIONS 1999年 第16卷 第2期 Vol.16 No.2 1999 粗糙集理论及其应用综述* 韩祯祥 张琦 文福拴 摘要:粗糙集理论是一种较新的软计算方法,可以有效地分析和处理不完备信息.该理论近年日益受到国际学术届的重视,已经在模式识别、机器学习、决策支持、过程控制、预测建模等许多科学与工程领域得到成功的应用.本文介绍了粗糙集理论的基本概念,对其在各领域的应用情况进行了综述. 关键词:粗糙集;不确定性;数据分析;软计算;粗糙控制 A Survey on Rough Set Theory and Its Application Han Zhenxiang, Zhang Qi and Wen Fushuan (Department of Electrical Engineering, Zhejiang University.Hangzhou,310 027,P.R.China) Abstract: Rough set theory is a relatively new soft comput ingtool to deal with vagueness and uncertainty.It has received much attention of the researchers around the world.Rough set theory has been applied to many area s successfully including pattern recognition,machine learning,decision support, process control and predictive modeling.This paper introduces the basic concepts of rough set.A survey on its applicatoins is also given. Key words: rough set; uncertainty; data analysis; soft computing; rough control 1 引言(Introduction) 粗糙集(Rougn Set,RS)理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律[1].RS理论是由波兰学者Pawlak Z在1982年[2]提出的.1991年Pawlak Z出版了专著[3],系统全面地阐述了RS理论,奠定了严密的数学基础.该书与1992年出版的RS理论应用专集[4]较好地总结了这一时期RS理论与实践的研究成果,促进了它的进一步发展,现已成为学习和应用RS理论的重要文献.从1992年至今,每年都召开以RS 为主题的国际会议,推动了RS理论的拓展和应用.国际上成立了粗糙集学术研究会,参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家.目前RS理论已成为人工智能领域中一个较新的学术热点,引起了越来越多的科研人员的关注. 2 粗糙集理论的基本概念(Basic concepts of rough set theory) 2.1 知识与不可分辨关系(Knowledge and indiscern ibility relation) 在RS理论中,“知识”被认为一种将现实或抽象的对象进行分类的能力[3].假定

粗糙集理论

粗糙集理论与应用研究综述 王国胤1Yiyu Yao2 于洪1,2 (1重庆邮电大学计算机科学与技术研究所重庆400065) (2Department of Computer Science, University of Regina, Regina, Canada S4S 0A2) {wanggy, yuhong}@https://www.doczj.com/doc/17584117.html,, yyao@cs.uregina.ca 摘要本文在阐释粗糙集理论基本体系结构的基础上,从多个角度探讨粗糙集模型的研究思路,分析粗糙集理论与模糊集、证据理论、粒计算、形式概念分析、知识空间等其他理论之间的联系,介绍国内外关于粗糙集理论研究的主要方向和发展状况,讨论当前粗糙集理论研究的热点研究领域,以及将来需要重点研究的主要问题。 关键词粗糙集,模糊集,粒计算,形式概念分析,知识空间,智能信息处理 A Survey on Rough Set Theory and Its Application Wang Guo-Yin1Yao Yi-Yu2 Yu Hong1,2 1 Institute of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing, 400065 2 Department of Computer Science, University of Regina, Regina, Saskatchewan, Canada, S4S 0A2 Abstract This paper introduces the basic ideas and framework of rough set theory and the different views of knowledge representation in rough set theory, and then discusses the relations between the rough set theory and the other theories, such as fuzzy set, evidence theory, granular computing, formal concept analyzing, knowledge space, etc. Furthermore, the paper reviews the recent studies for this theory and a survey on its applications is also given. The future development trend of rough set theory is also discussed. Keywords rough set, fuzzy set, granular computing, formal concept analyzing, knowledge space, intelligent information processing 1 引言 智能信息处理是当前信息科学理论和应用研究中的一个热点领域。由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息,信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。 粗糙集(Rough Set,有时也称Rough集、粗集)理论是Pawlak教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具[1]。粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。 由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术[2-4],该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。目前,有三个有关粗糙集的系列国际会议,即:RSCTC、RSFDGrC和RSKT。中国学者在这方面也取得了很大的成果,从2001年开始每年召开中国粗糙集与软计算学术会议;RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列国际学术会议在中国召开。 粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。经典Pawlak模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。因此,如何推广定义近似算子成为了粗糙集理论研究的一个重点。 目前,常见的关于推广粗糙集理论的研究方法有两种,即:构造化方法和公理化方法。构造化方法是以论域上的二元关系、划分、覆盖、邻域系统、布尔子代数等作为基本要素,进而定义粗糙近似算子,从而导出粗糙集代数系统。公理化方法的基本要素是一对满足某些公理的一元集合算子,近似算子的某些公理能保证有一些特殊类型的二元关系的存在;反过来, 由二元关系通过构造性方法导出的近似算子一定满足某些公理。 事实上,有两种形式来描述粗糙集,一个是从集

集合代数与粗糙集之间的关系研究【文献综述】

文献综述 信息与计算科学 集合代数与粗糙集之间的关系研究 粗糙集理论是波兰数学家Pawlak于1982年提出的用于数据分析的理论. 由于该理论能够处理模糊和不确定性信息, 因此作为一种有效的知识获取工具受到了人工智能研究者的关注. 目前粗糙集理论已被成功应用在机器学习与知识发现、过程控制、数据挖掘、决策分析、模式识别等领域, 成为信息科学的研究热点之一. 1965年, 美国加利福尼亚大学控制论专家扎德(L. A. Zadeh)教授在《信息与控制》杂志上发表了一篇开创性论文<模糊集合>, 这标志着模糊数学的诞生. L. A. Zadeh教授多年来致力于“计算机”与“大系统”的矛盾研究, 集中思考了计算机为什么不能象人脑那样进行灵活的思维与判断问题. 计算机为什么不能象人脑思维那样处理模糊信息呢? 其原因在于传统的数学. 例如精确数学, 是建立在经典集合论的基础之上, 一个研究的对象对于某个给定的经典集合的关系要么是属于, 要么是不属于, 二者必居其一. [2]19世纪, 由于英国数学家布尔(Bool)等人的研究, 这种基于二值逻辑的绝对思维方法抽象后成为布尔代数, 它的出现促使数理逻辑成为一门很有适用价值的学科, 同时也成为计算机科学的基础. 但是, 1923年, 大哲学家罗素(Russell)就在其著名论文<论模糊性>中提出“整个语言或多或少是模糊的”及“所有二值逻辑都习惯上假定使用精确符号. 因此它仅适用于虚幻的存在. 而不适用于现实生活. 逻辑比其他学科使我们更接近天堂”[1]时认识到二值逻辑的不足. 二值逻辑无法解决一些逻辑悖论, 如著名的罗素(Russell)“理发师悖论”、“秃头悖论”、“克利特岛人说谎悖论”等等悖论问题. 这就是目前计算机不能象人脑思维那样灵活、敏捷地处理模糊信息的重要原因. 为克服这一障碍, L. A. Zadeh教授提出了“模糊集合论”. 在此基础上, 现在已形成一个模糊数学体系. 1960年柏克莱加州大学电子工程系扎德(L. A. Zadeh)教授, 提出“模糊”的概念. 1965年发表关于模糊集合理论的论文. 1966年马里诺斯(P. N. Marinos)发表关于模糊逻辑的研究报告. 以后, 扎德(L. A. Zadeh)又提出关于模糊语言变量的概念. 1974年扎德(L. A. Zadeh)进行有关模糊逻辑推理的研究. 1978年, 国际上第一本以模糊数学为主题的学术刊物《Fuzzy Sets

粗糙集理论及其应用与发展研究

Computer Knowledge And Technology电脑知识与技术2008年第4卷第1期(总第28期) 粗糙集理论及其应用与发展研究 韦良 (同济大学电子与信息工程学院,上海201804) 摘要:粗糙集理论是一种研究不精确、不确定性、处理不完备知识的数学工具,目前被广泛应用于人工智能、模式识别、机器学习、决策支持和数据挖掘等领域。该文通过介绍粗糙集理论及特点,叙述了粗糙集理论在各领域的应用发展情况,并且展望了其未来发展趋势。 关键词:粗糙集;属性约简;粗糙集应用;数据挖掘 中图分类号:TP18文献标识码:A文章编号:1009-3044(2008)28-0172-03 Rough Set Theory and Its Application Research WEI Liang (Electronics and Information School,Tongji University,Shanghai201804,China) Abstract:Rough set theory is a math theory which processes non-accurate,uncertain and incomplete knowledge.Currently,it has already been applied successfully in the area of Artificial Intelligence,Pattern Recognition,Machine Learning,Decision Analyzing and Data Mining etc.This paper introduces the rough set theory and its characteristics,reviews the development of this theory in different fields,and suggests evolutional trend in the coming future. Key words:rough set;attribute reduction;rough set application;data mining 1引言 波兰数学家Pawlak于1982年提出的粗糙集理论是一种新的处理模糊和不确定性知识的数学工具[1]。其主要思想就是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。粗糙集理论能有效地分析和处理不精确、不一致和不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。以粗糙集理论为基本框架的知识发现过程的研究,越来越引起人们的关注,特别是将粗糙集理论与机器学习、模式识别、数据库理论等相结合,并融合其它有效的数学工具与方法的研究,显示出基于粗糙集理论的多种软计算方法相结合算法在知识发现和优化过程中的强大的优越性,为知识发现的理论基础提供了一定的依据。目前粗糙集理论已成为人工智能领域中一个较新的学术热点,引起了越来越多科研人员的关注。 2粗糙集理论的基本概念 设U是非空有限论域,R是U上的二元等价关系,R称为不可分辨关系,序对A=(U,R)称为近似空间。坌(x,y)∈U×U,若(x,y)∈R,则称对象x与y在近似空间A中是不可分辨的。U/R是U上由R生成的等价类全体,它构成了U的一个划分。可以证明,U上划分可以与U上的二元等价关系之间建立一一对应。U/R中的集合称为基本集或原子集。若将U中的集合称为概念或表示知识,则A= (U,R)称为知识库,原子集表示基本概念或知识模块。任意有限的基本集的并和空集均称为可定义集,否则称为不可定义的。可定义集也称为精确集,它可以在知识库中被精确地定义或描述,可表示已知的知识。可以验证所有可定义集全体可构成U上的一个拓扑。 令知识库K=(U,R),集合X哿U,R是一个等价关系: 分别称RX为X的R下近似(Lower Approximation)和RX为X的R上近似(Upper Approximation)。称集合BN R(X)=RX-RX为X 的R边界域;POS R(X)RX为X的R正域;NEG R(X)=U-RX为X的R负域。 下近似RX包含了所有使用知识R可确切分类到概念X的元素。上近似 RX则包含了所有那些可能是属于概念X的元素。概念的边界区域BN R(X) 由不能肯定分类到这个概念X或其补集X中的所有元素组成。关系如图1 所示。 刻画粗糙集的方法有以下两种:一种是用表示近似精度的数值表示粗 糙集的数字特征;数字特征表示粗糙集边界域的相对大小,但没有说明边 界域的结构。另一种是用粗糙集的拓扑分类表示粗糙集的拓扑特征。拓扑 特征给出边界域的结构信息,但没有给出边界域大小的信息。 由等价关系R定义的集合X的近似精度如下: 收稿日期:2008-07-03 作者简介:韦良(1982-),男(朝鲜族),黑龙江牡丹江人,在读硕士研究生,研究方向:数据挖掘,人工智能,粗糙集应用。 图1概念的上近似、下近似和区域表示 ISSN1009-3044 Computer Knowledge And Technology电脑知识与技术 Vol.4,No.1,October2008,pp.172-174 E-mail:eduf@https://www.doczj.com/doc/17584117.html, https://www.doczj.com/doc/17584117.html, Tel:+86-551-56909635690964 172 本栏目责任编辑:唐一东人工智能及识别技术

粗糙集综述word版

粗糙集论文 题目 粗糙集综述 1 粗糙集属性约简 1.1 经典粗糙集属性约简 对于经典粗糙集我们可以用上下近似来描述。 给定知识库()R U K ,=,对于每个子集U X ?和一个等价关系()K ind R ∈,定义两个上下近似: {}{}. |/,|/ U U φ≠?∈=?∈=X Y R U Y X R X Y R U Y X R 另外上下近似还可以用以下的等式表达: []{}[]{}. |,| U U φ≠?∈=?∈=X x U x X R X x U x X R R R 当利用区分矩阵来表达知识时有许多优点,特别是他能很容易计算约简和核。约简是满足能区别由整个属性集区别的所有对象的属性极小子集。如果A 包含B 是满足B 交区别对象x 和y 的所有属性集合的极小子集不为空,且区别对象x 和y 的所有属性集合的极小子集不为空,则B 是A 的一个约简。核是区分矩阵中所有单个元素组成的集合。 对于决策表,C 为条件属性集,D 为决策属性集,决策表S 的区分矩阵是一个n n ?矩阵,其任一元素为 },x ),(),(|{),(a *)(且y a y f a x f C a y x ω≠∈= 对于满足),(,,x y x U y ω∈ )(y )(x D pos D pos C C ?∈且, 或者

)(y )(x D pos D pos C C ∈?且, 或者 ).(),()(,D ind y x D pos y x C ?∈且 如果φφ≠?≠??),(,),(C C C **''y x a y x a 满足条件的极小子集(关于包含),则'C 是C 的D 约简(相对约简). D 核(相对核)是决策表S 的区分矩阵中所有单个元素组成的集合,即 }.,},{),(a |{)(core *U y x a y x C a C D ∈=∈=其中 1.2 变精度粗糙集属性约简 变精度粗糙集是粗糙集的扩充,它是在基本粗糙集模型的基础上引入 )5.00(<≤ββ,即允许一定程度的错误分类率存在。这一方面完善了近似空间的概念,另一方面也有利于粗糙集理论从认为不相关的数据中发现相关数据。当β=0时,经典粗糙集模型是变精度粗糙集模型的一个特例。 X 和Y 表示有限论域U 的非空子集,且Y ?X 。 令 ???>>?=0,|X |0,0,|X | |,X |/|Y X |1-Y)c(X, 多数包含关系定义为ββ ≤??),(Y Y X c X 。 约简是保持和决策属性Q 的依赖性相同的最小条件属性子集。通过近似以来的定义来引入近似约简概念。 条件属性集P 关于据测属性集Q 的β约简是P 的一个子集),,(βQ P red ,且满足: ),),,,((),,()1(ββγβγQ Q P red Q P =. 不成立。都将是中去掉任何一个属性,从)1(),,()2(βQ P red 引入)5.00(<≤ββ参数后,扩充了基本粗糙集理论,更好体现了数据分析中的数据相关性,从而为获取近似决策规则奠定了基础。

粗糙集理论分析及其应用研究

1、前言 随着信息技术的飞速发展和广泛应用,面对信息系统中不完整、不精确或不确定的数据如何有效分析处理?如何发现隐藏在信息系统中的有用知识和潜在的规律?为了解决这些问题,学术界和研究者们采用了粗糙集理论。粗糙集理论是由波兰数学家 Z.Pawlak 在1982年提出的[1],它是一种分析处理不完整性、不精确性、不确定性知识的数学工具。该理论不需要任何初始或附加信息,直接利用已知的知识库,将知识库中的不确定或不精确的知识进行近似的划分,并对所划分的知识域确定其支持程度。 目前,该理论已成为信息科学和认识科学领域的研究热点之一,随着研究的深入,该理论得到了很大的发展和壮大,并已成功应用于人工智能、模式识别与分类、知识发现与决策分析、专家系统、数据挖掘、故障检测、金融、医学、生物学等领域。 2、粗糙集的基本理论定义 粗糙集理论是一种研究不完整、不确定性知识的数学工具[2]。在信息系统中,对知识的理解和表示是人们首先思考的问题,同时也是比较难解决的问题,从目前研究来看,对这些问题的解决,粗糙集理论和技术是比较理想的方法。 定义1:(信息系统)设一个信息系统[3]S=(U,A,V,f),这里, 粗糙集理论分析及其应用研究 覃宝灵 (佛山科学技术学院信息与教育技术中心 广东佛山 528000) 摘要:本文阐述粗糙集理论的基本概念,探讨粗糙集理论中知识约简和规则提取的重要性,通过分析、比较,把这些理论和技术应用于实际中,取得了显著的效果,对其在信息系统中的应用具有一定的研究价值。 关键词:粗糙集;知识约简;规则提取;遗传算法 ①U是对象的非空有限集合,即称为论域,记为:U={x 1,x 2,…,x n }; ②A是属性的非空有限集合,记为:A={A 1,A 2,…,A m }; ③V是属性的值域集,记为:V={V 1,V 2,…,V m },且V i 是属性A i 的值域; ④f是信息函数,即f:U×A→V,f(x i ,A j )∈V j 。在信息系统中,若属性集合A由条件属性集合C和决策属性集合D组成,且C∪D=A,C∩D=Ф,则称S为决策系统,又称决策表。 定义2:(等价关系)设知识表示系统S=(U,A ,V,f),若属性集合 时,称P的不可分辨关系Ind(P) 是U上的等价关系,其中Ind(P)={(x,y)∈U × U |,f(x,a)= f(y,a)}。由Ind(P)导出的所有等价类 集合记为U/P,它构成了论域的一个划分,含有元素x的等价类,记为[x]p 。 定义3:(下近似、上近似、边界域)设是一个集合,R是一个定义在U上的等价关系。有: ①若R一(X)=U{Y∈U/R:Y∈X},则称R一(X)为X的R下近似集; ②若R一(X)=U{Y∈U/R:Y∩X≠Ф},则称R一(X)为X的R上近似集; ③若R(X)=R一(X)一R一(X),则称R(X)为集合X的边界域。若R(X)是空集,则称集合X关于集合R是清晰的;反之,称集合X为关于集合R的粗糙集。 定义4:设R是一族等价关系,且{R}∈R,若

粗糙集理论及其发展

龙源期刊网 https://www.doczj.com/doc/17584117.html, 粗糙集理论及其发展 作者:张也驰 来源:《管理观察》2010年第16期 摘要:粗糙集理论以其出色的处理模糊和不确定知识的能力,在数据挖掘领域占据了越来越重要的地位。文章首先描述了粗糙集理论的核心思想,接着介绍了粗糙集理论在不完备信息系 统领域的扩充,最后论述了粗糙集理论的应用发展以及未来的研究方向。 关键词:粗糙集机器学习不完备信息系统数据挖掘 1.引言 粗糙集理论[1]是由波兰数学家Z. Pawlak于20世纪80年代提出的一种新的处理不精确性和不确定性信息的数学方法。之后国内外许多学者对粗糙集理论及其应用进行了坚持不懈的研究。1991年,Pawlak出版了第一本关于粗糙集理论的专著,详细介绍了粗糙集的理论基础,它奠定了粗糙集理论的基础,但由于最初关于粗糙集理论的研究大部分是用波兰语发表的,当时并没有引起国际计算机学界和数学界的重视;1992年,在波兰Kiekrz召开了第一届国际粗糙集研讨会, 从此每年一次以粗糙集理论为主题的国际研讨会以及粗糙集学术研究会的成立,推动了国际上 对粗糙集理论与应用的深入研究。1995年,Z. Pawlak概括性地介绍了粗糙集理论[2]的基本概念及其具体研究进展。我国对粗糙集理论的研究起步较晚。 粗糙集理论是建立在分类机制基础上的,它将知识理解为对数据的划分,每一个被划分的集合称为概念或范畴,其主要思想是利用已有的知识库,将不精确知识用已知知识库中的知识来(近似)刻画。与其他处理不精确性和不确定性信息的理论相比,该理论的一个最主要的优点是其无需提供任何除现有知识以外的任何先验知识,从而具有相当的客观性。近年来,由于粗糙集理论在人工智能和认知科学中日益呈现出的重要性和优越性,特别是在机器学习、数据挖掘、决策 分析、数据库知识发现、专家系统、决策支持系统、归纳推理和模式识别等领域,受到越来越 多的研究人员的关注。 2.粗糙集理论的基本概念 粗糙集理论作为一种处理模糊和不确定性知识的数学工具,其主要思想是在保持分类能力 不变的前提下,经过知识约简,导出问题的决策或分类规则。即粗糙集理论是建立在不可分辨关系基础知识的,不可分辨关系构成了粗糙集理论的数学基础。 2.1 知识表达系统和决策表

《粗糙集理论与方法》读书笔记

《粗糙集理论与方法》读书笔记 智能信息处理是当前信息科学理论和应用研究中的一个热点领域。由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息,信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。 1 粗糙集概述 粗糙集(Rough Set,有时也称Rough集、粗集)理论是Pawlak 教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。 由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术,该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。目前,有三个有关粗糙集的系列国际会议,即:RSCTC、RSFDGrC和RSKT。中国学者在这方面也取得了很大的成果,从2001年开始每年召开中国粗糙集与软计算学术会议;RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列国际学术会议在中国召开。 粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。经典Pawlak

模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。因此,如何推广定义近似算子成为了粗糙集理论研究的一个重点。 目前,常见的关于推广粗糙集理论的研究方法有两种,即:构造化方法和公理化方法。构造化方法是以论域上的二元关系、划分、覆盖、邻域系统、布尔子代数等作为基本要素,进而定义粗糙近似算子,从而导出粗糙集代数系统。公理化方法的基本要素是一对满足某些公理的一元集合算子,近似算子的某些公理能保证有一些特殊类型的二元关系的存在;反过来, 由二元关系通过构造性方法导出的近似算子一定满足某些公理。 事实上,有两种形式来描述粗糙集,一个是从集合的观点来进行,一个是从算子的观点来进行。那么,从不同观点采用不同的研究方法就得到粗糙集的各种扩展模型。扩展模型的研究以及基于其上的应用研究已经成为新的研究热点。 粗糙集理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。因此,研究粗糙集理论和其他理论的关系也是粗糙集理论研究的重点之一。 如果我们将研究对象看成是现象,那么我们可以将这些现象分

粗糙集理论介绍(对于初学者来说,很经典的滴)

粗糙集理论介绍面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识?我们如何将所学到的知识去粗取精?什么是对事物的粗线条描述什么是细线条描述?粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成了一个集合A,我们记:A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,按照颜色的不同,我们能够把这堆积木分成R1={红,黄,兰}三个大类,那么所有红颜色的积木构成集合X1={x1,x2,x6},黄颜色的积木构成集合X2={x3,x4},兰颜色的积木是:X3={x5,x7,x8}。 按照颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必然属于且仅属于一个分类),那么我们就说颜色属性就是一种知识。在这个例子中我们不难看到,一种对集合A的划分就对应着关于A中元素的一个知识,假如还有其他的属性,比如还有形状R2={三角,方块,圆形},大小R3={大,中,小},这样加上R1属性对A构成的划分分别为:A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}} (颜色分类)A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} (形状分类)A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} (大小分类) 上面这些所有的分类合在一起就形成了一个基本的知识库。那么这个基本知识库能表示什么概念呢?除了红的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}这样的概念以外还可以表达例如大的且是三角形的{x1,x2,x5}∩{x1,x2}={x1,x2},大三角{x1,x2,x5}∩{x1,x2}={x1,x2},兰色的小的圆形({x5,x7,x8}∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7},兰色的或者中的积木{x5,x7,x8}∪{x6,x8}={x5,x6,x7,x8}。而类似这样的概念可以通过求交运算得到,比如X1与Y1的交就表示红色的三角。所有的这些能够用交、并表示的概念以及加上上面的三个基本知识(A/R1,A/R2.A/R3)一起就构成了一个知识系统记为R=R1∩R2∩R3,它所决定的所有知识是A/R={{x1,x2},{x3},{x4},{x5},{x6},{x7},{x8}}以及A/R中集合的并。 下面考虑近似这个概念。假设给定了一个A上的子集合X={x2,x5,x7},那么用我们的知识库中的知识应该怎样描述它呢?红色的三角?****的大圆?都不是,无论是单属性知识还是由几个知识进行交、并运算合成的知识,都不能得到这个新的集合X,于是我们只好用我们已有的知识去近似它。也就是在所有的现有知识里面找出跟他最像的两个一个作为下近似,一个作为上近似。于是我们选择了“兰色的大方块或者兰色的小圆形”这个概念:{x5,x7}作为X的下近似。选择“三角形或者兰色的”{x1,x2,x5,x7,x8}作为它的上近似,值得注意的是,下近似集是在那些所有的包含于X的知识库中的集合中求并得到的,而上近似则是将那些包含X的知识库中的集合求并得到的。一般的,我们可以用下面的图来表示上、下近似的概念。这其中曲线围的区域是X的区域,蓝色的内部方框是内部参考消息,是下近似,绿的是边界加上蓝色的部分就是上近似集。其中各个小方块可以被看成是论域上的知识系统所构成的所有划分。整个粗集理论的核心就是上面说的有关知识、集合的划分、近似集合等等概念。 下面我们讨论一下关于粗糙集在数据库中数据挖掘的应用问题。考虑一个数据库中的二维表如下:元素颜色形状大小稳定性 x1 红三角大稳定 x2 红三角大稳定 x3 黄圆小不稳定 x4 黄圆小不稳定 x5 兰方块大稳定 x6 红圆中不稳定 x7 兰圆小不稳定 x8 兰方块中不稳定 可以看出,这个表就是上面的那个例子的二维表格体现,而最后一列是我们的决策属性,也就是说评价什么样的积木稳定。这个表中的每一行表示了类似这样的信息:红色的大三角积木稳定,****的小圆形不稳定等等。我们可以把所有的记录看成是论域A={x1,x2,x3,x4,x5,x6,x7,x8},任意一个列表示一个属性构成了对论域的元素上的一个划分,在划分的每一个类中都具有相同的属性。而属性可以分成两大类,一类叫做条件属性:颜色、形状、大小都是,另一类叫做决策属性:最后一列的是否稳定? 下面我们考虑,对于决策属性来说是否所有的条件属性都是有用的呢?考虑所有决策属性是“稳定”的集合

粗糙集与其他软计算理论结合情况进行综述研究

粗糙集与其他软计算理论结合情况进行综述研究 摘要:最近几年,对于粗糙集的研究越来越多,尤其是粗糙集与其他软计算理论相结合的研究更为突出,取得了很多有意义的研究成果。因此,将此方面目前的主要研究情况进行一个总结,主要介绍了目前粗糙集与模糊集、神经网络、证据理论等一些其他软计算理论之间的结合研究情况,并对这方面未来的发展提出了自己的一些观点。 关键词:粗糙集; 软计算; 模糊集; 粗糙模糊集; 模糊粗糙集 Survey on com bination of rough sets and other soft computing theories TANG Jian-guo??1,2, William ZHU?1,SHE Kun?1, CHEN Wen??1,3 (1.School of Computer Science & Engineering, University of Electronic Science & Technology of China, Chengdu 611731, China;2.School of Computer Science & Engineering, Xinjiang University of Finance & Economics, Urumqi 830012, China;3.Dept. of Computer Science, Fuzhou Polytechnic, Fuzhou 350108, China)?Abstract:In recent years, there are m ore and more research on rough sets.Especially,the com binations of rough sets and other soft computing theories have becam e more prominent,and have made a lot of m eaningful research results. In view of this, this paper gave a summary of the current status of these m ajor researchs.It focused on the com bination of rough sets and other soft computing theories such as fuzzy sets,neural net,evidence theory,and so on. In the end, it put forward the own viewpoint of the future development in this area. Key words:rough sets; soft com puting; fuzzy sets; rough-fuzzy sets; fuzzy-rough sets 0 引言 随着计算机技术和网络技术的迅速发展与广泛应用,人类社会进入了信息爆炸的时代,如何处理并有效利用这些信息已经成为世界各国学者研究的热点问题。软计算就是在这种需求背景下出现的一种新技术。软计算最初是由模糊集理论的创始人Zadeh[1]在1994年提出的,它是一种通过对不确定、不精确及不完全真值的数据进行容错处理从而取得低代价、易控制处理以及鲁棒性高的方法的集合。目前,软计算的理论与方法主要包括神经网络、模糊集、粗糙集、遗传算法、证据理论等。 粗糙集是在最近几年发展较快的一门理论,它是一种用于分析和处理不确定、不精确问题的数学理论,是由波兰数学家Pawlak[2]在1982年提出的。它的基本思想是通过论域上的等价关系将论域划分成若干个等价类,然后利用这些知识对所需处理的不精确或不确定的事物进行

粗糙集理论与应用发展

粗糙集理论与应用发展 1、引言 粗糙集( roughs ets,RS)理论是20世纪80年代初由波兰科学家Pawlak提出的[1]。其主思想就是在保持分类能力不变的前提下,通过知识约简,导出概念的分类规则。它从一个新的角度将知识定义为对论域的划分能力,并将其引入数学中的等价关系来进行讨论,从而为数据分析,特别是不精确、不完整数据分析提供了一套新的数学方法。同时,粗糙集理论具有无需提供除问题所需处理的数据集合之外的任何先验信息,仅根据观测数据删除冗余信息, 比较不完整知识的程度—粗糙度、属性间的依赖性与重要性,抽取分类规则等的能力。近几年,这个理论已得到空前的发展,无论在理论本身研究方面,还是在理论应用方面都取得了令人瞩目的成果。 2、粗糙集理论简介 粗糙集理论是建立在分类机制的基础之上的,不可区分关系的概念是粗糙集理论的基础。信息系统S由论域U和等价关系集A构成,表示成S=(U,A),不可区分关系ind(A)是信息系统S上的一个等价关系,它是A上全部等价关系的交集。信息系统S所表示的知识可理解为*对论域U划分的结果。不可区分关系的等价类构成了信息系统表示的知识的最小粒度,这个粒度内的对象不可区分。正是由于知识的粒度性,造成使用已有知识不能精确地表示某些概念。为此,在不可区分关系基础上定义了上下近似,使粗糙集理论能够有效地逼近这些概念。令XCU是论域上对象的一个集合,BCA是一族等价关系,CXIs表示元素x在B 下的等价类,则B( X )二 {xEU}Cxls(=X)B( X) 二

【文献综述】决策粗糙集均值模型

文献综述 数学与应用数学 决策粗糙集均值模型 由于社会已经进入了网络信息时代,信息量不断增长(信息爆炸),并且由于人类的参与,使数据与信息系统中的不确定性更加显著(复杂系统)。面对大量的、杂乱无章的数据,人们希望能从中挖掘出潜在的、有用的信息,这给人类的智能信息处理能力提出了前所未有的挑战。由此产生了人工智能的新领域——知识发现(规则提取、数据挖掘和机器学习)。 波兰数学家Pawlak于1982年发表了论文“Rough Sets”[9]提出了一种能够定量分析处理不精确、不一致、不完整信息与知识的理论——粗糙集理论。1992年,第一届关于粗糙集理论国际学术会议在波兰召开。粗糙集的主要特点是不需要预先给定所需处理的数据集合之外的任何信息,而是直接从给定问题的分类知识出发,提供潜在知识和决策支持。国内外学者对该理论进行了广泛而深入的研究,提出了许多粗糙集模型,并且已经成功应用于很多领域和开发了大量的实用系统[7]。目前,对粗糙集理论的研究集中在它的数学性质、粗糙集拓展、其它不确定方法的关系和互补、有效算法和粒度计算等方面。目前,有3个有关粗糙集的系列国际会议,即RSCTC、RSFDGrC和RSKT。中国学者在这方面虽然起步晚,但发展较快,从2001年开始每年召开中国粗糙集与软计算学术会议;2003年中国人工智能学会粗糙集与软计算专业委员会成立;一系列学术会议也有在中国召开,特别值得一提的是2010年第二届国际粗糙集理论研讨会在我校(浙江海洋学院)召开。中国第四届粗糙集与软计算会议也于2004年10月24日在我校召开,大大增加了我校在国内外的知名度。 在经典粗糙集理论的研究中,Pawlak的代数粗糙集模型是研究的主要对象。粗糙集理论是建立在分类机制的基础上的。它将研究对象组成的集合称为论域,将分类理解为在论域上的等价关系,而等价关系构成了对该论域的划分。粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念或范畴。一个等价关系对应一个划分,把论域分解成子集族,作为描述论域中任意概念的基本信息粒子。这产生了一个颗粒集合,其中一个颗粒看作一丛点(对象),因其不可区分性、相似性、接近的功能而被看做一致[24]。 对于一个等价关系(划分),某些子集不能精确地由一个等价类或者几个等价类来表

基于邻域的粗糙集近似【开题报告】

开题报告 信息与计算科学 基于邻域的粗糙集近似 一、综述本课题国内外研究动态, 说明选题的依据和意义 粗糙集理论作为一种数据分析处理理论, 由波兰科学家Z.Pawlak[1]于1982年所创立. 自20世纪90年代起, 该理论日益受到重视, 并成为国际信息科学的研究热点之一. 它是经典集合理论的扩展[2][3], 是一种处理不精确、不一致、不完整等各种不完备信息有效的新型数学工具, 是一种天然的数据挖掘或者说是知识发现方法. 由于实际需求中的数据分类、数据挖掘、概念形成等的不充分和不完备, 人们主观对各个认识领域中的信息、知识大都也是不精确的, 这种知识、信息的不确定性就要求在知识的表示、处理时能够反映出这种不确定性. 因此, 这套理论得以开发, 同时也非常成功的应用于人工智能领域, 例如人工智能、模式识别与智能信息处理等计算机领域. 粗糙集理论不继续用确定的集合边界, 它的基础是分类机制, 将分类理解为在空间上的等价关系. 这个理论与概率论, 模糊数学和证据理论等理论有很强的互补性[4]. 它的基本要素是近似空间, 由近似空间可以导出粗糙集理论中一对基本概念: 下近似算子和上近似算子. 下近似算子是所有在给定集合的等价类中子集的元素, 而上近似算子是所有在给定集合的等价类中具有非空交集的元素. 每一个集合都能够定义上近似和下近似, 再由集合的上、下近似就可以刻画出集合中可用信息的非数值属性. 对于不同的二元关系, 可以得到不同的近似空间, 其导出的近似算子性质也各不相同[4]. 在Pawlak的粗糙集合模型中, 等价关系是必要条件. 等价关系可以看成是Pawlak的粗糙集合模型中的核心思想[5]. 粗糙集理论的主导思想是保持分辨能力不变的情况下[6], 通过知识约简得出问题的决策和分类方法. 对于分类, 可以找到不确定数据或者噪声数据内在结构; 对于特征归约, 可以用来识别、删除给定数据的属性; 对于分析, 可以根据分类而评估出每个属性的意义或贡献. 论域中的元素都与论域中的一族子集相对应, 这一族子集就称为元素的邻域, 并且族中的每一个系统都被称为元素的邻域. 二元关系中建立的模糊集合理论, 进而就相关到对应的

相关主题
文本预览
相关文档 最新文档