当前位置：文档之家› 基于模糊处理的中文文本关键词提取算法

基于模糊处理的中文文本关键词提取算法

作者：张红鹰， Zhang Hongying

作者单位：安徽财经大学成教学院,蚌埠,233000

刊名：

现代图书情报技术

英文刊名：NEW TECHNOLOGY OF LIBRARY AND INFORMATION SERVICE

年，卷(期)：2009，""(5)

被引用次数：1次

参考文献(7条)

1.Luhn H P A Statistical Approach to Mechanized Encoding and Searching of Literary Information

1957(04)

2.张敏.耿焕同.王煦法一种利用BC方法的关键词自动提取算法研究[期刊论文]-小型微型计算机系统 2007(06)

3.刘华基于文本分类中特征提取的领域词语聚类[期刊论文]-语言文字应用 2007(01)

4.方清华信息检索加权理论与技术:基于VSM模型的分析[期刊论文]-情报杂志 2008(06)

5.王灿辉.张敏.马少平基于相邻词的中文关键词自动抽取[期刊论文]-广西师范大学学报（自然科学版）

2007(02)

6.索红光.刘玉树.曹淑英一种基于词汇链的关键词抽取方法[期刊论文]-中文信息学报 2006(06)

7.Li S J.Wang H F.Yu S W Research on Maximum Entropy Model for Keyword Indexing[期刊论文]-Chinese Journal of Computers 2004(09)

相似文献(10条)

1.学位论文郑泽奇文本检索中相关性信息的扩展查询2004

该论文陈述一个搜索相关性文本信息的新思想.依照文本信息的特征,文中给出了相关关键词和相关文本的定义.基于这些定义,该论文提出了一个扩展查询关键词集的方法并给出了以之查询相关性文本信息的算法,使得计算机能够在无需理解词义的情况下找到相关的文本信息.经过在因特网上的多次实验以及对其结果的全面分析,我们发现该思想有较高的可行性和有效性.这个方法使得搜索相关的文本信息更为全面而又简捷.

2.学位论文刘菲中文文本主题词抽取研究与应用2007

本文对文本主题词抽取进行了系统的研究，介绍了一种利用关联规则挖掘中文文本主题词的方法。其中文本主题词由关键词和相关词组成，用户可以根据提供的关键词和相关词了解Web页面的主题，有助于用户快速浏览页面，了解页面内容；另外，相关词可以帮助用户扩展思路，提示用户未曾考虑到或并未掌握的相关内容，从而更广泛、更全面地获得自己所需的信息，提高信息检索效率。

传统的主题词抽取主要是从文档正文中抽取关键词(Keyphrase Extraction)，文档经过规范化处理被分成一系列的候选词，最后用一种有监督的学习算法确定候选词是否被选为关键词。在关键词抽取模块中，本文采用44种词性匹配模版对候选词进行组合，通过计算特征值优先抽取TriGram和BiGram作为关键词，使抽取结果能够同时兼顾信息量大和可读性好两种特点。

在关键词抽取的基础上，我们提出一种基于关联规则挖掘相关词的方法，使相关词和从该话题文本正文中抽取的关键词一起，作为文本主题词。在相关词抽取模块中，系统经过噪音过滤的关键词集作为关联规则学习的项目集，单篇文档对应的关键词作为一个项目，Apriori算法首先通过用户给定的最小支持度，寻找所有频繁项目集，然后由频繁项集产生强关联规则，这些规则必须满足最小支持度和最小置信度。系统根据关联规则挖掘结果找出和关键词i<,m>有关的其它关键词{i<,1>，i<,2>，…，i<,q>)作为关键词i<,m>对应文档的相关词，并和该篇文档的关键词共同组成文本主题词。实验表明，本文提出的利用关联规则挖掘文本主题词方法较为准确和有效，取得了较高的用户满意度。

3.期刊论文张雪英.Jürgen Krause.Zhang Xueying.Jürgen Krause中文文本关键词自动抽取方法研究-情报学报

2008,27(4)

随着信息技术的发展,中文电子文本信息资源正以惊人的速度急剧增长.文本自动处理技术,通过自动组织海量文献信息资源,能够为用户提供简易有效的信息检索服务.关键词自动抽取是文本自动处理的基础和核心.汉语的特殊性加剧了中文文本关键词自动抽取的难度.本文提出了一种基于N-gram权重计算和关键词筛选算法的中文文本关键词自动抽取方法.该方法不依赖特定的数据集和中文分词技术,可以有效地抽取出任意单篇文本的关键词,而且通过参数调整,应用系统可以灵活地控制标引深度和标引专指度.实验表明,该方法简单、快速、断词错误率低,标引性能明显优于基于中文分词和TF/IDF的方法,可以满足大规模文本的在线处理要求.

4.学位论文卢健潜在语义分析在文本信息检索中的应用研究2005

传统的文本信息检索方法的基本思路为，用户提出提问式，系统在数据库中进行提问式和预存的文本关键词的自动匹配工作，两者相符的文本被检出。但是大量事实表明，这种通过词汇简单匹配检索出的结果并不是最优的，原因在于词汇间的同义性和单个词汇的歧义性。本文分析了一种智能型信息检索方式—潜在语义分析法(LatentSemanticAnalysis,LSA)，它不同于传统的基于词汇匹配的检索方法，将计算机科学、数学、情报学的思想、技术和手段融合起来，对文本的潜在含义进行挖掘，根据词汇、文本、提问式三者在语义上的关联产生检索结果，达到优化检索结果的目的。基于LSA的信息检索方法以一个词汇与文档相联系的大规模矩阵开始,自动地建造了一个语义空间,使得使用者能够发现相关信息，即使提问式中没有任何词与之相关

，只要在概念上与该文档的主体思想联系相一致，在语意空间中它们仍然紧靠在该文档附近。因此词汇和文档在语意空间的位置可以用来作为一种语意指引，提取信息的过程就是利用提问式中的关键词来识别空间的一个点，在这个点附近的文档按词汇向量与文档向量之间点乘的余弦值的大小排列，即按关键词与文档相关程度排列返回给使用者。文章在简述潜在语义分析法产生的背景与研究概况、基本原理与思路的基础上，进一步对LSA关键技术—奇异值分解进行推导，并对一个中文样本进行潜在语义分析测试和结果分析，最后，介绍了潜在语义分析法在其它方面的特殊应用。

5.学位论文李健飞基于Inmarsat-C的智能船长文本通信系统的研究2005

本文设计并开发了适合中国广大用户使用的船长文本通信系统。该船长文本通信系统是一种能根据提示智能生成中、英文报文，并且可以通过只传

输关键词来进行信息压缩，从而降低通信费用的一种通信系统。

通过本船长文本通信系统，可以完成智能生成中英文报文、收发电传、E-Mail、遇险报警和增强群呼安全信息等功能。利用本系统，中国船员，特别是渔民，可以完全用中文发送报文。在必须发送英文报文时，他们只需记住常用的一些英语单词(如，船名、船上各主要部件名称等)的拼写方法等就可以利用英文报文模板编辑并发送全英文的报文。对船舶公司，本系统可以节约通信费用、提高通信效率、加强船队管理、提高报警成功率。

首先介绍了船长文本通信系统相关的理论知识，接着说明了系统总体的设计方案和一些关键环节的信息流程。在论文的核心部分，结合图示和列表，详细地阐述了船长文本通信系统从整体框架到界面设计，再到通信的实现及各种对C站的设置的整个开发过程。论文的最后部分讨论了本通信系统可以进一步拓展提高的地方。

6.学位论文张雪英基于粗糙集理论的文本自动分类研究2005

文本自动分类是目前信息检索和自然语言处理领域的研究热点之一。九十年代以后，机器学习方法逐步广泛应用于文本自动分类。基于机器学习的文本自动分类是一个非常复杂的信息处理任务，目前仍然面临着许多亟待解决的难题。本文将针对文本自动分类涉及的几个主要问题进行比较深入的研究和探索。具体研究内容和创新性研究成果概括如下：

1.基于N-gram的中英文文本表达方法。文本表达是指将表达文献主题内容的词汇抽取出来的过程。常用的向量空间表达法主要采用TF/IDF等权重法。该类权重法普遍存在两大缺点：一是需要计算词汇在整个数据集中频率，标引效率较低；二是不能直接应用于中文等东方语种文献。否则，必须首先解决分词技术问题。

2.标引词的语义异构性处理。通过文本表达获得的标引词，通常是没有进行语义规范控制的自由词。如果直接将这些标引词作为特征项输入文本自动分类算法，会直接导致计算时间复杂度的增加和分类性能的降低。人工方法和经典相似度计算方法是目前建立标引词语义转换关系的主要方式。本文的研究成果是提出了一种基于粗糙集理论和索引语言理论的标引词语义转换模型，可以用于建立来源于多个索引语言的标引词之间的语义关系，解决标引词的语义异构性问题。该模型的优点表现在：克服了人工转换方法成本高、效率低的缺点；克服了经典相似度计算方法单向性和不能明确定义标引词之间语义关系的缺点；能够快速有效地实现多个索引语言在不同兼容水平上的标引词语义双向转换；能够较大范围地集成具有语义关系的标引词，克服特征抽取方法受限于数据集的缺点。

3.粗糙集理论在文本自动分类中的应用问题研究。决策树、神经网络、支持向量机和贝叶斯等机器学习方法已经广泛用于文本自动分类。产生于

20世纪八十年代初的粗糙集理论是一种处理模糊和不确定性知识的数学工具。粗糙集理论的最大特点在于从知识分类的角度分析概念之间、分类对象之间和属性之间的关系。

7.会议论文张旭成.宋传宝基于文本类别信息熵的中文文档关键词提取2007

批量的对文本进行关键词抽取已经成为了情报检索领域相当有挑战性的工作。在本文中,一种全新的,基于文本统计类别信息熵的关键词抽取技术将被系统的介绍。此外,根据关键词,特别是在互联网上的功能,本文还尝试地给出了一种新的关键词分类:内容关键词、导出词(TAG关键词)和锚点关键词.通过将关键词的功能进行分化后,一套多样的,能满足不同需求的关键词排序算法被系统的提了出来。测评结果显示该关键词系统有较好的准确性、稳定性和高效性。

8.学位论文吴晓元层次化关键词抽取与文本自动分类在BBS中的应用2006

BBS（Bulletin Board System）是一种用户用来交流的在线社区，同时也是提供了非常丰富的信息资源。在中国，各种论坛的数目也飞速发展，根据中国网络信息中心的数据，论坛总数已将近占到整个中国互联网的27.6％。全世界范围内，BBS 同样吸引着非常多的用户。例如，Google 的在线论坛1，每天有几百万的用户在上面提问，讨论问题。整个BBS 分成很多个不同的版，每个版有各自讨论的话题。比如，技术方面有https://www.doczj.com/doc/5d10566344.html,ng.java，娱乐方面有alt.movie 等等。目前，越来越多的人对BBS 这种虚拟的交流方式产生极大的兴趣。参与的用户数量，以及BBS 中的文章数量都已经非常庞大，并且以很高的速度增长。随着BBS 的广泛应用，需要一些实用的算法和工具来帮助用户更好的挖掘和使用其中的信息。

本文在目前机器学习、数据挖掘和人工智能理论的基础上，提出新型的算法和应用是用户更加方便有效的使用BBS。首先，本课题通过对BBS 中数据进行关键词抽取，为每个版产生一个层次化的自动摘要。这样用户可以一眼就了解整个版的主要主题。用户通过点击这些层次化的关键词，可以找到相对应的文章。通过这一系统，用户可以快速的定位到他需要的信息，而无须再通过一条条的浏览来寻找。第二，因为Newsgroup（BBS 的一种）有非常多的版，并且由于用户对相关的版缺乏背景知识，所以把文章发到正确的版将是一个很大的挑战。本课题通过建立一个文本分类系统来对用户的文章进行自动推荐。并且，本文通过大量的实验分析，证明本系统的算法是非常有效的。

9.学位论文杜红斌基于计算智能的文本聚类算法研究2008

由于互联网的飞速发展以及信息爆炸带来的冲击，如何在信息的海洋中快速方便的获取有用的内容成为一项挑战。在这样的背景下，文本聚类技术也得到了深入的研究和广泛的应用。文本聚类是文本挖掘领域的一个重要研究分支，也是聚类方法在文本处理领域的应用。它可以发现与某个文本相似的一批文本，从而过滤掉大量的无关的信息，它也可以帮助相关度排序，从而使最有用的信息位于第一位置呈现给读者，提供一种组织和浏览大规模文本集的方法。因此文本聚类技术不仅是信息检索领域的一项关键技术，而且是研究更智能化的搜索引擎的入手点。目前，由于计算智能技术的逐渐成熟，为其与文本聚类技术的融合提供了可行性。

本文的主要研究工作为：

（1）基于计算智能的文本聚类算法的研究。对计算智能的相关算法与文本聚类技术的融合进行了理论上的详细分析和论述，在此基础上给出了相应的算法流程描述，并进行了对比试验。目前，基于粒子群优化(PSO)的文本聚类算法还没有得到深入的研究，由于PSO算法的简单性及时间消耗小的特点，对于海量数据挖掘其具有重要的意义。在分析PSO收敛早熟问题的基础上，提出了一种加窗监督的PSO算法并将其应用到文本聚类中，仿真实验表明此算法不仅可以提高PSO算法的全局搜索能力，从而避免早熟收敛，而且可以有效的提高文本聚类的精度。

（2）基于广义后缀树的文本聚类(STC)模型及算法的研究。分析了经典STC存在的一些缺点，在综合考虑了主题相似性以及文本包含相似性的基础上，给出了改进的用于基类合并的相似度公式，极大的提高了文本聚类的精度。同时，为了进一步提高聚类的效率，给出了基类选择的一种简单有效的测度，来排除一些无意义的广义后缀树的节点。

（3）基于信息增益的关键词提取算法的研究。关键词的提取可以对聚类结果进行有效的类别标识，目前相关研究工作不多。为此提出了基于信息增益的关键词提取算法，为文本聚类的广泛应用提供了可视性基础。实验表明，所提出的基于信息增益的关键词提取算法可以有效的对聚类结果进行类别标识。

（4）讨论了基于文本聚类的相似词识别的问题，将词间的相似转化为文本间的相似的思路为进一步在此方向的深入研究提供了基础。

10.学位论文杜昂面向产品创新设计的语义关键词专利检索方法2009

近年来，在产品设计领域，创新设计具有越来越重要的地位。产品创新设计中的一个关键问题是知识获取问题，即如何从海量信息中提取出符合设计需求的知识。例如在TRIZ创新概念设计的前期模糊前端阶段，原理解或领域解的求解阶段，都需要大量相关知识。当前知识获取的一个重要方式是从专利中获得，常用的方法是用关键词检索，但由于没有采用基于语义的检索方法，所以检索质量尚待进一步提高。本文重点研究基于语义的关键词检索方法，以提高检索的质量和效率，具有理论意义和应用价值。

本课题首先研究专利的文本预处理方法，并构建了供语义关键词检索的专利数据库，然后研究基于语义关键词检索方法，并在此基础上给出了应用示例。主要研究工作如下：

(1)给出了一种专利数据的文本预处理方法。本文对国家知识产权局网站下载的专利进行文本格式转换和存储，通过Jtidy方法实现HTML文本的转化，并通过商业软件(Adobe Acrobat Professional8.0)实现PDF文本的转换，然后通过数据库建模将其存储到本课题组构建的专利数据库中，为用关键词或语义关键词从该专利数据库检索提供数据准备。

(2)给出了一种基于语义的关键词检索方法。主要用于以下两方面：针对专利文本不带关键词的问题，用语义关键词检索方法对一个给定的专利文本，在语义理解的基础上自动提取专利文本关键词；针对用一般关键词检索范围有限的问题，利用语义关键词扩展相关专利检索的范围。最后通过编程实现了语义关键词的检索模块。

(3)通过除冰雪车辆创新方案设计相关知识的专利检索实例，说明了本文给出的语义关键词检索方法应用。

上述研究有助于面向创新设计的知识获取的专利检索研究，将上述成果作为模块纳入本课题组开发的“面向创新的专利知识检索系统”，用语义关键词从该专利数据库中检索所需的知识，为设计师进行创新设计的方案设计提供参考。

引证文献(1条)

1.赵俊杰.汪丽.王平水基于自动文摘的论文抄袭检测研究[期刊论文]-电脑与电信 2010(2)

本文链接：https://www.doczj.com/doc/5d10566344.html,/Periodical_xdtsqbjs200905008.aspx

授权使用：广东商学院(gdsxy)，授权号：2aaf0759-ecc1-4f3a-b95c-9da20083bd1a，下载时间：2010年6月27日