当前位置:文档之家› 基于DOM的网页主题信息自动提取

基于DOM的网页主题信息自动提取

10期王琦等:基于酬的网页主题信息自动提取1787

题对于使用低端设备,尤其是使用PDA和手机的用户来说最为突出,它们需要花费很长时间来操作滚动条,跳过大量无关的图片和文字,这是很难令人接受的.经研究uJ表明,通过提取主题信息可以减少一半浏览时间,提高用户获取信息的速度,从而增强Web的可用性.web信息提取已经成为当前信息领域的研究热点之一.

web信息通常存在于半结构化的HTML文档中,为信息提取带来很大困难.尽管在web信息提取领域已经有大量的研究工作,但是很少有自动和通用的方法.本文提出了一种新的Web信息提取方法,基于DOM规范,针对HTML缺乏语义描述的不足,提出STU树模型,并将STU树模型与DOM树模型相结合,提出具有语义信息的STU_DOM树模型,利用HTML与DOM树的映射关系,将HTML转换为STU—DoM树,对其进行基于结构的过滤和基于语义的剪枝,最后生成只含有主题内容的HTML文档.

这种方法能够迅速自动地从网页中提取出主题信息,不依赖于网页结构,对于异构信息源具有很高的通用性,而且不改变源网页的结构和内容,可靠性和可扩展性高.因此,该方法具有可观的应用价值,它既适合移动用户的即时访问需求,又可应用于信息检索领域的自动文摘和自动分类系统.这一方法已经在iNeedle系统中实现.iNeedle系统是基于COMMIX[2](content—orientedmassiveinformation

integrationbaSedonxML,国家“九七三”重点基础研究发展规划项目中“面向内容的海量信息集成、分

析处理与服务”课题组开发的原型系统)开发的互联网信息检索系统,已经实际应用于食品药品信息检索.通过在信息预处理阶段对HTML文档进行主题内容提取,显著提高了检索效率和查准率.

2相关研究

在web信息提取领域,已经有大量的研究工作,包括HTML结构分析方法(如)(、Ⅳ鼬心13J和Lixtol4』)、基于自然语言处理的方法(如SRVl5J和wHISK[6])、机器学习[7]和Ontology恻等.但是这些方法都不能完全自动地提取信息,通常是面向特定领域、特定网站或者针对特定格式.由于用户访问Intemet有很强的随机性,对响应时间有较高要求,当访问新领域或网页结构时,这些系统不能有效工作.目前能够较好地解决这一问题的是面向内容的信息提取方法,它们的目标不是提取细粒度的数据而是提取主题内容或兴趣区域,本文将介绍这一领域的研究工作,并提出一种改进模型和提取方法.Finn等人【9j将HTML文档看做字符和标签组成的序列,在字符集中的区域提取文字.这种方法仅适合主题文字集中的网页,如果段落间有表格或链接等标签丰富的结构,就不能有效处理.如图1的网页中,主题文字分布于6个区域(④~⑨),假设文档中有N个标签,该算法的时间复杂度uoJ为o(N6),时间代价很高.

图1删.网页实例1qj

KaaSinen等人[11]提出Desk一陆d模型,将网页(Desk)分为若干Card,每次显示一个Card,减少了页面大小,但是没有提取出信息,用户需要阅读多个Card才能确定主题.

Buyukkokten等人[1,12J提出了STU(semanticteXtualunit)模型,STu对应网页中的块(block),将网页分割为平行的STU(如图1①~③,⑩).Desk—Card模型和STU模型都采用了分块思想,后者减少了定位时间,但是它们都改变了源网页的结构和内容,而且溲有提取出主题信息,保留了无关的文字和链接.

Gupta等人[10]的方法是从网页中删除无关部分,维持了源网页的结构和内容,但在删除链接时较

①来自IBM

deveIoper、ⅣbrkS:http://I硼M一900.ibm.com/deveIope押‰ks/cn/Ⅵ划d/doⅥdoad^nd懿.shnIll

10期王琦等:基于DOM的网页主题信息自动提取1791

图6HrML网页实例2③

5结论

图7提取结果实例2

本文方法优于同领域的许多相关方法:

(1)优于Finn的方法,能够从内容分散和结构繁杂的网页中准确地提取出主题信息.

(2)优于Gupta的方法,无损地保留了正文中与主题相关的链接列表.

(3)优于DeSk—Card和STu模型,真正提取出主题信息,并且不改变源网页的结构和内容,可靠性和可扩展性高.

本文提出的web信息提取方法有许多显著优

③来自网易财经频道:http://Stock.163.o。m点,在维持网页结构和内容的情况下,能够准确地提取出HTML文档的主题内容,不依赖于源网页的结构,是自动、可靠和通用的方法.此外,由于本方法基于DOM规范,提取后的网页内容和结构与源网页一致,有很高的可扩展性.例如,基于提取改进分类方法,利用关键词出现的位置加权计算类别关联度,对提取后的网页进行分类,可改善分类效果.因此,该方法具有可观的应用价值,它不仅满足PAD和手机用户的即时访问需求,又可应用于信息检索领域的自动文摘和自动分类系统.这一方法已经在iNeedle互联网信息检索系统中实现,通过与网页采集程序结合,对HTML文档进行预处理,提取出主题内容,从而显著提高了检索效率和查准率.

参考文献

10Bu)rukkokten,HGaMia—M“m,APaepcke.Ac∞rdionsuInmarizationfor既d—ganlebrowsingonPI),bandceu“ar

phoneS.In:ProcofACMCbnfonH呦皿FactorSinC0mputingS”ternS(CHI2001).NewYork:ACMPress,2001.213~2202WangTer画iao,TangShiwei,YallgD。ngqing,甜口Z.COMIIX:TO眦IdseffectiveWEBinforrIlationextraction,in魄rationandquery删rir培.In:ProcofSIGMOD’02.NewYork:ACM

Press.2002.620

3LiuLing,PuCalton,卜hnWei.)(、ⅣRAP:AnXML-enabI甜唧per∞nstructionsyst锄forWebinfomtionsources.In:

Procofthe16thInt’lGmfonDataEn舀ne鲥ng.Washillgtoll:IEEECC}mputerS0cietyPress,2000.611~621

4RBaumgartner,SF1eSca,GGottlob.ⅥsualWebinfo姗atione)【tractionwithLixto.In:Procofthe27thInt’lC0nfonveryLargeDataBaseS.SaIlFmcis∞:MorgaIlKaufmann,2001.119~128

5DFreitag.MacKnelea嘶IlgforinfonmtioneXtractiminjn五蝴£i。nd∞捌ns.Ma幽neI七amj蹭,2000,39(2-3):169~

202

6SSoderLan.Lea玎】inginfo】1natione)【tractionr出esfors“一structuredandfreetext.MachineI,eamjng,1999,34(1—3):233~272

7RDD踟lbos,0Etzi。11i,DSWeld.Ascalablecomparason—shoppingagentf。rtheWorld—WideWeb.In:ACMAgents’97.NewYork:ACMPress,1997.39~48

8DWEmbley,甜“.C0nceptual一rnodd—baseddata既tractionfrommultipl争re。ordWebpages.Dataa11dKnowle电eEngineeriTlg,1999,31(3):227~251

9AFinn,AKushmerick,Bsmyth.Factorfiction:Omtentclas两ficationford波itallibraries.The2rldDELoSNetworkofEXcellenceWorkshoDonP㈣al曲tionaIldR

ecl舢∞der

1792计算机研究与发展2004年

1lSyst鲫[1sinDigitalLibraries,Dublin,Ireland,2001

SGupta,GKaiser,DNeistadt,甜口Z.DOM-based00nt饥t

e)【tractionof删.doc眦鼬ts.In:Pr。cofthe12thInt’1

World—WideWebCC)nf.NewY0rk:ACMPreSs,2003.207~

214

EKaasin饥,MAalton肌,JK0lari,甜“.Two印proachest0

“119i119Intemetsenicesto聊d刚ces.In:Procofthe9th

Int’1WorldWideWebConf

on陆nputerNetworks.山nsterd锄:

Nonh-HollandPublishil】gC0,2000.231~246

OBu¨l【l【0kten,HGarcia-M01im,APaepcke.Seeingthewh01e

inparts:1htsurnmarizationforWebbrowS啦onhandheld

devices.In:Procofthe10thInt’lCCInfonW0rldWideWeb.

NewYork:ACMPress,2001.652~662

C)惦NekoHn缸.Parser.http://、Ⅳ、^nv.apache.oIg/~and”/

nek0/doc/hnTd^nde)【.ht“,2004—06—10

王琦女,1980年生,硕士研究生,

主要研究方向为数据库与信息系统.

唐世渭男,1939年生,教授,博士生

导师,主要研究方向为数据库与信息系统.

杨冬青女,1945年生,教授,博士生

导师,主要研究方向为数据库与信息系统.

王腾蛟男,1973年生,博士,主要研

究方向为数据库与信息系统.

基于DOM的网页主题信息自动提取

作者:王琦, 唐世渭, 杨冬青, 王腾蛟

作者单位:王琦(北京大学视觉与听觉信息处理国家重点实验室,北京,100871), 唐世渭(北京大学视觉与听觉信息处理国家重点实验室,北京,100871;北京大学计算机科学与技术系,北京,100871)

, 杨冬青,王腾蛟(北京大学计算机科学与技术系,北京,100871)

刊名:

计算机研究与发展

英文刊名:JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT

年,卷(期):2004,41(10)

被引用次数:41次

参考文献(13条)

1.A Finn;A Kushmerick;B Smyth Fact or fiction: Content classification for digital libraries 2001

2.D W Embley Conceptual-model-based data extraction from multiple-record Web pages[外文期刊]

1999(03)

3.R D Doorenbos;O Etzioni;D S Weld A scalable comparasonshopping agent for the World-Wide Web 1997

4.S SoderLan Learning information extraction rules for semistructured and free text 1999(1-3)

5.D Freitag Machine learning for information extraction in information domains[外文期刊] 2000(2-3)

6.R Baumgartner;S Flesca;G Gottlob Visual Web information extraction with Lixto[外文会议] 2001

7.Liu Ling;Pu Calton;Han Wei XWRAP: An XML-enabled wrapper construction system for Web information sources[外文会议] 2000

8.CyberNekoHTML Parser 2004

9.O Buyukkokten;H Garcia-Molina;A Paepcke Seeing the whole in parts: Text summarization for Web browsing on handheld devices[外文会议] 2001

10.E Kaasinen;M Aaltonen;J Kolari Two approaches to bringing Intemet services to WAP devices 2000

11.S Gupta;G Kaiser;D Neistadt DOM-based content extraction of HTML documents 2003

12.Wang Tengjiao;Tang Shiwei;Yang Dongqing COMIIX:Towards effective WEB information

extraction,integration and query answering 2002

13.O Buyukkokten;H Garcia-Molina;A Paepcke Accordion summarization for end-game browsing on PDAs and cellular phones[外文会议] 2001

引证文献(41条)

1.胡金柱.周星.舒江波.熊春秀基于启发式规则的网页主题信息精确定位方法[期刊论文]-计算机应用研究

2010(2)

2.周二虎.张水平.胡洋基于Deep Web检索的查询结果处理技术的应用[期刊论文]-计算机工程与设计 2010(1)

3.张惠君.李娟基于OPAC的馆藏评价方法探究[期刊论文]-图书与情报 2010(4)

4.彭涛.孟宇.左万利.王英.胡亮主题爬行中的隧道穿越技术[期刊论文]-计算机研究与发展 2010(4)

5.王利.刘宗田.王燕华.廖涛基于内容相似度的网页正文提取[期刊论文]-计算机工程 2010(6)

6.付涛基于DOM和显示属性的网页信息除噪技术研究[期刊论文]-商丘师范学院学报 2010(9)

7.王立建.尹四清基于Web页面有效信息抽取的分类方法[期刊论文]-电脑开发与应用 2010(6)

8.胡凌云.胡桂兰.徐勇.李龙澍基于Web的新闻文本分类技术的研究[期刊论文]-安徽大学学报(自然科学版)2010(6)

9.张韦基于语义的Web主题提取的研究[期刊论文]-中国电子商务 2010(10)

10.杜广飞.张志鸿.毋晓英基于规则的网页处理方法在移动办公的应用[期刊论文]-计算机工程与设计 2010(24)

11.汲业.陈燕.杨健.慕蓉生活服务领域垂直搜索引擎的设计与实现[期刊论文]-计算机工程 2010(24)

12.李烯.徐朝军基于分块和统计相结合的新闻正文抽取[期刊论文]-情报理论与实践 2010(1)

13.黄振晗基于文档特征的Web主题文本提取[期刊论文]-现代计算机(专业版) 2009(8)

14.顾韵华.李佩.谢刚一种基于文本样式的Web主题信息提取方法研究[期刊论文]-计算机与数字工程 2009(11)

15.顾韵华.田伟基于DOM模型扩展的Web信息提取[期刊论文]-计算机科学 2009(11)

16.基于规则模型的网页主题文本提取方法[期刊论文]-计算机工程与设计 2009(20)

17.孟军.刘秋水.王秀坤节点频度和语义距离相结合的网页正文信息抽取[期刊论文]-计算机工程与应用 2009(1)

18.邱江涛.唐常杰.李川.朱军基于块分布的新闻网页内容提取[期刊论文]-吉林大学学报(工学版) 2009(5)

19.吕聚旺.都云程.王弘蔚.施水才基于新型主题信息量化方法的Web主题信息提取研究术[期刊论文]-现代图书情报技术 2008(12)

20.孙晓辉.刘建.王劲林.陈晓基于CSS的网页分割算法[期刊论文]-微计算机应用 2008(9)

21.珠杰.欧珠.格桑多吉基于DOM修剪的藏文Web信息提取[期刊论文]-计算机工程 2008(24)

22.陈蕾蕾.张如静面向Web的新闻网页正文信息抽取策略研究[期刊论文]-电脑知识与技术 2008(z2)

23.张琼.封化民.何文才一种基于反馈学习机制的支持向量机网页分类方法[期刊论文]-北京电子科技学院学报2008(2)

24.彭浩.王雅琳一个面向实时网页分类的主题特征提取算法[期刊论文]-计算机与现代化 2008(7)

25.陈天.黄敏Web信息抽取中的数据交叉定位[期刊论文]-华南理工大学学报(自然科学版) 2008(5)

26.汪建伟.杨冬青.高军.王腾蛟一种基于分类算法的网页信息提取方法[期刊论文]-计算机科学 2008(3)

27.张恒.屈景辉.张亮网页文本信息提取及结果评价[期刊论文]-微计算机应用 2007(9)

28.高琰.谷士文.谭立球基于多种策略的页面内容提取算法[期刊论文]-西南交通大学学报 2007(4)

29.李蕾.王劲林.白鹤.胡晶晶基于FFT的网页正文提取算法研究与实现[期刊论文]-计算机工程与应用 2007(30)

30.赵欣欣.索红光.刘玉树基于标记窗的网页正文信息提取方法[期刊论文]-计算机应用研究 2007(3)

31.谢华.刘卫国基于局部语义的网页净化算法[期刊论文]-计算机系统应用 2007(5)

32.贺智平.徐学洲.李爱玲一种基于信息熵的Web页面主题信息抽取方法[期刊论文]-计算机工程与应用 2007(4)

33.章勤.余洋.陶文兵图像搜索中基于网页分块的图像分类研究[期刊论文]-计算机工程与科学 2007(6)

34.吴鹏飞.孟祥增.刘俊晓.马凤娟网页区域分割与识别技术[期刊论文]-现代计算机(专业版) 2006(6)

35.吴鹏飞.孟祥增.刘俊晓.马凤娟基于结构与内容的网页主题信息提取研究[期刊论文]-山东大学学报(理学版) 2006(3)

36.张聚弘.山岚基于页面对比分析的数据提取[期刊论文]-计算机与数字工程 2006(1)

37.张晓卫Web全文信息检索系统的研究与实现[学位论文]硕士 2006

38.贺智平Web信息自动抽取技术研究[学位论文]硕士 2006

39.赵彦斌.李庆华.赵峰Web网页语义树的构造与利用[期刊论文]-华中科技大学学报(自然科学版) 2005(z1)

40.卢睿基于XML的Web信息抽取研究[学位论文]硕士 2005

41.张聚弘基于搜索引擎和XML的化工物性数据搜集与发布系统的开发[学位论文]硕士 2005

本文链接:https://www.doczj.com/doc/cf5796606.html,/Periodical_jsjyjyfz200410026.aspx

相关主题
文本预览
相关文档 最新文档