当前位置：文档之家› 基于DOM的网页主题信息自动提取

基于DOM的网页主题信息自动提取

１０期王琦等：基于酬的网页主题信息自动提取１７８７

题对于使用低端设备，尤其是使用ＰＤＡ和手机的用户来说最为突出，它们需要花费很长时间来操作滚动条，跳过大量无关的图片和文字，这是很难令人接受的．经研究ｕＪ表明，通过提取主题信息可以减少一半浏览时间，提高用户获取信息的速度，从而增强Ｗｅｂ的可用性．ｗｅｂ信息提取已经成为当前信息领域的研究热点之一．

ｗｅｂ信息通常存在于半结构化的ＨＴＭＬ文档中，为信息提取带来很大困难．尽管在ｗｅｂ信息提取领域已经有大量的研究工作，但是很少有自动和通用的方法．本文提出了一种新的Ｗｅｂ信息提取方法，基于ＤＯＭ规范，针对ＨＴＭＬ缺乏语义描述的不足，提出ＳＴＵ树模型，并将ＳＴＵ树模型与ＤＯＭ树模型相结合，提出具有语义信息的ＳＴＵ＿ＤＯＭ树模型，利用ＨＴＭＬ与ＤＯＭ树的映射关系，将ＨＴＭＬ转换为ＳＴＵ—ＤｏＭ树，对其进行基于结构的过滤和基于语义的剪枝，最后生成只含有主题内容的ＨＴＭＬ文档．

这种方法能够迅速自动地从网页中提取出主题信息，不依赖于网页结构，对于异构信息源具有很高的通用性，而且不改变源网页的结构和内容，可靠性和可扩展性高．因此，该方法具有可观的应用价值，它既适合移动用户的即时访问需求，又可应用于信息检索领域的自动文摘和自动分类系统．这一方法已经在ｉＮｅｅｄｌｅ系统中实现．ｉＮｅｅｄｌｅ系统是基于ＣＯＭＭＩＸ［２］（ｃｏｎｔｅｎｔ—ｏｒｉｅｎｔｅｄｍａｓｓｉｖｅｉｎｆｏｒｍａｔｉｏｎ

ｉｎｔｅｇｒａｔｉｏｎｂａＳｅｄｏｎｘＭＬ，国家“九七三”重点基础研究发展规划项目中“面向内容的海量信息集成、分

析处理与服务”课题组开发的原型系统）开发的互联网信息检索系统，已经实际应用于食品药品信息检索．通过在信息预处理阶段对ＨＴＭＬ文档进行主题内容提取，显著提高了检索效率和查准率．

２相关研究

在ｗｅｂ信息提取领域，已经有大量的研究工作，包括ＨＴＭＬ结构分析方法（如）（、Ⅳ鼬心１３Ｊ和Ｌｉｘｔｏｌ４』）、基于自然语言处理的方法（如ＳＲＶｌ５Ｊ和ｗＨＩＳＫ［６］）、机器学习［７］和Ｏｎｔｏｌｏｇｙ恻等．但是这些方法都不能完全自动地提取信息，通常是面向特定领域、特定网站或者针对特定格式．由于用户访问Ｉｎｔｅｍｅｔ有很强的随机性，对响应时间有较高要求，当访问新领域或网页结构时，这些系统不能有效工作．目前能够较好地解决这一问题的是面向内容的信息提取方法，它们的目标不是提取细粒度的数据而是提取主题内容或兴趣区域，本文将介绍这一领域的研究工作，并提出一种改进模型和提取方法．Ｆｉｎｎ等人【９ｊ将ＨＴＭＬ文档看做字符和标签组成的序列，在字符集中的区域提取文字．这种方法仅适合主题文字集中的网页，如果段落间有表格或链接等标签丰富的结构，就不能有效处理．如图１的网页中，主题文字分布于６个区域（④～⑨），假设文档中有Ｎ个标签，该算法的时间复杂度ｕｏＪ为ｏ（Ｎ６），时间代价很高．

图１删．网页实例１ｑｊ

ＫａａＳｉｎｅｎ等人［１１］提出Ｄｅｓｋ一陆ｄ模型，将网页（Ｄｅｓｋ）分为若干Ｃａｒｄ，每次显示一个Ｃａｒｄ，减少了页面大小，但是没有提取出信息，用户需要阅读多个Ｃａｒｄ才能确定主题．

Ｂｕｙｕｋｋｏｋｔｅｎ等人［１，１２Ｊ提出了ＳＴＵ（ｓｅｍａｎｔｉｃｔｅＸｔｕａｌｕｎｉｔ）模型，ＳＴｕ对应网页中的块（ｂｌｏｃｋ），将网页分割为平行的ＳＴＵ（如图１①～③，⑩）．Ｄｅｓｋ—Ｃａｒｄ模型和ＳＴＵ模型都采用了分块思想，后者减少了定位时间，但是它们都改变了源网页的结构和内容，而且溲有提取出主题信息，保留了无关的文字和链接．

Ｇｕｐｔａ等人［１０］的方法是从网页中删除无关部分，维持了源网页的结构和内容，但在删除链接时较

①来自ＩＢＭ

ｄｅｖｅＩｏｐｅｒ、ⅣｂｒｋＳ：ｈｔｔｐ：／／Ｉ硼Ｍ一９００．ｉｂｍ．ｃｏｍ／ｄｅｖｅＩｏｐｅ押‰ｋｓ／ｃｎ／Ⅵ划ｄ／ｄｏⅥｄｏａｄ＾ｎｄ懿．ｓｈｎＩｌｌ

１０期王琦等：基于ＤＯＭ的网页主题信息自动提取１７９１

图６ＨｒＭＬ网页实例２③

５结论

图７提取结果实例２

本文方法优于同领域的许多相关方法：

（１）优于Ｆｉｎｎ的方法，能够从内容分散和结构繁杂的网页中准确地提取出主题信息．

（２）优于Ｇｕｐｔａ的方法，无损地保留了正文中与主题相关的链接列表．

（３）优于ＤｅＳｋ—Ｃａｒｄ和ＳＴｕ模型，真正提取出主题信息，并且不改变源网页的结构和内容，可靠性和可扩展性高．

本文提出的ｗｅｂ信息提取方法有许多显著优

③来自网易财经频道：ｈｔｔｐ：／／Ｓｔｏｃｋ．１６３．ｏ。ｍ点，在维持网页结构和内容的情况下，能够准确地提取出ＨＴＭＬ文档的主题内容，不依赖于源网页的结构，是自动、可靠和通用的方法．此外，由于本方法基于ＤＯＭ规范，提取后的网页内容和结构与源网页一致，有很高的可扩展性．例如，基于提取改进分类方法，利用关键词出现的位置加权计算类别关联度，对提取后的网页进行分类，可改善分类效果．因此，该方法具有可观的应用价值，它不仅满足ＰＡＤ和手机用户的即时访问需求，又可应用于信息检索领域的自动文摘和自动分类系统．这一方法已经在ｉＮｅｅｄｌｅ互联网信息检索系统中实现，通过与网页采集程序结合，对ＨＴＭＬ文档进行预处理，提取出主题内容，从而显著提高了检索效率和查准率．

参考文献

１０Ｂｕ）ｒｕｋｋｏｋｔｅｎ，ＨＧａＭｉａ—Ｍ“ｍ，ＡＰａｅｐｃｋｅ．Ａｃ∞ｒｄｉｏｎｓｕＩｎｍａｒｉｚａｔｉｏｎｆｏｒ既ｄ—ｇａｎｌｅｂｒｏｗｓｉｎｇｏｎＰＩ），ｂａｎｄｃｅｕ“ａｒ

ｐｈｏｎｅＳ．Ｉｎ：ＰｒｏｃｏｆＡＣＭＣｂｎｆｏｎＨ呦皿ＦａｃｔｏｒＳｉｎＣ０ｍｐｕｔｉｎｇＳ”ｔｅｒｎＳ（ＣＨＩ２００１）．ＮｅｗＹｏｒｋ：ＡＣＭＰｒｅｓｓ，２００１．２１３～２２０２ＷａｎｇＴｅｒ画ｉａｏ，ＴａｎｇＳｈｉｗｅｉ，ＹａｌｌｇＤ。ｎｇｑｉｎｇ，甜口Ｚ．ＣＯＭＩＩＸ：ＴＯ眦ＩｄｓｅｆｆｅｃｔｉｖｅＷＥＢｉｎｆｏｒｒＩｌａｔｉｏｎｅｘｔｒａｃｔｉｏｎ，ｉｎ魄ｒａｔｉｏｎａｎｄｑｕｅｒｙ删ｒｉｒ培．Ｉｎ：ＰｒｏｃｏｆＳＩＧＭＯＤ’０２．ＮｅｗＹｏｒｋ：ＡＣＭ

Ｐｒｅｓｓ．２００２．６２０

３ＬｉｕＬｉｎｇ，ＰｕＣａｌｔｏｎ，卜ｈｎＷｅｉ．）（、ⅣＲＡＰ：ＡｎＸＭＬ－ｅｎａｂＩ甜唧ｐｅｒ∞ｎｓｔｒｕｃｔｉｏｎｓｙｓｔ锄ｆｏｒＷｅｂｉｎｆｏｍｔｉｏｎｓｏｕｒｃｅｓ．Ｉｎ：

Ｐｒｏｃｏｆｔｈｅ１６ｔｈＩｎｔ’ｌＧｍｆｏｎＤａｔａＥｎ舀ｎｅ鲥ｎｇ．Ｗａｓｈｉｌｌｇｔｏｌｌ：ＩＥＥＥＣＣ｝ｍｐｕｔｅｒＳ０ｃｉｅｔｙＰｒｅｓｓ，２０００．６１１～６２１

４ＲＢａｕｍｇａｒｔｎｅｒ，ＳＦ１ｅＳｃａ，ＧＧｏｔｔｌｏｂ．ⅥｓｕａｌＷｅｂｉｎｆｏ姗ａｔｉｏｎｅ）【ｔｒａｃｔｉｏｎｗｉｔｈＬｉｘｔｏ．Ｉｎ：Ｐｒｏｃｏｆｔｈｅ２７ｔｈＩｎｔ’ｌＣ０ｎｆｏｎｖｅｒｙＬａｒｇｅＤａｔａＢａｓｅＳ．ＳａＩｌＦｍｃｉｓ∞：ＭｏｒｇａＩｌＫａｕｆｍａｎｎ，２００１．１１９～１２８

５ＤＦｒｅｉｔａｇ．ＭａｃＫｎｅｌｅａ嘶ＩｌｇｆｏｒｉｎｆｏｎｍｔｉｏｎｅＸｔｒａｃｔｉｍｉｎｊｎ五蝴￡ｉ。ｎｄ∞捌ｎｓ．Ｍａ幽ｎｅＩ七ａｍｊ蹭，２０００，３９（２－３）：１６９～

２０２

６ＳＳｏｄｅｒＬａｎ．Ｌｅａ玎】ｉｎｇｉｎｆｏ】１ｎａｔｉｏｎｅ）【ｔｒａｃｔｉｏｎｒ出ｅｓｆｏｒｓ“一ｓｔｒｕｃｔｕｒｅｄａｎｄｆｒｅｅｔｅｘｔ．ＭａｃｈｉｎｅＩ，ｅａｍｊｎｇ，１９９９，３４（１—３）：２３３～２７２

７ＲＤＤ踟ｌｂｏｓ，０Ｅｔｚｉ。１１ｉ，ＤＳＷｅｌｄ．Ａｓｃａｌａｂｌｅｃｏｍｐａｒａｓｏｎ—ｓｈｏｐｐｉｎｇａｇｅｎｔｆ。ｒｔｈｅＷｏｒｌｄ—ＷｉｄｅＷｅｂ．Ｉｎ：ＡＣＭＡｇｅｎｔｓ’９７．ＮｅｗＹｏｒｋ：ＡＣＭＰｒｅｓｓ，１９９７．３９～４８

８ＤＷＥｍｂｌｅｙ，甜“．Ｃ０ｎｃｅｐｔｕａｌ一ｒｎｏｄｄ—ｂａｓｅｄｄａｔａ既ｔｒａｃｔｉｏｎｆｒｏｍｍｕｌｔｉｐｌ争ｒｅ。ｏｒｄＷｅｂｐａｇｅｓ．Ｄａｔａａ１１ｄＫｎｏｗｌｅ电ｅＥｎｇｉｎｅｅｒｉＴｌｇ，１９９９，３１（３）：２２７～２５１

９ＡＦｉｎｎ，ＡＫｕｓｈｍｅｒｉｃｋ，Ｂｓｍｙｔｈ．Ｆａｃｔｏｒｆｉｃｔｉｏｎ：Ｏｍｔｅｎｔｃｌａｓ两ｆｉｃａｔｉｏｎｆｏｒｄ波ｉｔａｌｌｉｂｒａｒｉｅｓ．Ｔｈｅ２ｒｌｄＤＥＬｏＳＮｅｔｗｏｒｋｏｆＥＸｃｅｌｌｅｎｃｅＷｏｒｋｓｈｏＤｏｎＰ㈣ａｌ曲ｔｉｏｎａＩｌｄＲ

ｅｃｌ舢∞ｄｅｒ

１７９２计算机研究与发展２００４年

１ｌＳｙｓｔ鲫［１ｓｉｎＤｉｇｉｔａｌＬｉｂｒａｒｉｅｓ，Ｄｕｂｌｉｎ，Ｉｒｅｌａｎｄ，２００１

ＳＧｕｐｔａ，ＧＫａｉｓｅｒ，ＤＮｅｉｓｔａｄｔ，甜口Ｚ．ＤＯＭ－ｂａｓｅｄ００ｎｔ饥ｔ

ｅ）【ｔｒａｃｔｉｏｎｏｆ删．ｄｏｃ眦鼬ｔｓ．Ｉｎ：Ｐｒ。ｃｏｆｔｈｅ１２ｔｈＩｎｔ’１

Ｗｏｒｌｄ—ＷｉｄｅＷｅｂＣＣ）ｎｆ．ＮｅｗＹ０ｒｋ：ＡＣＭＰｒｅＳｓ，２００３．２０７～

２１４

ＥＫａａｓｉｎ饥，ＭＡａｌｔｏｎ肌，ＪＫ０ｌａｒｉ，甜“．Ｔｗｏ印ｐｒｏａｃｈｅｓｔ０

“１１９ｉ１１９Ｉｎｔｅｍｅｔｓｅｎｉｃｅｓｔｏ聊ｄ刚ｃｅｓ．Ｉｎ：Ｐｒｏｃｏｆｔｈｅ９ｔｈ

Ｉｎｔ’１ＷｏｒｌｄＷｉｄｅＷｅｂＣｏｎｆ

ｏｎ陆ｎｐｕｔｅｒＮｅｔｗｏｒｋｓ．山ｎｓｔｅｒｄ锄：

Ｎｏｎｈ－ＨｏｌｌａｎｄＰｕｂｌｉｓｈｉｌ】ｇＣ０，２０００．２３１～２４６

ＯＢｕ¨ｌ【ｌ【０ｋｔｅｎ，ＨＧａｒｃｉａ－Ｍ０１ｉｍ，ＡＰａｅｐｃｋｅ．Ｓｅｅｉｎｇｔｈｅｗｈ０１ｅ

ｉｎｐａｒｔｓ：１ｈｔｓｕｒｎｍａｒｉｚａｔｉｏｎｆｏｒＷｅｂｂｒｏｗＳ啦ｏｎｈａｎｄｈｅｌｄ

ｄｅｖｉｃｅｓ．Ｉｎ：Ｐｒｏｃｏｆｔｈｅ１０ｔｈＩｎｔ’ｌＣＣＩｎｆｏｎＷ０ｒｌｄＷｉｄｅＷｅｂ．

ＮｅｗＹｏｒｋ：ＡＣＭＰｒｅｓｓ，２００１．６５２～６６２

Ｃ）惦ＮｅｋｏＨｎ缸．Ｐａｒｓｅｒ．ｈｔｔｐ：／／、Ⅳ、＾ｎｖ．ａｐａｃｈｅ．ｏＩｇ／～ａｎｄ”／

ｎｅｋ０／ｄｏｃ／ｈｎＴｄ＾ｎｄｅ）【．ｈｔ“，２００４—０６—１０

王琦女，１９８０年生，硕士研究生，

主要研究方向为数据库与信息系统．

唐世渭男，１９３９年生，教授，博士生

导师，主要研究方向为数据库与信息系统．

杨冬青女，１９４５年生，教授，博士生

导师，主要研究方向为数据库与信息系统．

王腾蛟男，１９７３年生，博士，主要研

究方向为数据库与信息系统．

基于DOM的网页主题信息自动提取

作者：王琦，唐世渭，杨冬青，王腾蛟

作者单位：王琦(北京大学视觉与听觉信息处理国家重点实验室,北京,100871)，唐世渭(北京大学视觉与听觉信息处理国家重点实验室,北京,100871;北京大学计算机科学与技术系,北京,100871)

，杨冬青,王腾蛟(北京大学计算机科学与技术系,北京,100871)

刊名：

计算机研究与发展

英文刊名：JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT

年，卷(期)：2004,41(10)

被引用次数：41次

参考文献(13条)

1.A Finn;A Kushmerick;B Smyth Fact or fiction: Content classification for digital libraries 2001

2.D W Embley Conceptual-model-based data extraction from multiple-record Web pages[外文期刊]

1999(03)

3.R D Doorenbos;O Etzioni;D S Weld A scalable comparasonshopping agent for the World-Wide Web 1997

4.S SoderLan Learning information extraction rules for semistructured and free text 1999(1-3)

5.D Freitag Machine learning for information extraction in information domains[外文期刊] 2000(2-3)

6.R Baumgartner;S Flesca;G Gottlob Visual Web information extraction with Lixto[外文会议] 2001

7.Liu Ling;Pu Calton;Han Wei XWRAP: An XML-enabled wrapper construction system for Web information sources[外文会议] 2000

8.CyberNekoHTML Parser 2004

9.O Buyukkokten;H Garcia-Molina;A Paepcke Seeing the whole in parts: Text summarization for Web browsing on handheld devices[外文会议] 2001

10.E Kaasinen;M Aaltonen;J Kolari Two approaches to bringing Intemet services to WAP devices 2000

11.S Gupta;G Kaiser;D Neistadt DOM-based content extraction of HTML documents 2003

12.Wang Tengjiao;Tang Shiwei;Yang Dongqing COMIIX:Towards effective WEB information

extraction,integration and query answering 2002

13.O Buyukkokten;H Garcia-Molina;A Paepcke Accordion summarization for end-game browsing on PDAs and cellular phones[外文会议] 2001

引证文献(41条)

1.胡金柱.周星.舒江波.熊春秀基于启发式规则的网页主题信息精确定位方法[期刊论文]-计算机应用研究

2010(2)

2.周二虎.张水平.胡洋基于Deep Web检索的查询结果处理技术的应用[期刊论文]-计算机工程与设计 2010(1)

3.张惠君.李娟基于OPAC的馆藏评价方法探究[期刊论文]-图书与情报 2010(4)

4.彭涛.孟宇.左万利.王英.胡亮主题爬行中的隧道穿越技术[期刊论文]-计算机研究与发展 2010(4)

5.王利.刘宗田.王燕华.廖涛基于内容相似度的网页正文提取[期刊论文]-计算机工程 2010(6)

6.付涛基于DOM和显示属性的网页信息除噪技术研究[期刊论文]-商丘师范学院学报 2010(9)

7.王立建.尹四清基于Web页面有效信息抽取的分类方法[期刊论文]-电脑开发与应用 2010(6)

8.胡凌云.胡桂兰.徐勇.李龙澍基于Web的新闻文本分类技术的研究[期刊论文]-安徽大学学报（自然科学版）2010(6)

9.张韦基于语义的Web主题提取的研究[期刊论文]-中国电子商务 2010(10)

10.杜广飞.张志鸿.毋晓英基于规则的网页处理方法在移动办公的应用[期刊论文]-计算机工程与设计 2010(24)

11.汲业.陈燕.杨健.慕蓉生活服务领域垂直搜索引擎的设计与实现[期刊论文]-计算机工程 2010(24)

12.李烯.徐朝军基于分块和统计相结合的新闻正文抽取[期刊论文]-情报理论与实践 2010(1)

13.黄振晗基于文档特征的Web主题文本提取[期刊论文]-现代计算机（专业版） 2009(8)

14.顾韵华.李佩.谢刚一种基于文本样式的Web主题信息提取方法研究[期刊论文]-计算机与数字工程 2009(11)

15.顾韵华.田伟基于DOM模型扩展的Web信息提取[期刊论文]-计算机科学 2009(11)

16.基于规则模型的网页主题文本提取方法[期刊论文]-计算机工程与设计 2009(20)

17.孟军.刘秋水.王秀坤节点频度和语义距离相结合的网页正文信息抽取[期刊论文]-计算机工程与应用 2009(1)

18.邱江涛.唐常杰.李川.朱军基于块分布的新闻网页内容提取[期刊论文]-吉林大学学报（工学版） 2009(5)

19.吕聚旺.都云程.王弘蔚.施水才基于新型主题信息量化方法的Web主题信息提取研究术[期刊论文]-现代图书情报技术 2008(12)

20.孙晓辉.刘建.王劲林.陈晓基于CSS的网页分割算法[期刊论文]-微计算机应用 2008(9)

21.珠杰.欧珠.格桑多吉基于DOM修剪的藏文Web信息提取[期刊论文]-计算机工程 2008(24)

22.陈蕾蕾.张如静面向Web的新闻网页正文信息抽取策略研究[期刊论文]-电脑知识与技术 2008(z2)

23.张琼.封化民.何文才一种基于反馈学习机制的支持向量机网页分类方法[期刊论文]-北京电子科技学院学报2008(2)

24.彭浩.王雅琳一个面向实时网页分类的主题特征提取算法[期刊论文]-计算机与现代化 2008(7)

25.陈天.黄敏Web信息抽取中的数据交叉定位[期刊论文]-华南理工大学学报（自然科学版） 2008(5)

26.汪建伟.杨冬青.高军.王腾蛟一种基于分类算法的网页信息提取方法[期刊论文]-计算机科学 2008(3)

27.张恒.屈景辉.张亮网页文本信息提取及结果评价[期刊论文]-微计算机应用 2007(9)

28.高琰.谷士文.谭立球基于多种策略的页面内容提取算法[期刊论文]-西南交通大学学报 2007(4)

29.李蕾.王劲林.白鹤.胡晶晶基于FFT的网页正文提取算法研究与实现[期刊论文]-计算机工程与应用 2007(30)

30.赵欣欣.索红光.刘玉树基于标记窗的网页正文信息提取方法[期刊论文]-计算机应用研究 2007(3)

31.谢华.刘卫国基于局部语义的网页净化算法[期刊论文]-计算机系统应用 2007(5)

32.贺智平.徐学洲.李爱玲一种基于信息熵的Web页面主题信息抽取方法[期刊论文]-计算机工程与应用 2007(4)

33.章勤.余洋.陶文兵图像搜索中基于网页分块的图像分类研究[期刊论文]-计算机工程与科学 2007(6)

34.吴鹏飞.孟祥增.刘俊晓.马凤娟网页区域分割与识别技术[期刊论文]-现代计算机（专业版） 2006(6)

35.吴鹏飞.孟祥增.刘俊晓.马凤娟基于结构与内容的网页主题信息提取研究[期刊论文]-山东大学学报（理学版） 2006(3)

36.张聚弘.山岚基于页面对比分析的数据提取[期刊论文]-计算机与数字工程 2006(1)

37.张晓卫Web全文信息检索系统的研究与实现[学位论文]硕士 2006

38.贺智平Web信息自动抽取技术研究[学位论文]硕士 2006

39.赵彦斌.李庆华.赵峰Web网页语义树的构造与利用[期刊论文]-华中科技大学学报（自然科学版） 2005(z1)

40.卢睿基于XML的Web信息抽取研究[学位论文]硕士 2005

41.张聚弘基于搜索引擎和XML的化工物性数据搜集与发布系统的开发[学位论文]硕士 2005

本文链接：https://www.doczj.com/doc/cf5796606.html,/Periodical_jsjyjyfz200410026.aspx