当前位置:文档之家› (整理)搜索引擎基本工作原理

(整理)搜索引擎基本工作原理

(整理)搜索引擎基本工作原理
(整理)搜索引擎基本工作原理

搜索引擎基本原理

一.全文搜索引擎

在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

二.目录索引

与全文搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。

尤其象Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧)

此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。

搜索大法——浅谈搜索引擎

一、什么叫搜索引擎?

在Internet上有上百亿可用的公共Web页面,即使是最狂热的冲浪者也不会访问到所有的页面,而只能看到其中的一小部分,更不会在这浩瀚的Web海洋中发现你那即使精彩却渺小的一隅。当然你可以为你的存在做广告,可以用大大的字把你的URL刻在你的身体上,然后裸体穿过白宫草坪,但你得保证媒体正好在那里,并注视到了这一切。与其这样做,不如好好去理解搜索引擎是如何工作的?又怎样选择和使用"keywords"(关键词)等等。

本文的目的就是让众多的页面设计者在了解搜索引擎的基础上,寻求如何使自己的页面在搜索引擎索返回的列表中获得好的排列层次的方法。

"搜索引擎"这个术语一般统指真正意义上的搜索引擎(也就是全文检索搜索引擎)和目录(即目录式分类搜索引擎),其实他们是不一样的,其区别主要在于返回的搜索结果列表是如何编排的。

1、目录

目录(比如Yahoo!)返回的列表是由人工来编排的。

这类引擎提供了一份人工按类别编排的网站目录,各类下边排列着属于这一类别的网站的站名和网址链接,再记录一些摘要信息,对该网站进行概述性介绍(摘要可能是你提交过去的,也可以是引擎站点的编辑为你的站点所做的评价)。人们搜索时就按相应类别的目录查询下去。

这类引擎往往还伴有网站查询功能,也称之为网站检索,即提供一个文字输入框和一个按钮。我们可以在文字框中输入要查找的字、词或短语,再点击按钮,便会在目录中查找相关的站名、网址和内容提要,将查到的内容列表送过来。目前国内Sohoo、常青藤等都是这种搜索方式。

2、搜索引擎

搜索引擎看起来与目录的网站查询非常相似,也提供一个文字输入框和按钮,使用方法也相同,而且有些也提供分类目录,但两者却有本质上的区别。

目录的资料库中,搜集保存的是各网站的站名、网址和内容提要;搜索引擎的资料库中,搜集保存的则是各网站的每一个网页的全部内容,范围要大得多。

搜索引擎是以全文检索的方式工作的。全文检索查到的结果不是站名、网址和内容提要,而是与你输入的关键词相关的一个个网页的地址和一小段文字。在这段文字中,可能没有你输入的那个关键词,它只是某一网页的第一段话,甚至是一段无法看懂的标记,但在这个网页中,一定有你所输入的那个关键词,或者相关的词汇。打个比方说,网站查询可以查到网上有哪些报纸,如《文汇报》、《大公报》,而全文检索则可以查到网上这些报纸的每一篇文章中的词汇。

3、两者相结合的搜索引擎

某些搜索引擎同时也提供目录。包含在搜索引擎中的目录通常质量比较高,也能从那里找到许多好站点。因为即使你把你的站点提交过去,也并不能保证一定被加到目录中去,他们把注意力放在那些已经在别的目录中存在的站点上,并有选择地寻找有吸引力的加到自己的目录中。

搜索引擎和目录各有各自不可替代的功用。目录比较简单,要想获得一个好的排列层次,除了你努力创建一个好内容的高品质站点外别无他法。搜索引擎复杂得多,它们随时都在自动地索引众多WEB站点的最新网页,所以常常会发现目录所不能得到的信息。如果你改动了你的页面,搜索引擎还随时会发现这个变化,并重新排列你在列表中的位置。而目录就做不到。下面专门讨论搜索引擎的工作原理以及如何提高在搜索引擎列表中的排列位置。

二、搜索引擎是如何工作的?

搜索引擎有三个主要的基本部分。

1、搜索引擎蜘蛛

搜索引擎首先利用的是一种俗称蜘蛛(Spider)或爬虫(Crawler)的软件。搜索引擎蜘蛛访问到一个页面,读取它,然后跟随这个页面链接到这个站点的其他页面,这就是人们所说的站点被套住了或者被爬过了。蜘蛛会按照固定的时间不断的回来访问这个站点,如每月或每两个月,以便查看页面的变化。

2、索引

蜘蛛所找到的每一个页面放入搜索引擎的第二部分--索引。索引也可以说是目录册,就像一本巨大的书,书中包含了蜘蛛所找到的每个Web页的拷贝。如果Web页改变了,这本书当然也会更新。但有时蜘蛛发现了新的Web页和Web页的变化,并不是马上加到索引中去,当中间隔一段时间,就是说一个Web页被爬过了,但却不能被索引,直到这个Web页被加到了索引里才可用于搜索引擎的搜索。

3、分析软件

搜索引擎分析软件是一个搜索引擎的第三部分。这个程序详细审查记录在索引中的成百上亿的Web页,找出与搜索要求相匹配的那些,并按他认为最合适的相关性排列出列表,呈现在冲浪者的面前。

三、搜索引擎如何排列Web页面

用你所喜欢的搜索引擎搜索任何东西,搜索引擎几乎立刻就从他知道的几百万的页面中挑选出与你的主题相匹配的那些,呈现在你的荧屏上。这些网页按一定的顺序排列起来,最相关的排在最前面。

但搜索引擎并不是图书管理员,他没有能力一再地询问有关的问题来更好地定位搜索的目标,也不能依靠智力判断和过去的经验来排列网页,而人可以做到。智能化是发展的方向,但还有一段很长的路要走。

那么搜索引擎是怎样决定相关性的呢?他们依靠一套规则,主要的规则是页面中关键词出现的位置和频率,我们把这称做"位置/频率法"。

1、位置

如果你到图书馆去寻找有关旅游方面的书,管理员首先会去查找题目中有"旅游"的书籍。搜索引擎也一样,关键词(即"旅游")出现在题目(Title)中的页面比那些Title中不出现关键词的页面更相关。

搜索引擎还会检查关键词是否出现在页面的顶部,如文章标题中或前面的几个段落。他们认为与搜索主题相关的页面在开始都会提到那些词语。

2、频率

频率是相关性的另外一个主要因素。搜索引擎会分析页面中关键词相对其他词语所出现的频率,频率越高,就越具相关性。

3、搜索引擎在排列网页时有一定的差异

所有的搜索引擎都有以上提到的三个基本部分,在一定程度上都符合“位置/频率法”,但在具体实施上又有区别,这就是为什么我们用不同的搜索引擎做同样的搜索时会产生不同结果的原因。

首先,有些搜索引擎会索引到更多的Web页面,有些又会比其他引擎更新索引的频率快,所以搜索引擎索引中不可能收集完全一样的Web页面。

其次,出于某种原因,有些搜索引擎也可能给某些Web页面在排列层次上有优先权。如Excite用链接的流行度作为排列网页的一个因素,他知道在索引中哪些页面有许多指向他们的链接,他在排列时就给这些页面小小的奖励,将他们适当提前。这也是合理的,因为在Internet上有越多指向他们的链接,就说明这些页面更被大家看重。

另外,一些混合结构(搜索引擎和目录共存)的搜索引擎可能会把那些目录中已存在的站点的网页靠前,理由是一个站点足够好才能放到目录中,就应该有机会比那些不被列在目录中的站点的网页靠前。

最后要强调的是,许多Web页面设计者错误地认为"Meta tags"是将Web页提到列表前列的秘密,实际上有些搜索引擎会把那些"Meta tags"中有keywords 的页面靠前,有些搜索引擎根本就不读"Meta tags"。"Meta tags"是解决问题的一个方面,但并不是什么必需的绝密武器。

四、如何提高Web页面的相关性

搜索引擎的一次搜索会返回成百上千的相关网页,一般情况下首先呈现出来的是10个最相关的页面。任何站点都想被列在前10位,因为大多数的用户都喜欢从前10位中找到他所要的结果,排在第11位以下就意味着许多人不会访问到你的站点。下面就来看看如何能使你的网页排在列表前列。

1、选择合适的关键词(Keywords)

大胆地设想别人在搜索引擎的搜索框内正好输入的是你页面的Title中选择的关键词,那该多好啊!例如,如果你有一个有关邮票收藏的网页,如果你想别人任何时候在搜索框里输入"邮票收藏"时你能排在前10位,那么就为这个页面选择"邮票收藏"这个关键词吧!

网站的每一个页面都应该有反映网页内容的关键词,并且关键词至少由2个以上的字或词组成。通常与单个的字或词相关的网站太多太多,例如"邮票"就比"邮票收藏"所相关的网页多得多,那么竞争就激烈,网页排在前列的概率就相对低一些。所以不要怕花费时间,尽量选择2个以上的字或词组成的短语,成功的可能性会大得多。

最后,假设适当地扩展文章的涉及范围,多选几个关键词又会怎么样呢?例如,一个邮票收藏的网页可能会提到"收藏家"和"收藏",那么扩展开来,用"邮票收藏家"和"邮票收藏"增加关键词的数量也是合理的。可不是没有问题,因为你的网页实际上是关于邮票收藏的精典网页,应该出现在邮票收藏一类网页的前列,但你在关键词上扩展了页面的涉及范围,可能就会无意识地降低页面对于"邮票收藏"的相关性。如何决定更好,看你的想法了!

2、关键词(Keywords)出现的位置

选择好关键词后还要确保关键词出现在至关重要的位置。首先页面的题目(Title)是最重要的地方,忽略将关键词放进页面的题目中是许多本身具备良好相关性的网页被排在底层的原因。

其次像前面提到的,搜索引擎也看中关键词出现在页面前面的网页,所以有可能的话就把关键词作为大标题,并使得关键词出现在网页的第一段。

特别注意的是使用表格会把网页的正文推到网页的更下面,就会造成相关性的降低。例如,画一个有两列的表格,第一列放的是对其他网页的链接,第二列才是含有关键词的正文。浏览看到的网页是这样的:

主页邮票收藏

邮票历史邮票收藏爱好者遍布世界各地。每天都有成

邮票价格千上万的人在对邮票津津乐道,并且每天的邮票

邮票展览交易额达数百万元。点击各个栏目,你就可以得

邮票精品到许多邮票的知识。

而搜索引擎看这个页面是这样的:

主页

邮票历史

邮票价格

邮票精品

邮票收藏邮票收藏爱好者遍布世界各地。每天都有成千上万的人在对邮票津津乐道,并且每天的邮票交易达数百万元。点击各个栏目,你就可以得到许多邮票的知识。

显然,关键词"邮票收藏"移到了下面!在这种情况下,除了使用metatags 外,没有其他更好的办法。使用metatags对那些读metatags的搜索引擎有帮助,对其他不读metatags的搜索引擎也不是什么大不了的问题。你认为表格对你的页面很有影响,也没有必要放弃他们,喜欢的话就继续使用,不能因个别搜索引擎而破坏页面的整体性。

大量的JavaScript也和表格有一样的影响。搜索引擎首先读JavaScript

语句,引起正常的HTML正文排后一些。这样,如有可能的话,把JavaScript

语句放到页面后面一点。也可以使用metatags来帮助解决问题。

3、页面有相关的内容

如果页面没有相关的内容,即使改变页面的题目或使用metatags都不会对你在搜索引擎的位置有何帮助。就是说你使用的关键词要反映页面的内容。

有些页面出现的是大量的图形,看起来非常漂亮,但搜索引擎却不能读这些图形,他们就得不到文字来决定页面的相关性。有些搜索引擎也可能将ALT包含的文字和metatags结合起来索引。但为保险起见,建议尽可能用HTML文字,访问者也喜欢这些实质性的东西。

另外,要保证HTML文字是可见的。有些页面设计者想通过用微小的字体或把字体颜色设置成和背景颜色一致的方法在正文中重复关键词。虽然浏览器是看不见了,但搜索引擎却能识破这种类似的诡计。料想浏览器都看不见的东西,搜索引擎也不应该索引到它。这些页面是搜索引擎的垃圾,应该摈弃它们。

4、避免搜索引擎阻塞

有些搜索引擎看WEB页面,就像一个人使用非常旧的版本的浏览器一样。他们不能读图像映像(image maps),不能读框架结构(frames)。你必须考虑到这些问题,否则搜索引擎也许根本就不可能索引到你的任何页面。(1)要有HTML 文字链接。页面设计者经常在主页上只是用图像映像来链接子页面,那么不能跟随这种链接的搜索引擎就不能到达站点的子页面。最不幸的是,子页面常常比主

页更有相关性。所以建议在主页底部加一些在文字上所做的HTML超链接来链接各个子页面,搜索引擎就会发现他们,并跟随进去。你也可以考虑制作一个带有文字链接的本站导航页来链接网站的所有页面。然后递交这个页面,帮助搜索引擎查找站点的其他所有网页。(2)框架结构是致命的一击。一些主要的搜索引擎都不能跟随框架里的链接。你只好使用meta tags或另外的巧妙设计来解决它。(3)动态页面的阻塞。有些搜索引擎也不可能索引由CGI或数据库所生成的动态页面,所以尽量使用静态页面。宁愿用数据库来修改页面,也不要动态生成它们。还要避免在URL上使用符号,尤其是问号"?",如

(https://www.doczj.com/doc/4c20774.html,/scripts/labor/bbs/bbs.asp?09),因为搜索引擎往往因它而阻塞。

5、使用meta tags

正如前面所提到的,metatags能帮助你解决表格、框架等其他麻烦所带来的问题。metatags也帮助你能在支持metatags的搜索引擎中控制你的站点描述语言。但须记住的是:metatags并不一定就能保证站点排在前列,他们并不是改变站点排列低落状态的魔术弹。

6、杜绝搜索引擎垃圾

首先要知道,垃圾并不一定被搜索引擎接受,搜索引擎可能会发现你的这种想把垃圾网页提到前列的行为,并在列表中取缔你的网页。

一般来说,搜索引擎垃圾是想通过加上最流行的关键词来达到排在前列的目的,这是不道德的行为。网页应该以真实的内容让搜索引擎来决定其相关性,而不是毫无道理地凭借重复关键词来击败其他网页。是金子总会发光!

我们将搜索引擎的垃圾和垃圾邮件比较一下。没人喜欢垃圾邮件,发送垃圾邮件的站点经常面临的是来自那些接受方的反击。制造搜索引擎垃圾的站点降低了搜索引擎返回列表的质量。随着问题的越来越严重性,这些站点也会面临和垃圾邮件所带来的一样的反击。

7、提交关键页面

大多数的搜索引擎是从你提交过去的一个页面开始索引站点的其他页面的。所以最好提交最能概括站点的前面2到3个页面。

也不要太信任自动提交服务程序的自动提交过程,有些是很优秀的。但有些搜索引擎太重要了,还是人工提交比较好,以便你能看看提交有没有何问题。

更不要怕麻烦提交2到3个页面。当搜索引擎在一个页面上遇到问题时,它还可以从另一个页面开始爬你的站点。

8、定期检查和维护你的列表位置

一旦你的页面被搜索引擎列表,最好是每到一至两个星期监控一下列表,可能会有一些奇怪的事情发生:页面消失了;链接不对了;.....。那么重新提交你的站点吧。

当你对页面做了重大改动的时候最好也要重新提交站点。搜索引擎本来是按固定的周期反复访问站点的,然而一些搜索引擎很灵敏,它们知道有些站点一年只做一到两次的改动,它们可能就不会经常去访问这些站点,那就发现不了站点的变化。在重大改动后重新提交将确保你的站点内容是最新的。

五、结束语

对于页面设计者来说,花一些心思和精力与搜索引擎建立起良好的关系是值得的,往往稍做一些改动就可能得到很大的好处。即使没有进入前10名,也在相关性上得到了一个改进。

同时,如自己的站点没有运气进入前10名,还应该考虑与排列前10名的站点进行互惠互利的链接。虽然他们是竞争对手,但你也会因此而得到许多意想不到的回报,你会发现网上指向自己站点的链接多了,这时你只要稍微注意一下关键词的使用,你就可能跑到列表前列。何况链接也是人们找到你的站点的最好方式之一。

最后要说的是:搜索引擎是人们寻找Web站点的主要方式,但不是唯一的方式。人们也从以下的方式获得站点,如口传、传统广告、传统媒体、新闻组、Web 目录和其他站点来的链接等。有时候,这些形式比搜索引擎更有效。所以千万不要被搜索引擎的排列位置所困扰,一个页面设计者更多的时间应该放在制作更好的网页上。

搜索引擎原理概述及其在星空黄页网站中的应用

陈哲倪俊峰

引言

搜索引擎(Search Engine)已经成为大家在工作、学习、娱乐中不可或缺的神兵利器。通过使用搜索引擎,使得我们检索信息的能力获得了极大的提高,成本有效地降低。可以说,搜索引擎是现代的计算机技术,因特网技术与传统的索引理论相结合的成功典范。搜索引擎是在因特网普及的大背景下应运而生的,它出生伊始就带有浓烈的平民色彩,走出了象牙塔、实验室,走进了寻常巷、百姓家。最早搜索引擎应用于门户网站,获得了极大的成功,如今,它已广泛地应用于各行各业,以它为核心引发了所谓的搜索经济,成为大家关注的焦点。

本文对回顾了搜索引擎发展的简要历史、对它的分类和实现原理进行了分析,并介绍了国内一些主要搜索引擎的特点。星空黄页是中国电信黄页已有八年历史的提供全国企业信息的专业网站,随着数据量的快速增长,用户查询习惯的改变,对黄页网站的检索技术也提出了新的挑战。搜索引擎技术成为改造黄页网站的首选,本文也介绍了搜索引擎技术在黄页网站的应用情况。

1.搜索引擎的历史

曾有人说搜索引擎的鼻祖就是黄页,诞生于十九世纪末。因为黄页,在电话诞生后成为了以电话为主体的信息门户,而且黄页把有电话的企业分门别类,的确与现在的搜索引擎有异曲同工之妙。不过,这更多地是从这两者的形式和用途做的类比,事易时移,今天我们所谓的搜索引擎,是以计算机,网络,大信息量,自动化为特征的新型检索工具。

现在意义上的搜索引擎其实是在近十年的不断发展中逐步形成的,它建立在因特网和诸多计算机技术之上,所以很难把搜索引擎的缘起与哪个具体的产品对应起来。但是我们知道,在它逐步发展过程中,一些关键的产品成为了里程碑。

1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。这就是Excite。后来曾以概念搜索闻名。1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Telnet搜索。Lycos是搜索引擎史上又一个重要的进步。Carnegie Mellon University的Michael Mauldin将John Leavitt的spider 程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要。1998年10月之前,Google只是Stanford大学的一个小项目BackRub。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定义。

2.搜索引擎的分类

搜索引擎并没有一个精确的定义,大致可以分为两大类:全文搜索引擎(FullText Search Engine)和分类目录(Directory)。

全文搜索引擎通过一个叫网络机器人(Spider)或叫网络蜘蛛(crawlers)的软件,自动分析网络上的各种链接并获取网页信息内容,按规则加以分析整理,记入数据库。Google、百度就是比较典型的全文搜索引擎系统。

分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。

全文搜索引擎的使用以关键词和一定的语法为特点,而分类目录则通过建立多级目录对网站进行分类。它们在使用上各有长短。全文搜索引擎因为依靠网络机器人搜集数据,所以数据库的容量非常庞大,但是,它的查询结果往往不够准

确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。

此外,基于这两类搜索引擎,还衍生了其它的搜索服务,主要有所谓元搜索引擎(META Search Engine)。和集成搜索引擎(All-in-One Search Page)等,就不一一介绍了。

搜索引擎既然没有明确的定义,一般就以其发展中一些里程碑式的应用标志其阶段。业界普遍的共识是“第一代搜索引擎”是依靠于人工分拣的分类目录搜索,以"雅虎"为标志;而"第二代搜索引擎"则是依靠于机器抓取,并建立在超链分析技术基础之上的网页搜索,以"Google"为代表,其信息量大、更新及时、但返回信息过多,可能有很多无关信息。而"第三代搜索引擎"则把"智能化"、"人机交互"等功能融入了主流。将自动分类技术、中文内容分析技术及区域识别技术应用到大型搜索引擎中,除了在信息检索速度、更新频率等基本技术指标方面处于领先地位外,它的网页相关检索、拼音纠错、模糊查询、口音查询技术也具有很高的水准。此外,还同时兼备了新闻、MP3、图片、FLASH搜索功能,已成为能够提供全面、综合的信息搜索服务。

这里介绍的是在国内外影响比较大的主要的一些搜索引擎和分类目录站点,

1、Google(https://www.doczj.com/doc/4c20774.html,/)

⒉、百度(https://www.doczj.com/doc/4c20774.html,/)。

3、中国搜索(https://www.doczj.com/doc/4c20774.html,/)。

4、搜狗(https://www.doczj.com/doc/4c20774.html,)

5、雅虎一搜(https://www.doczj.com/doc/4c20774.html,/)。

6、新浪查博士(https://www.doczj.com/doc/4c20774.html,/)。

3.搜索引擎的基本原理

全文搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web 空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到

另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。

大型全文搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。

和全文搜索引擎一样,分类目录的整个工作过程也同样分为收集信息、分析信息和查询信息三部分,只不过分类目录的收集、分析信息两部分主要依靠人工完成。分类目录一般都有专门的编辑人员,负责收集网站的信息。随着收录站点的增多,现在一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。如果该站点审核通过,分类目录的编辑人员还需要分析该站点的内容,并将该站点放在相应的类别和目录中。所有这些收录的站点同样被存放在一个“索引数据库”中。用户在查询信息时,可以选择按照关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟全文搜索引擎一样,也是根据信息关联程度排列网站。需要注意的是,分类目录的关键词查询只能在网站的名称、网址、简介等内容中进行,它的查询结果也只是被收录网站首页的URL地址,而不是具体的页面。分类目录就像一个电话号码薄一样,按照各个网站的性质,把其网址分门别类排在一起,大类下面套着小类,一直到各个网站的详细地址,一般还会提供各个网站的内容简介,用户不使用关键词也可进行查询,只要找到相关目录,就完全可以找到相

关的网站(注意:是相关的网站,而不是这个网站上某个网页的内容,某一目录中网站的排名一般是按照标题字母的先后顺序或者收录的时间顺序决定的)。

由此可见,分类目录引擎的收集信息、分析信息和查询信息方式是非常类似于当前黄页网站分类查询体系,不同的是黄页收集信息主要来自电信渠道,普通的分类目录引擎一般都是由站点管理者递交自己的网站信息给分类目录,然后由分类目录的编辑人员审核递交的网站,以决定是否收录该站点。

4.搜索引擎技术在星空黄页网站的应用

星空黄页搜索(SYP-Search Yellow Pages),是中国电信黄页2004年8月推出,是在中国电信集团黄页信息有限公司覆盖全国数以千万企业信息资源的基础上,推出的专业企业信息搜索服务。

有别于主流的搜索引擎网站,星空黄页搜索是以站内数据搜索为核心,基于全国号码资源数据库为基础的企业搜索,正是由于数据采集渠道来自电信集团内部,所以无论企业是否上网,只要企业信息存在于电信黄页的号码资源数据库中,该企业的信息都能在星空黄页中搜索到。用户可以通过企业名称、产品、电话、地址等任何与企业相关的搜索请求,找到需要的企业信息,还可以按照省、市分地区进行本地化的企业搜索。在部分开通地图服务的城市中还能进一步提供企业地图信息。

星空黄页搜索引擎的建设采取了合作开发模式,采用百度公司网事通系统来提供大数据量搜索。

系统主要有三个体系子系统构成:

1)用户数据库子系统:

本子系统由用户的数据库管理系统(用户所有)与数据库监视和导出系统(百度所有)共同组成。

数据库监视和导出系统负责监视数据库的改变,并将相应信息传输给“信息

获取和索引子系统”。

2)信息获取和索引子系统:

该子系统主要有以下两项功能:

(1)接收用户数据库子系统传送来的数据,整理,并建立检索索引。

(2)保证检索数据与用户数据的同步和一致。

3)信息检索服务子系统:

信息检索服务子系统响应来自internet的检索请求,处理该请求,将检索结果返回给检索请求用户。该子系统是与internet的接口。

a功能全面,支持多种搜索特性,提供丰富的选择

1)支持大数据量下的全文检索,在G级数据量下保证亚秒响应速度;

2)支持关键字的实时全文检索,即一旦有数据加入到数据库中就可以立刻被

检索到;

3)支持大数据量下的高效全文检索,100万条记录数的相应时间小于1秒;

4)支持对一个字段以及多个字段的复合检索;

5)支持二次检索和各种逻辑检索;

b智能化全文检索保证最准确的结果

1)百度特有的自动词汇切分技术,充分考虑了中文语言的特点帮助您找到最准确的关键字,从而大大提高查询的准确率;

2)支持Big5、GB、GBK、GBK2312等多种汉字编码,并支持英文检索,对于英文的大小写可以自动转换;

3)支持查询任何词汇,数字、短语等;

4)支持中文或英文的单独检索;

5)支持中英文的混合检索;

c实时查询

1) 用户可以对数据库进行实时查询,根据时间排序;

2) 用户数据库中的任何改变,如加入、修改、删除信息可以实时的传送给索

引服务器;

d高可配置性

1) 支持字段的添加和删除,而无需对程序进行修改;

2) 用户可以随意创建、修改、删除数据库中的信息,信息的变化可以被百度

网事通DB检索系统实时自动识别;

3) 百度网事通DB检索系统和网站之间通过TIP/IP协议通讯,用户可以自己

定义检索结果页面的模版;

4) 用户可以自己定义检索规则,即可支持按字段检索又可以支持全文查询。

星空黄页搜索服务推出以后,大大提高了用户的搜索体验,也为黄页提供了

新的商机。

5.结论

本文对搜索引擎的历史、分类和原理进行了介绍。概述了搜索引擎发展的演进过程,介绍了当前业界主要的搜索引擎的类别:全文搜索和分类目录。对搜索引擎的工作过程和原理进行了概要的介绍。着重介绍了搜索引擎技术在星空黄页网站中的应用,描述了黄页搜索引擎的体系结构和功能特点。

搜索引擎的出现很大程度上改变了人们对信息的使用习惯,提高了信息的使用效能,它发轫于因特网,但现在已经渗透到了各个行业,了解搜索引擎,研究搜索引擎,应用搜索引擎,具有广阔的发展空间。

相关主题
文本预览
相关文档 最新文档