当前位置:文档之家› 搜索引擎原理

搜索引擎原理

搜索引擎原理
搜索引擎原理

搜索引擎是怎样工作的

你在Google上键入几个词,几秒种内就可以得到-整屏高度相关的搜索结果。

虽然看起来为了显示搜索结果,Google一个个地扫描了所有的网页,但事实上,是缘于此前大量的准备工作一一搜索专家称之为预先编制索引(Indexing)。编制索引是为了创立搜索索引库一一这个特别的数据库,存储着一个列出了互联网所有网页上所有的词的列表。

2-2:

·匹配搜索请求。搜索引擎必须分析搜索者键入的词语,挑选出与这些词相匹配的网页。

·排序。大多数搜索请求都会有很多相匹配的结果,所以搜索引擎必须对匹配的网页进行筛选,以便使最适合的排在最上面。

·显示搜索结果。一旦挑选出了最适合的匹配网页,搜索引擎就在屏幕上显示给搜索者

2.1匹配搜索请求

搜索请求(Searchquery)是一个技术词,是指搜索者在搜索引擎上键入的用来搜索的词语。当某人在Baidu(或其他搜索引擎)上输入"百度SB",这就是一个搜索请求。专家通常将搜索请求中的每个词叫做一个搜索项(Searchterm)(这个例子中,"百度"和"SB"都是搜索项〉。从分析搜索请求开始,搜索引擎通过一些基本步骤来找到匹配的网页。

2.1.1公布搜索请求

一旦搜索者键入搜索请求并按下回车键,搜索引擎便开始分析搜索请求一一检查搜索请求的每个词(搜索项),并且决定怎样在搜索索引库中找到最匹配的网页。搜索引擎分析搜索请求的方式不尽相同,但有一些基本的分析技术是大多数搜索引擎所共同使用的。这些就是我们在这部分要讨论的。

同样,对搜索请求中的词简单地进行精确匹配,并不总能定位到搜索者实际想要的东西。但是搜索引擎做的并不仅仅是这些。我们己经看到搜索引擎为我们校正拼写,有的时候搜索引擎只是继续执行搜索,把我们引向拼写正确的词,但也经常询问我们"你是不是想搜索……"并且提示我们一个更常用的词语。对于搜索者很有用的功能,搜索引擎营销人员则要小心,有一些聪明的产品名字被故意设计成看起来是拼写错误的词语一-自动改正的功能会将产品名称更正到正确的词语,就会造成搜索者很难找到你的产品。而且如果顾客不能正确

拼写你的产品名字时,拼写校正算法无法总能奏效,所以选些人们容易拼写的名字会对你大有益处。

口查找词组,非词组和停止词

词组(phrase)在搜索中和在平常使用时的意义稍有不同。你也许知道,大多数网络搜索引擎允许搜索者使用双引号将几个词放在一起作为一个词来搜索。搜索引擎称这些放在一起的词为"词组"。词组搜索者查找与搜索请求一模一样的词,包括词序在内。这种方法对于寻找特定的信息是很有用的。

你也许不知道的是,现代的搜索引擎分析搜索请求时,即使搜索者没有使用双引号,它也会寻找词组。搜索引擎能够辨别一些经常同时出现的词,井优先选择那些同时使用这些词的网页。

同样,许多搜索者键入一些绝非他们想要搜索的无关紧要的词,例如搜索请求写着"什么是治疗青光眼",你可以想象,"什么是"对于找到适合的网页毫无用处,甚至可能会误导搜索引擎去寻找含有"什么"和"是"的网页。这样的搜索项被称为"非词组"(antiphrases),会被聪明的搜索引擎所忽略(或者至少被当作是不重要的〉。

这对于搜索引擎营销人员来说是非常重要的。因为,可能你的一个产品品牌(例如Where'sWaldo①〉看起来更像一个搜索者的问题而不是真正的搜索请求。搜索引擎使用其他的技术来识别像"Wald

在哪儿"这种流行的名字,但是如果你产品的品牌没那么有名,搜索

引擎就可能无法处理得很好。如果你能够避免这种会迷惑搜索引擎的做作的名字,那么最好赶紧去做。

最后,一些词就是比其他的词更重要。极为常用的词(例如"a"或者"the")通常被称为"停止词"(stopword),因为在过去搜索引擎根本不会搜索它们。现代的搜索引擎时不时会注意到这些"停止词飞例如在你寻找摇滚乐队"TheWho"的时候。作为一个搜索引擎营销人员,如果你能够避免在品牌和商标名称中将这些停止词作为关键词,那么这些品牌和商标就会更容易被搜索到。

口检查词序

有些搜索引擎在执行搜索时会考虑词序的问题,因此当搜索例如"百度SB"和"SB百度"时,出现不同的搜索结果。这些搜索引擎会尝试按照搜索请求中的词序来搜索含有同样词序的网页。

对于搜索引擎营销人员来说。如果你的产品有一个不太连贯的名称如"广州妇科医院",那就有几种可能:"广州妇科医院"或是"存储广州医院妇科"。所以,尽可能使你的产品有个容易按词序记住的名字,这样会有助于被搜索到。

一旦搜索请求被分析之后,搜索引擎就必须决定显示哪些搜索结果。在存在如此多可能性的情况下,搜索引擎是怎样快速找到这些匹配结果的呢?付费搜索结果和自然搜索结果用的是不同的方法,我们先来看看自然搜索的方法。

口选择与自然搜索匹配的结果

自然搜索引擎使用其搜索索引库来定位最匹配的网页。基本上,通过分析搜索请求来决定查找什么词一一搜索引擎查看搜索请求中的每个词,看哪些网页包含这些词。

搜索索引库可以被看作是一个按字母顺序排列的列表,列出了互联网每一个网页上的每一个词(参看图表2-3)。这个索引库中有包含每个词的所有网页的列表。因此,当你查看"青光眼"这个词的时候,就会得到含有这个词的所有网页的列表。

图表2-3网页怎样被从索引库中找到示意。自然搜索引擎检查网页列表的索引,网页列表列出了包含搜索请求中的每个词的所有网页。

这是最简单的例子。当搜索者键入复杂-点的搜索请求时,事情就变得麻烦些了。如果搜索者正在寻找"青光眼治疗",于是搜索引擎会寻找含有每个关键词的网页,给出一个含有"青光眼"的网页列表和一个含有"治疗"的网页列表。大多数搜索引擎在面临这个情况时,会决定只显示同时包含两个词的网页。因此它们浏览两个列表,找到同时被列入两个列表的那些网页。

关于处理多个词语的搜索请求,一些搜索引擎有更加精细的规则。试想-个搜索请求例如"青光眼眼睛治疗”因为"眼睛"这个词比另外两

个词更普通,有些搜索引擎可能会显示一些包含"青光眼"和"治疗"

的网页,即使这些网页没有包含"眼睛"这个词。

评估自然搜索结果:什么是精确率和检索调用率(recall)。

搜索专家通常通过衡量精确率和检索调用率来评估自然搜索结果。

为匹配的网页排序:为自然搜索结果排序

仅仅将含有搜索请求词语的所有网页排列出来是没有多大用处的,尤其是这些网页太多。而且对于互联网搜索,情况几乎总是如此。因此,搜索引擎最重要的一部分是排序算法一一搜索引擎依靠这部分来决定哪些网页将出现在结果列表的顶端。

2.2.1为自然搜索结果排序

搜索引擎的自然搜索排序算法在搜索引擎设计中是最棘手的部分之一,所以我们从研究最简单的排序算法开始。

精确性和检索调用率彼此作用相反。如果一个搜索请求只得到一个问页,而且是正确的,这就是100%的精确(所有的答案是正确的)但是就检索调用率来看则可能是糟糕的(很可能还有许多其他的网页应该被发现)。同样的,如呆一个搜索请求找到了40亿个网页,是100%的检索调用率(所有的正确答案都被找到了,一个都没少),但是精确率就糟透了,因为绝大部分的结果是错误的。

检索调用率决定了百度他自己的命运!

排序只是"拣选"的另一种说法,是指按照一定顺序整理结果的行为。

百度使用的搜索引擎要处理十亿以上的网页,这就需要极为精密复杂的排序方式。对于某些种类的信息,例如新闻,按信息的日期排序(最新的靠前)。但是绝大多数自然搜索结果是按照"相关性"来排序的,也就是与搜索请求相匹配的程度。

"关键词"。

口关键词密度(Keyworddensity)

关键词密度,也叫关键词的权重,是非常重要的。在搜索的早期,关键词在网页上出现得越频繁越好。如果搜索者想要找的是"青光眼"这个词,一个网页中该词的词语出现频率是10次,就被认为比只出现2次的网页要好。(黑帽技术的开始)

搜索引擎对关键词密度采取了压制措施。现在当它们查看一个网页的特定关键词密度时,决定有大约7%的词和搜索请求匹配0%的关键词密度)就是好的匹配。(2%—7%)

那些关键词接近度(词语间彼此靠近)比较高的网页,尽可能高的关键词出现频率(最高到神奇的7%的极限)以及关键词彼此尽可能接近的网页。

口关键词突出度(Keywordprominence)

除了知道网页中含有搜索请求的词语外,知道这些词在网页上出现的位置是不是也很重要。

其他条件相同时,如果搜索请求的词语出现在网页的重要位置,如网页标题,它的排名就会比把这些词埋在底部的网页高。把搜索请求的词语放在标题和前儿段的网页被称为有较高的关键词突出度,因为比起其他页面关键词出现在更突出的位置。

搜索引擎实际上是一个模式匹配机器。它们被调教来识别网页与搜索请求高度匹配的不同模式一一有关键词匹配在突出位置这种模式的页面比其他网页的匹配度更强。

搜索引擎在网页的不同位置发现关键词时,它怎样评估关键词的突出程度呢?以下是主要的几类

·标题(Title)。对于搜索引擎而言,这是网页上最重要的部分。搜索结果页面上展示的正是标题,而且也出现在浏览器的窗口上。你可以认为一个网页的标题就像是一篇杂志文章的标题,它能够强有力地指出整个文章要讲什么。

大多数搜索引擎会更重视在使用加粗宇体的段落标题中找到的关键词,而对斜体或者有颜色的文本,会假设是关键词比较重要的出现。段落标题与杂志文章的粗体段落标题极为相近,能够断开连续的文字井指出下面段落要讲什么。

·关键词(Keywords)。作用略轻于title。

·正文文本(Bodytext)。正文文本包括页面上出现的所有词,但是出现在页面顶端部分的正文文本会被认为比在中间和下部的文本更重要。网页上的图片也会含有供选择的文字,搜索引擎会用来"了解"每个图片讲得是什么。(图片的说明文字)

·网页描述(Description)。网页通常含有一个摘要,有些搜索引擎也会在搜索结果中的网页标题下显示摘要。但是大多数搜索引擎不再显示网页描述,也不会给它比正文文本更多的权重。

口链接流行度(Linkpopularity)

除了关键词出现频率和放置位置这两个技术,

链接流行度(有时候被称为链接分析),与其他先前的技术结合起来,显著地改进了排序。

被其他网页链接的网页,要比没有被其他网页链接的要好。

因为这个原因,链接流行度变成了搜索结果排序中的一个主要要素,有时候比另外两个我们讨论过的要素还要重要。因此,其他条件相同时,被较多地链接的网页会比其他的网页排名靠前。通过一个例子,我们很容易就能看到为什么这是个好方法。

Google的算法,叫做PageRank,是最著名的。Google用1到10来计算互联网上每一个网页的PageRanko继续上面的例子,如果链接到关于青光眼站点的AMA网页的Pagerank值是6,而那个个人主页的PageRank值是1,那么前一个网页就给它的链接传递了很多的权威值,而另-个儿乎没什么贡献。如果那个个人主页被其他的站点开始链接,这时它的PageRank上升到3,进而就能够传递更多的权威值给它所链接的网页。

但仅仅是链接本身还不足以产生好的搜索排名。一个站点可能被许多知名站点所链接,但是这些链接可能是关于其他的而不是被搜索的那个主题。

2.4为自然搜索索引库找寻网页

搜索者键入搜索请求,然后搜索引擎在其自然搜索索引库中查找搜索项,优先排列好最佳的匹配网页,接着显示搜索结果。

但是这些网页最初是怎样被加入到索引库中的?

图表2-5:搜索引擎为网页建立索引。所有的搜索引擎找到网页,分析它们的内容,之后建立搜索索引。要在搜索索引库中建立网页的详细目录,搜索引擎使用了一种非常特别的程序,spider(从检查种子目录(seedlist)里的网页开始,因为它反正要从那个地方开始。但是一旦蜘蛛程序开始了,它就自己顺着链接前进来发现网站。

2.4.1顺着链接前进

蜘蛛程序使用的链接与你在浏览器中使用的一样。当蜘蛛程序检查网页时,它查看指向另一个网页的链接。

只不过,spider看到的是超文本链接标示语言代码。和浏览器用以显示网页的代码一样。

蜘蛛程序挖出每一个网页的HTML当不再有链接指向其他页面时,它就返回,以后再去搜索这些网页的HTML。你可以想象,只要有足够的时间,一个蜘蛛程序最终可以找到互联网上所有的网页(或者至少是与其他网页链接的所有网页)。这种找到一个网页,查找这个网页上的所有链接井顺着链接依次找到另外那些网页的流程,被称做网络爬行(crawlingtheWeb)。

每一个蜘蛛程序查看的HTML代码和你浏览器看到的→样,而且能够顺着链接找到其他的网页.你机构的网站无疑已经被搜索引擎的蜘蛛程序所知道,而且一定有些网页已被添加到搜索索引库中。但是被加入到索引库中的网页可能并没有你想象的那么多,而且任何没有被加入到索引库中的网页将永远不会被搜索引擎发现。因此,使尽可能多的网页被加入到索引库中是非常重要的。

2.4.2记住链接

顺着链接前进是十分重要的,因为这是一个蜘蛛程序用来全面爬过互联网的最好方法。

不仅如此,它的重要性还表现在另一方面。蜘蛛程序必须仔细地对它们发现的每个链接进行分类一-检查哪些网页链接到你的网页,并查看描述这些链接的词(锚定文本)。

Spider的回访

那些网页质量最高的网站。例如新浪,比起其他的网页,spider 往往更经常地回访PageRank值较高的网页。雅

2.4.4其他方法

到目前为止,自然搜索引擎中绝大部分网页是由搜索引擎蜘蛛程序搜集来的。但是这也不是唯一的方法。

有一些搜索引擎允许你的网站把数据发给它们,而不用非要等到蜘蛛程序爬过你的站点不可。雅虎、购物搜索引擎以及其他一些搜索引擎,允许你的网站提供一个可信内容源(trustedfeed):你的站点可以发送网页到搜索引擎,一旦搜索引擎收到这些网页,就把它们处理并存储在索引库中。

2.5.1转换不同类型的文件

迄今为止,我们假设所有的网页都是由HTML编码写成的,其实并不都是这样。现代搜索引擎可以分析AdobeAcrobat(PDF)文件和许多其他种类的文件。尤其可信内容源程序往往需要用它们自己的格式。

当搜索引擎扫过一个非HTML的文件,它们将这些文件转换到一个标准的格式,也就是它们储存所有其他文件使用的那种格式。为方便起见,我们在接下来考察文本分析过程时,假设所有的文件都是HTML格式的,但是你己经知道实际上的情况要复杂得多。

确定哪些词是重要的

如果你浏览一般的网页,看到的不仅仅是屏幕上显示的文本。如果你查看H1ML源代码,会发现实际上你在页面看到的大多数只是标记(markup),或是HTML标签(TAGs)。既然在搜索的时候,你并不想找到这些标签的名字,你也许认为搜索引擎会把它们扔掉,但其实不然。搜索引擎使用标记来帮助分析文本。

当你用浏览器查看屏幕上的网页时,会看到有些词比其他的更醒目。有些词使用粗体或者标以颜色,另外一些被设定成大号字体,还有一些像标题一样被分隔开。而且,因为大多数的网页是按照"报纸风格"书写,最重要的信息往往靠近页首。

深入研究Meta标签

有一些最重要的标签是你通常看不到的。因为搜索引擎查看实际的HTML代码,它们可以获悉网页的一些信息,而这些信息除非你自己查看HTML源代码,否则永远不会注意。这些含有网页信息的标签通常被称为(metatag)meta标签。

真正的HTML标题标签显示在浏览器窗口的标题栏。

搜索引擎的盲点

即使搜索引擎看起来非常聪明,它们漏掉的东西也很惊人。漏掉的最引人注目的东西是图片。搜索引擎阅读和理解任何类型的文本,而且正像我们己经看到的,它们甚至可以推断出文本以外的信息。

但是图片对于搜索引擎来说没有任何意义。虽然一个人在看到图片时可以立即认出那是一只斑马,但是搜索引擎根本无法理解图象文件的含义。例如baidu,可以通过巧妙地利用文本找到"斑马"图片,例如注意命名为"斑.gif"的图形文件,或者一些与某个图片有关且提到了"斑马"一词的文字。

这些例子表明使用文字来详细描述你的所有图片是多么重要,只有这样,搜索引擎(和视觉残障的读者〉才能尽可能好地了解这些信息。

搜索引擎基本工作原理 目录 1工作原理 2搜索引擎 3目录索引 4百度谷歌 5优化核心 6SEO优化 ?网站url ? title信息 ? meta信息 ?图片alt ? flash信息 ? frame框架 1工作原理 搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。 1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重

复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。 3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 搜索引擎基本工作原理 2搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库 的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP 地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,

搜索引擎基本原理 一.全文搜索引擎 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。 二.目录索引 与全文搜索引擎相比,目录索引有许多不同之处。 首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。 其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。

尤其象Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧) 此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。 最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。 目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。 目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。

搜索引擎工作原理 在搜索引擎的后台,有一些收集网页信息的程序。收集到的信息一般是能够表明网站内容的关键词或短语。然后,信息的索引存储在数据库中。 搜索引擎的系统架构和操作模式吸收了信息检索系统设计中的许多宝贵经验,并根据万维网数据和用户的特点进行了许多修改。其核心文档处理和查询处理的过程基本上是类似传统信息检索系统的工作原理,但它处理的数据对象的复杂特征,也就是说,万维网数据,确定搜索引擎系统必须调整其系统结构,以满足数据处理和用户查询的需求搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。 3、1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 4、2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分

析超链接、计算网页的重要度/丰富度等。 5、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置、频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

以及其他信息。 搜索引擎基本工作原理

与全文搜索引擎相比,目录索引有许多不同之处。 首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。 其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。 此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。 最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。 目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。 目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注),在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。 新竞争力通过对搜索引擎营销的规律深入研究认为:搜索引擎推广是基于网站内容的推广——这就是搜索引擎营销的核心思想。这句话说起来很简单,如果仔细分析会发现,这句话的确包含了搜索引擎推广的一般规律。本文作者在“网站推广策略之内容推广思想漫谈”一文中提出一个观点:“网站内容不仅是大型ICP网站的生命源泉,对于企业网站网络营销的效果同样是至关重要的”。因为网站内容本身也是一种有效的网站推广手段,只是这种推广需要借助于搜索引擎这个信息检索工具,因此网站内容推广策略实际上也就是搜索引擎推广策略的具体应用。 百度谷歌 编辑 查询处理以及分词技术 随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。

参数,然后对相应站点进行抓取。 在这里,我要说明一下,就是针对百度来说,site的数值并非是蜘蛛已抓取你页面的数值。比 如site:https://www.doczj.com/doc/ea17706503.html,,所得出的数值并不是大家常说的百度收录数值,想查询具体的百度收录量应该在百度提供的站长工具里查询索引数量。那么site是什么?这个我会在今后的文章中为大家讲解。 那么蜘蛛如何发现新链接呢?其依靠的就是超链接。我们可以把所有的互联网看成一个有向集合的聚集体,蜘蛛由起始的URL集合A沿着网页中超链接开始不停的发现新页面。在这个过程中,每发现新的URL都会与集合A中已存的进行比对,若是新的URL,则加入集合A中,若是已在集合A中存在,则丢弃掉。蜘蛛对一个站点的遍历抓取策略分为两种,一种是深度优先,另一种就是宽度优先。但是如果是百度这类商业搜索引擎,其遍历策略则可能是某种更加复杂的规则,例如涉及到域名本身的权重系数、涉及到百度本身服务器矩阵分布等。 二.预处理。 预处理是搜索引擎最复杂的部分,基本上大部分排名算法都是在预处理这个环节生效。那么搜索引擎在预处理这个环节,针对数据主要进行以下几步处理: 1.提取关键词。 蜘蛛抓取到的页面与我们在浏览器中查看的源码是一样的,通常代码杂乱无章,而且其中还有很多与页面主要内容是无关的。由此,搜索引擎需要做三件事情:代码去噪。去除掉网页中所有的代码,仅剩下文本文字。②去除非正文关键词。例如页面上的导航栏以及其它不同页面共享的公共区域的关键词。③去除停用词。停用词是指没有具体意义的词汇,例如“的”“在”等。 当搜索引擎得到这篇网页的关键词后,会用自身的分词系统,将此文分成一个分词列表,然后储存在数据库中,并与此文的URL进行一一对应。下面我举例说明。 假如蜘蛛爬取的页面的URL是https://www.doczj.com/doc/ea17706503.html,/2.html,而搜索引擎在此页面经过上述操作后提取到的关键词集合为p,且p是由关键词p1,p2,……,pn组成,则在百度数据库中,其相互间的关系是一一对应,如下图。

第二讲:百度搜索引擎及工作原理 一、百度搜索引擎及工作原理? 1、抓取: 搜索引擎蜘蛛又叫爬虫或机器人,是一套信息抓取的程序,百度蜘蛛是通过网络上链接来爬取、搜集网页上的内容信息。 分为深度抓取和广度抓取,怎么让蜘蛛来抓取呢?一般有三种途径:外链、主动提交链接、蜘蛛自己来。我们可以通过服务器日志及百度站长平台抓取频率来判断蜘蛛是否来抓取网页了。在抓取的过程当中影响蜘蛛抓取的因素有路径(过长、中文)以及服务器打开速度。 2、过滤: 通过过滤系统将一些低质量的垃圾内容过滤掉,比如说复制来的,采集来的,主题内容不相关的无价值内容,不够丰富的内容(内容是否为高质量、稀缺性内容)通通过滤掉。 另外,对于一些无法识别的:js、没有添加alt属性的图片、视频上下方没有加加文字说明的、flash、iframe框架结构、登录页面都会过滤掉。 3、收录:

将通过过滤模块的页面储存在索引库里,我们称之为收录。 怎么查询呢?直接在搜索框内输入网址即可查询是否被收录了,查询整个网站收录量用到site指令:site+域名 收录了并不一定有排名,它是网页参与排名的前提条件并非充分条件。只有网站单个页面权重提升了整个网站权重才会更高更强大。 搜索引擎对网站的信任度非常重要,是一个长期积累过程,最终可以达到一个秒收的程度。 4、排序: 通过百度算法系统进行评分,来计算页面的综合得分情况进行排序,最后展现在搜索引擎的搜索结果页中。 因此,我们必须研究搜索引擎排名机制和影响页面排名的因素有哪些。 二、你知道网站不收录的原因有哪些? 1、有没有通知蜘蛛来或对蜘蛛有没有进行封禁 2、页面内容质量低 3、排名周期(观察期) 4、网页内容是否能够被蜘蛛识别

搜索引擎分类及工作原 理 WEIHUA system office room 【WEIHUA 16H-WEIHUA WEIHUA8Q8-

搜索引擎的分类及工作原理 姓名:XXX 班级:XXX 摘要:这篇论文是关于搜索引擎的分类及原理的分析。在浩瀚的网络资源中,搜索引擎(Search Engine)是一种网上信息检索工具,它能帮助用户迅速而全面地找到所需要的信息。它是一个集中了千千万万个站点的地方,主要功能是给人们搜索这些站点。它还会分门别类的把一些好的站点列出来,以方便人们查找资料,有了搜索引擎你就能很容易的找到你想要的内容或站点,因此掌握好使用搜索引擎对于任何上网的用户至关重要。一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料。 关键词:搜索引擎工作原理分类蜘蛛搜集网站 1.前言 获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。 当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。 2.搜索引擎分类

搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 全文搜索引擎 全文搜索引擎是从网站提取信息建立网页数据库。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。 目录索引 首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

一、搜索引擎引题 搜索引擎是什么? 这里有个概念需要提一下。信息检索(Information Retrieval 简称IR) 和搜索(Search) 是有区别的,信息检索是一门学科,研究信息的获取、表示、存储、组织和访问,而搜索只是信息检索的一个分支,其他的如问答系统、信息抽取、信息过滤也可以是信息检索。 本文要讲的搜索引擎,是通常意义上的全文搜索引擎、垂直搜索引擎的普遍原理,比如Google、Baidu,天猫搜索商品、口碑搜索美食、飞猪搜索酒店等。 Lucene 是非常出名且高效的全文检索工具包,ES 和Solr 底层都是使用的Lucene,本文的大部分原理和算法都会以Lucene 来举例介绍。 为什么需要搜索引擎? 看一个实际的例子:如何从一个亿级数据的商品表里,寻找名字含“秋裤”的商品。 使用SQL Like select * from item where name like '%秋裤%' 如上,大家第一能想到的实现是用like,但这无法使用上索引,会在大量数据集上做一次遍历操作,查询会非常的慢。有没有更简单的方法呢,可能会说能不能加个秋裤的分类或者标签,很好,那如果新增一个商品品类怎么办呢?要加无数个分类和标签吗?如何能更简单高效的处理全文检索呢?

使用搜索引擎 答案是搜索,会事先build 一个倒排索引,通过词法语法分析、分词、构建词典、构建倒排表、压缩优化等操作构建一个索引,查询时通过词典能快速拿到结果。这既能解决全文检索的问题,又能解决了SQL查询速度慢的问题。 那么,淘宝是如何在1毫秒从上亿个商品找到上千种秋裤的呢,谷歌如何在1毫秒从万亿个网页中找寻到与你关键字匹配的几十万个网页,如此大的数据量是怎么做到毫秒返回的。 二、搜索引擎是怎么做的? Part1. 分词 分词就是对一段文本,通过规则或者算法分出多个词,每个词作为搜索的最细粒度一个个单字或者单词。只有分词后有这个词,搜索才能搜到,分词的正确性非常重要。分词粒度太大,搜索召回率就会偏低,分词粒度太小,准确率就会降低。如何恰到好处的分词,是搜索引擎需要做的第一步。 正确性&粒度 分词正确性 “他说的确实在理”,这句话如何分词? “他-说-的确-实在-理”[错误语义] “他-说-的-确实-在理”[正确语义] 分词的粒度 “中华人民共和国宪法”,这句话如何分词?

搜索引擎的分类及工作原理 姓名:XXX 班级:XXX 摘要:这篇论文是关于搜索引擎的分类及原理的分析。在浩瀚的网络资源中,搜索引擎(Search Engine)是一种网上信息检索工具,它能帮助用户迅速而全面地找到所需要的信息。它是一个集中了千千万万个站点的地方,主要功能是给人们搜索这些站点。它还会分门别类的把一些好的站点列出来,以方便人们查找资料,有了搜索引擎你就能很容易的找到你想要的内容或站点,因此掌握好使用搜索引擎对于任何上网的用户至关重要。一个好的搜索引擎,不仅数据库容量要大,更新频率、检索速度要快,支持对多语言的搜索,而且随着数据库容量的不断膨胀,还要能从庞大的资料库中精确地找到正确的资料。 关键词:搜索引擎工作原理分类蜘蛛搜集网站 1.前言 获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。 当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。 2.搜索引擎分类 搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。 2.1全文搜索引擎 全文搜索引擎是从网站提取信息建立网页数据库。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间搜索引擎主动派出“蜘蛛”程

搜索引擎三段式工作流程总结 搜索引擎要处理的问题就是,在一个可以接受的时间内返回一个和该用户查询匹配的网页信息列表,这个列表包括三部分:标题,URL,描述或摘要。 现代的大规模搜索引擎一般采用三段式的工作流程,即:网页搜集、预处理、查询服务。 现在我对这三点简单的阐述下: 一、网页搜集 搜索引擎是通过爬虫去搜集互联网中的网页,放入数据库,但是这不可能是用户提交查询的时候才去抓取,而是预先就搜集好一批网页,可以把WEB上的网页集合看成是一个有向图,搜集过程从给定起始URL集合S开始,沿着这些网页中的链接,按照先深或先宽某种策略遍历,不停的从S中移除URL,下载相应的网页,解析出网页中的超链接URL,看是否已经访问过,或者有未访问过的那些URL加入集合S。我们这里可以是定期搜集,增量搜集,或者是用户自主提交的方式进行爬取。并且对这批网页进行维护。这种维护,是为了能及时发现网页的新特征,搜集新的网页,改变过的网页,或者已经不存在的网页。 二、预处理 预处理主要包括四个方面:关键词的提取、镜像网页或转载网页的消除、链接分析和网页重要程度的计算 1.关键词的提取 作为预处理阶段的一个基本任务,就是要提取出网页源文件的内容部分包括的关键词。对于中文来说,就是根据一个词典,用一个所谓的“切词软件”,从网页文字中切除词典所包含的词语来,在那之后,一篇网页主要是由一组词来代表,p={a,b,c,……d}.一般来讲,我们会得到很多词,同一个词可能在一篇网页中出现多次。然后我们要去掉”停用词“,例如”的,在,是”这一类的词语。再加以对这些词的词频(TF)和文档频率(DF)之类的计算统计,从而指示出词语在一篇文档中的相对重要性和某种内容的相关性。 2.镜像或者转载网页的消除 在WEB上,存在着大量的重复信息,这种信息对于搜索引擎来说可能是负面的,因为需要消耗机器时间和带宽资源,并且无意义的消耗了计算机显示屏资源,也可以带来用户的抱怨,这么多重复,给我一个就够了。所以搜索引擎对于消除这些重复信息也是预处理中一个很重要的任务。 3.链接分析 搜索引擎除了对内容进行分析外,并且最重要的还需要对链接进行分析,链接信息不仅给出了网页之间的关系,而且还对判断网页的内容起到很重要的作用。网页中的内部链接和外部链接对网站的排序起到了很大的影响。 4.网页重要程度的计算 搜索引擎返回给用户是一个和查询相关的结果列表,列表中的条目顺序是很重要的问

搜索引擎工作原理 一、搜索引擎的分类 获得网站网页资料,能够建立数据库并提供查询的系统,我们都可以把它叫做搜索引擎。按照工作原理的不同,可以把它们分为两个基本类别:全文搜索引擎(FullText Search Engine)和分类目录Directory)。 全文搜索引擎的数据库是依靠一个叫"网络机器人(Spider)"或叫"网络蜘蛛(crawlers)"的软件,通过网络上的各种链接自动获取大量网页信息内容,并按以定的规则分析整理形成的。Google、百度都是比较典型的全文搜索引擎系统。 分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以及国内的搜狐、新浪、网易分类目录。另外,在网上的一些导航站点,也可以归属为原始的分类目录,比如"网址之家"。 全文搜索引擎和分类目录在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。为了取长补短,现在的很多搜索引擎,都同时提供这两类查询,一般对全文搜索引擎的查询称为搜索"所有网站"或"全部网站",比如Google的全文搜索;把对分类目录的查询称为搜索"分类目录"或搜索"分类网站",比如新浪搜索和雅虎中国搜索。 在网上,对这两类搜索引擎进行整合,还产生了其它的搜索服务,在这里,我们权且也把它们称作搜索引擎,主要有这两类: ⒈元搜索引擎(META Search Engine)。这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有"网络机器人"或"网络蜘蛛",也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如"metaFisher元搜索引擎" ,它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。 ⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通过网络技术,在一个网页上链接很多个独立搜索引擎,查询时,点选或指定搜索引擎,一次输入,多个搜索引擎同时查询,搜索结果由各搜索引擎分别以不同页面显示,比如"网际瑞士军刀"。 二、搜索引擎的工作原理 全文搜索引擎的"网络机器人"或"网络蜘蛛"是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网页,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。网络机器人或网络蜘蛛采集的网页,还要有其它程序进行分析,根据一定的相关度算法进行大量的计算建立网页索引,才能添加到索引数据库中。我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找

刚做网站不久,就接触到了收索引擎优化一词,第一次听说这个词还感觉挺陌生的,在我好奇心的驱使下,我接触到了SEO.既然初次接触,那么他的工作原理是什么呢?通过几天的 学习终于算是认识他了!下面我就结合我的学习经验谈谈收索引擎的工作原理!了解了原理之后才能更好地做SEO. 从某个角度来说,SEO工作人员优化网站就是要尽量减少收索引擎的工作量,降低收索引擎的工作难度,使搜索引擎能更轻松、快速地收录网站页面,更准确地提取页面内容。 搜索引擎的工作大致可以分成三个阶段: 1)爬行和抓取:收索引擎蜘蛛通过跟踪链接来访问网页,获得页面的HTML代码并存入地址库。 2)预处理:搜索引擎对抓取来的页面进行文字提取,中文分词,索引等处理,已被排名程序调用, 3)排名:当用户输入关键词后,排名程序调用索引库引擎,计算出相关性,然后按一定格式生成搜索结果的页面。 一:爬行和抓取 爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。 1.蜘蛛 搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。 搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。 蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。 2.跟踪链接 为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也就是搜索引擎蜘蛛这个名称的由来。 整个互联网是由相互链接的网站及页面组成的。从理论上说,蜘蛛从任何一个页面出发,顺着链接都可以爬行到网上的所有页面。当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。

一、搜索引擎工作的一个大概过程: 1.爬行和抓取 搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML 代码存入数据库,抓取从左往右,从上往下 2.预处理 索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用 3.排名 用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面 二、爬行和抓取 1.蜘蛛 概念:搜索引擎用来爬行和访问页面的程序被称为蜘蛛,也称为机器人 2.跟踪链接 最简单的爬行查看方式分为两种:深度优先和广度优先 (1)深度优先 (2)广度优先 A B1 B2 B3 A1 A2 A3 指的是蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。 图例解说:蜘蛛跟踪链接从A 页面爬行到A1、A2、A3到A3页面后,没有其它链接可以跟踪就返回A 页面,顺着页面上的另一链接,爬行到B1、B2、B3 A C1 B1 A1 A2 A3 A4 指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上的发现链接爬向第三层。 图例解说:蜘蛛从A 页面爬行到A1、B1、C1页面,直到A 页面上的所有链接都爬行完,然后从A1页面发现的下一层链接,爬行到A1、A2、A3

3.吸引蜘蛛 理论上蜘蛛可以爬行和抓取所有页面,但实际上不能、也不会这么做。既然不能抓取所有页面,它所要做的就是尽量抓取重要页面。影响页面重要性的因素有哪些呢? ——网站和页面权重。质量高、资格老的网站被认为权重比较高,这种页面被爬行的深度也越深,内页被收录更多 ——页面更新度。经常更新的页面(高质量信息)蜘蛛抓取的也频繁 ——导入链接。页面的抓取要有导入链接,不然就会形成一种“孤岛效应”,无法访问。高质量的导入链接也经常使页面上的导出链接被爬行深度增加 ——与首页点击距离。离首页点击距离越近,页面权重越高,被蜘蛛爬行的机会也越大 4.地址库 为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面 5.爬行时的复制内容检测 检测并删除复制内容通常是在预处理过程中进行的,但现在蜘蛛在爬行和抓取文件时也会进行一定程度的复制内容检测。遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行 三、预处理(简称索引,因为索引是它最主要的步骤) 1.提取文字 现在的搜索引擎还是以文字内容为基础。因此预处理要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页文字内容,有时也会提取一些特殊包含文字信息的代码,比如Meta 标签中的文字、图片替代文字、Flash 文件的替代文字。链接锚文字等 2.中文分词 分词是中文搜索引擎特有的步骤。搜索引擎存储和处理页面及用户搜索都是以词为基础的。中文分词方法基本上有两种:基于词典匹配和基于统计 比如在百度搜索“搜索引擎优化”百度把“搜索引擎优化”当成一个词,而在Gooogle分切为“搜索、引擎、优化”三个词。所以,百度分切分得更为合理,Google分词时倾向于更为细碎。 3.去停止词 页面内容中经常都会有一些出现频率很高,却对内容没有任何影响的词,如“的、地、得”之类的助词,“啊、哈、呀”之类的感叹词,这些词被称为停止词,搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题便为突出,减少无谓的计算量。 4.消除噪声 搜索引擎需要识别并消除这些噪声(比如版权声明文字、导航条、广告等),排

我们向搜索引擎提交一个查询,搜索引擎会从先到后列出大量的结果,排序的不同带来的经济效应也不同,我们想要的就是让自己的搜索结果靠前,最好是能得到NO.1。那么这些搜索结果排序的标准是什么呢? 还是看看百度搜索研发部以求医为例谈搜索引擎排序算法的基础原理。 比如,如果我牙疼,应该去看怎样的医生呢?假设只有三种选择: A医生,既治眼病,又治胃病; B医生,既治牙病,又治胃病,还治眼病; C医生,专治牙病。 A医生肯定不在考虑之列,B医生和C医生之间,貌视更应该选择C医生,因为他更专注,更适合我的病情。假如再加一个条件:B医生经验丰富,有二十年从医经历,医术高明,而C医生只有五年从医经验,这个问题就不那么容易判断了,是优先选择更加专注的C医生,还是优先选择医术更加高明的B医生,的确成了一个需要仔细权衡的问题。 至少,我们得到了一个结论,择医需要考虑两个条件:医生的专长与病情的适配程度、医生的医术。大家肯定觉得这个结论理所当然,而且可以很自然地联想到,搜索引擎排序不也是这样吗,既要考虑网页内容与用户搜索查询的匹配程度,又要考虑网页本身的质量。 但是,怎么把这两种因素结合起来,得到一个,而不是两个或多个排序标准呢?简单的加减乘除是不够严谨的,最好能跟数学这样坚实的学科联系起来。人类在古代就能建造出高楼,但要建造出高达数百米的摩天大厦,如果没有建筑力学、材料力学这样坚实的学科作为后盾,则是非常非常困难的。同理,搜索引擎算法要处理上亿的网页,也需要更为牢固的理论基础。 求医,病人会优先选择诊断准确、治疗效果好的医生。而对于搜索引擎来说,一般按网页满足用户需求的概率从大到小排序。如果用q表示用户给出了一个特定的搜索查询,用d表示一个特定的网页满足了用户的需求,那么排序的依据可以用一个条件概率来表示: 这个简单的条件概率,将搜索引擎排序算法与概率论这门坚实的学科联系了起来。可以看到,搜索引擎的排序标准,是由三个部分组成的:搜索查询本身的属性P(q)、网页本身的属性P(d)、两者的匹配关系P(q|d)。对于同一次查询来说,所有网页对应的P(q)都是一样的,因此排序时可以不考虑,即

网站优化之搜索引擎工作过程 网站优化之搜索引擎工作过程 1、爬行和抓取 (1) 1).蜘蛛 (1) 2).跟踪链接 (2) 2、预处理 : (2) 1).提取文字 (2) 2).中文分词 (2) 3).去停止词 (3) 4).消除噪声 (3) 5).去重 (4) 6).正向索引也可以简称为索引 (4) 7).倒排索引 (4) 8).链接关系计算 (5) 9).特殊文件处理 (5) 3、排名: (5) 1).排名 (5) 2).搜索词处理 (5) 3).文件匹配 (6) 4).初始子集的选择 (6) 5).相关性计算 (6) 6).排名显示 (7) 7).搜索缓存 (7) 搜索引擎工作过程非常复杂,下面简单介绍搜索引擎是怎样实现网页排名的。这里介绍的相对于真正的搜索引擎技术来说只是皮毛,不过对SEO人员够用了,了解过对于网站优化有帮助。搜索引擎的工作过程大体上可以分成三个阶段:1、爬行和抓取: 搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML 代码存入数据库。 爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。 1).蜘蛛 蜘蛛 搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML 代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt 文件。如果robots.txt 文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。

实验四认识搜索引擎 一、实验目的 1、认识搜索引擎 2、了解搜索引擎原理及使用方法 3、在线查找搜索引擎 学时安排:2学时 二、实验内容 1、在IE浏览器输入网址:https://www.doczj.com/doc/ea17706503.html,/web/searchengine.htm,或是利用 Google搜索引擎查询【认识搜索引擎】,找到该网页,了解搜索引擎的原理极其发展过程。 2、打开https://www.doczj.com/doc/ea17706503.html,/index.htm和https://www.doczj.com/doc/ea17706503.html,/,查看站点中文搜索引 擎指南网(搜网)和搜索快报,了解搜索引擎有关新闻、使用技巧、排名规则、以及在商业上的应用。 3、在线查找搜索引擎,列出你所熟悉的中文引擎的前5名,英文引擎的前5名 4、列出至少20个搜索引擎(包括一个能够搜索—搜索引擎的引擎,报告中请注明) 5、使用不同的英文搜索引擎分别给出歌德巴赫猜想(Goldbach's conjecture)和世界名 画《蒙娜丽莎》(Mona Lisa )的英文详细介绍网址,并分别给出内容的英文简介。 6、针对你的选题自选检索词利用英文搜索引擎检索,记录检索结果 三、实验报告 1、搜索引擎的原理 搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。 1.从互联网上抓取网页 利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。 2.建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包 括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进 行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。 3.在索引数据库中搜索排序 当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到

搜索引擎概述 第一部分:搜索引擎发展史 第二部分:搜索引擎原理 第三部分:常用中英文搜索引擎指南 第一部分:搜索引擎发展史 1990年以前,没有任何人能搜索互联网。 所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan 发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确

的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher (Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead 是后来另一个Gopher搜索工具。 Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot 程序被称为spider(Spider FAQ)程序。世界上第一个Spider 程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。 与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。

搜索引擎工作原理: 一.蜘蛛 1.蜘蛛抓取过程 搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。 搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。 蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。 和浏览器一样,搜索引擎蜘蛛也有标明自己身份的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辨识搜索引擎蜘蛛。下面列出常见的搜索引擎蜘蛛名称: · Baiduspider+(+https://www.doczj.com/doc/ea17706503.html,/search/spider.htm)百度蜘蛛 · Mozilla/5.0 (compatible; Yahoo!Slurp China; https://www.doczj.com/doc/ea17706503.html,/help.html)雅虎中国蜘蛛 · Mozilla/5.0 (compatible; Yahoo!Slurp/3.0; https://www.doczj.com/doc/ea17706503.html,/help/us/ysearch/slurp)英文雅虎蜘蛛 · Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.doczj.com/doc/ea17706503.html,/bot.html)Google蜘蛛· msnbot/1.1 (+https://www.doczj.com/doc/ea17706503.html,/msnbot.htm)微软Bing蜘蛛 · Sogou+web+robot+(+https://www.doczj.com/doc/ea17706503.html,/docs/help/webmasters.htm#07)搜狗蜘蛛 · Sosospider+(+https://www.doczj.com/doc/ea17706503.html,/webspider.htm)搜搜蜘蛛 · Mozilla/5.0 (compatible; YodaoBot/1.0; https://www.doczj.com/doc/ea17706503.html,/help/webmaster/spider/; )有道蜘蛛 2.蜘蛛爬行策略 最简单的爬行遍历策略分为两种,一种是深度优先,另一种是广度优先。 深度优先,指的是蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。 广度优先是指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。 深度优先遍历策略广度优先遍历策略

相关主题
文本预览
相关文档 最新文档