当前位置:文档之家› 网站内容拨测系统实现技术分析

网站内容拨测系统实现技术分析

网站内容拨测系统实现技术分析
网站内容拨测系统实现技术分析

万方数据

………………………‘M黔㈣∞蚓僻TELE洲u眦^嗍

宽,对IDC机房有访问有一定影响,但通过

DNS

Cache技术,减少爬虫对DNS的访问频

率,可避免DNS成为网络瓶颈,提高抓取速

度,如图2所示。

爬虫技术的主要特点为根据审计条件

抓取网页的相关内容,对于一些大网站及静

态网页为主的抓取内容,采取深度策略抓

取,便于在最短时间内获得最大量内容;对于一蝼动态网页或小网站.采取广度策略抓

圈1网站内容拨测系统框架

取,同时对多个网站进行抓取,减小对各个

拨测的网站应包括企业自有业务网站、合作业务网

小网站的压力,避免造成恶意攻击。缺点主要表现站、业务推广渠道网站和企业提供接入的网站(含下

为:(1)对于带账号密码才能访问的BBS论坛现阶级接入服务商接人的网站)。政府监管部门和接入服

段的网络爬虫技术还不能实现内容抓取,目前只能

务商可根据管理需求和网站接人类型,采取不同的通过匿名访问方式获取数据;(2)根据网络覆盖率大

数据采集方法。下面主要针对目前比较常用的爬虫、

小,对搜索服务器的性能和数量都有比较高的要求;

软探针、旁路和网关过滤四种数据采集技术手段进

(3)占用IDC机房带宽,对IDC机房有访问有一定

行分析和比较。

影响;(4)通过网站页面中的超链接进行网络搜索,难以发现网络“孤岛”,如图3所示。

2.1爬虫技术

网络爬虫是一个自动提取网页的技术,从In—

ternet网上下载网页,在应用爬虫技术进行网站内容拨测时,可通过对IP地址范围和访问深度的限定,使网络爬虫程序从一个或若干初始网页的URL开

始,获得初始网页上的URL,在抓取网页的过程中,

不断从当前页面上抽取新的URL放入队列,直到满足系统的停止条件。网络爬虫能够对于抓取回来的网页根据不同审计条件,能够抓取静态网页、动态网页等相关内容,能够进行图片,MP3、Flash、视频等文件的抓取,并根据类型进行归类汇总,以网页快照的方式展示抓获内容,实现网站内容的自动识别、自动

分类、自动报警。

网络爬虫使用多线程技术,占用IDC机房带

图2爬虫系统示意

图3孤岛的形成

2.2软探针方式

软探针技术主要是通过在各种Web服务器上

做插件,接收和过滤用户的各种get(浏览)和post(发帖)请求,获取网页内容,并能够完成对BBS、基于

Web的聊天室、sP短信等交互发布信息的栏目进行

审计和过滤,并可以实现对上述信息的全量获取;同时可以对获取的信息根据需要进行分类和记录。软探针技术的实现方式如图4所示,其技术主要特点表现为:(1)对指定的敏感词进行过滤;(2)记录BBS、论坛、自写短信等发布的信息;(3)能够对账

号、信息、IP地址进行跟踪追查。通过获取内容的整

2010年5月第5期

万方数据

f技术广角……?…………………

●echno|ogy

IF’anorama

图4软探针实现方式示意

理和汇总,能够对站点发帖规律、站点信息被过滤情况、站点受欢迎程度等通过报表形式体现出来,以及对于同—个用户账号在一段时间内发布的帖子、发送的短信及这些信息的发送时间、发送IP地址等信息进行汇总,对于不同BBS、论坛中的同名帖子进行汇总。

软探针技术的优点主要表现为:(1)通过Web服务器插件方式能够接收和过滤用户的各种get(浏览)和post(发帖)请求;(2)对BBS、基于web的聊天室、SP短信等交互发布信息的栏目进行审计和过滤,可以实现对上述信息的百分之百的过滤控制;(3)便于部署适用于任何操作系统Unix/Linux/Win—dows。其缺点主要表现为:一是Web服务器插件方式进行部署,会对Web主机的性能产生~定影响;二是Web服务器版本多,升级快,稳定性性比较难保障。因此该技术一般只适用于经营虚拟主机业务的接人服务商使用。

2.3旁路技术

旁路技术是能够根据预先制定的策略收集网络链路流量数据。按实现方式可以端口镜像和分光两种,即使用时是通过交换机流量镜像端口还是分光分路设备对链路上所有的数据报文进行处理,提取流量监测所需的协议字段甚至全部报文内容。

端口镜像(PortMonitoring):通过在网络的核心层或汇聚层交换机上设置端口镜像,将交换机上联端口的出流量复制(镜像)一份到指定的前置机上,

即可采集到所有用户访问网络的请求。

目前,绝大部分中高端交换机均支持端

口镜像功能,如CiscoCatalyst序列、3Com

CoreBuilder序列、华为的¥8000序列、

Foundry的BigIron4000/8000序列、Ex—

treme的BD6800/AP3800序列等。

分光器(OpticalSplitter):对于某些节点,宽带接入服务器通过光口GE链路

直接与核心路由器(一般为CiscoGSR)

相连,宽带接入服务器及GSR均不支持

端口镜像,这时采用分光器进行流量采

集是最合适的方法。另外,当某些节点的

核心交换机、汇聚层交换机没有足够的GE端口,不适合采用端口镜像进行流量采集时,希望在出口采集网络流量,就可以采用分光器方式进行流量采集。分光器是一种无源光器件,通过在物理层上进行光复制来进行用户访问请求数据的采集。

旁路技术可以实时对流量数据进行采集记录,经过汇聚和预处理将流量信息发送到后端数据库。通过分析软件可进行实时监视,图表显示分析统计结果或导出报表文件;通过设置流量探针的数据捕获功能还能够利用对网络流量进行实时采集或镜像,用于报文的协议分析。

旁路技术是为流量监测目的专门设计的技术方案,能够做到高速端r丁的限速流量采集,提供对GE甚至2.5GPOS链路的支持。探针采用无源分光器或镜像方式接入网络,不影响原有设备的传输和性能。流量采集过程不需要现网设备的参与,路由器交换机可全力用于路由和转发。旁路技术不依赖于设备本身的流量统计功能,就能够精确记录所有报文的流量信息,还可根据用户要求定制灵活高效的数据采集策略,最终满足用户对流量监测的需求。

数据采集探针的安装很简单。可以用于高速(千兆)的网络而不影响网络性能;数据采集探针适合部署在汇聚层、骨干层或某些网间互连的重要或关键链路。如果价格合理也可以部署在接人层到汇聚层的边缘。由于探针必须放置在物理链路上,因此不同

类型的端口需要不同接口的探针,目前主要端口类万方数据

………………………M瓣㈣舢YoFTEL£洲u㈣

型有FE、GE、OC一3POS/ATM、2.5GPOS等。

探针方法需要部署新的设备,并且一个探针可以同时监测一条或几条链路的流量信息。对于全网流量的监测需要采用分布式方案,在每条链路部署一个探针,再通过后台服务器和数据库,收集所有探针的数据,做全网的流量分析和长期报告。探针的最大特点是能够提供丰富的从物理层到应用层的详细信息。但是硬件探针的监测方式受限于探针的接口速率,一般只针对1000兆以下的速率。而且探针方式重点是单条链路的流量分析,而基于网络设备的监控技术更偏重全网流量的分析,图5为通过旁路方式部署采集网络流量的示例。

旁路监听技术的主要特点为:(1)保证对IDC机房内的设施没有任何影响;(2)不需要对机房的服务器进行任何改动工程实施非常简单;(3)能够对大型的IDC机房进行有效的管理;(4)能够适应机房内的多种操作系统;(5)独特的过滤能力;(6)高效、安全的布控方式和手段。

2。4网关过滤技术

网关过滤技术是指通过独立过滤子系统或内嵌在网关设备内的过滤模块实现对网络内容的分析和过滤。通过网关过滤技术可实行流量管理、防DDOS攻击等其他网络管理功能。其技术特点主要表现为网络控管功能较强,能够对各种协议的访问行为采集,并能够对互联网基础协议的应用级内容进行简单的分析和控制。其缺点主要为,性能对高带宽支持有限,无法实现太多的内容分析功能和开发成本

函5旁路技术部署示意

呈里!Q茎曼旦璺曼旦一万方数据

f技术广角………??……?………?._echtaro!ogy

ps=rlorama

较高,可扩展性较差。

2.5各种技术手段的比较

各种数据采集手段的比较如表1所示:

3网站内容拨测结果分析

3.1网站内容识别类型的要求

对采集到的网站内容,数据分析系统应能够实现对网址、文本内容、图片内容、音频内容和视频内容的自动或人工的识别和处理。具体处理要求如下:(1)网址分析功能应能分析网页中是否存在不良网站(如黑名单网站等)的网址链接。

1(2)文本内容分析功能应能对采集到的网页内容进行分析,发现其中的不良文字内容。文本内容分析功能应能对采集到的网页中的附件文本进行分析,发现其中的不良文字内容。至少可分析处理网页中链接的以下格式文件中的文本内容:,r)(T、RTF、DOC、PDF。附件文本的采集分析功能为可选功能。

(3)图片内容分析功能应能对采集到的网页图片进行识别分析,发现其中的不良图片内容。可分析处理的图片格式应至少包括:JPEG、GIF、PNG、BMP、’11f’f’o

(4)音频内容分析功能应能对采集到的网页音频进行识别分析,发现其中的不良音频内容。可分析处理的音频格式应至少包括:WAV、PCM、萋LAC、MP3、WMA、RA、AAC。

(5)视频内容分析功能应能对采集到的网页视频进行识别分析,发现其中的不良音频内容。可分析处理的视频格式应至少包括:AVI、MPEG、DivX、MOV、WMV、RMVB、ASF、FLV、3GP。

3.2网站类型分类

对采集到的网站相关信息,可通过网站标题关键字匹配方式、网站备案信息比对和网站协议类型等对网站进行分类。通过对网站的分类,获得不同类别网站的数量和数量变化情况,以及网站的点击率、点击率排名,可对互联网行业的发展趋势进行动态分析和预测,为企业的精细化运营提供有力的支撑。

3.2.1关键字匹配

通过网页信息的数据采集,可获得网站的标题信息,通过关键字设定的方式,可将网站分为综合类,新闻类,小说类,旅游类,育儿类等。

3.2.2根据网站备案信息进行分类

表1数据采集技术比较

爬虫软探针旁路方式网关

实现方法网络爬虫是一个自动通过在各种Web服务器上做通过分光或镜像方式在网关设备上实行对网

提取网页的程序,从插件,或网站页面嵌码,接收获得网络数据络内容的分析和过滤;

Internet网上下载网和过滤用户的各种get(浏

页。览)和post(发帖)请求;

能够对文字、图片、视可以实现交互信息的百分之能够实现对所有内容、无法实现太多的内容分网站类型:网站内容抓取频、音频等所有网站百的过滤控制协议的分析处理。析功能

内容进行抓取;匿名

访问方式获取数据

对协议的分析(如VOIP,WAP等)不可以可以可以可以

对网络性能的影响占用tDC机房带宽.会对Web主机的性能产生一基本无影响性能对高带宽支持有限

对IDC机房有一定影定影响

网站点击率的统计无法实现。在一个统计周期内,访问被在一个统计周期内,访在一个统计周期内。访问

统计对象的不重复访问者之问被统计对象的不重被统计对象的不重复的

和。复的源IP地址之和。源IP地址之和

万方数据

万方数据

相关主题
文本预览
相关文档 最新文档