当前位置:文档之家› 网络爬虫外文翻译参考文献

网络爬虫外文翻译参考文献

网络爬虫外文翻译参考文献
网络爬虫外文翻译参考文献

网络爬虫外文翻译参考文献

(文档含英文原文和中文翻译)

译文:

探索搜索引擎爬虫

随着网络难以想象的急剧扩张,从Web中提取知识逐渐成为一种受欢迎的途径。这是由于网络的便利和丰富的信息。通常需要使用基于网络爬行的搜索引擎来找到我们需要的网页。本文描述了搜索引擎的基本工作任务。概述了搜索引擎与网络爬虫之间的联系。

关键词:爬行,集中爬行,网络爬虫

1.导言

在网络上WWW是一种服务,驻留在链接到互联网的电脑上,并允许最终用户访问是用标准的接口软件的计算机中的存储数据。万维网是获取访问网络信息的宇

宙,是人类知识的体现。

搜索引擎是一个计算机程序,它能够从网上搜索并扫描特定的关键字,尤其是商业服务,返回的它们发现的资料清单,抓取搜索引擎数据库的信息主要通过接收想要发表自己作品的作家的清单或者通过“网络爬虫”、“蜘蛛”或“机器人”漫游互联网捕捉他们访问过的页面的相关链接和信息。

网络爬虫是一个能够自动获取万维网的信息程序。网页检索是一个重要的研究课题。爬虫是软件组件,它访问网络中的树结构,按照一定的策略,搜索并收集当地库中检索对象。

本文的其余部分组织如下:第二节中,我们解释了Web爬虫背景细节。在第3节中,我们讨论爬虫的类型,在第4节中我们将介绍网络爬虫的工作原理。在第5节,我们搭建两个网络爬虫的先进技术。在第6节我们讨论如何挑选更有趣的问题。

2.调查网络爬虫

网络爬虫几乎同网络本身一样古老。第一个网络爬虫,马修格雷浏览者,写于1993年春天,大约正好与首次发布的OCSA Mosaic网络同时发布。在最初的两次万维网会议上发表了许多关于网络爬虫的文章。然而,在当时,网络i现在要小到三到四个数量级,所以这些系统没有处理好当今网络中一次爬网固有的缩放问题。

显然,所有常用的搜索引擎使用的爬网程序必须扩展到网络的实质性部分。但是,由于搜索引擎是一项竞争性质的业务,这些抓取的设计并没有公开描述。有两个明显的例外:股沟履带式和网络档案履带式。不幸的是,说明这些文献中的爬虫程序是太简洁以至于能够进行重复。

原谷歌爬虫(在斯坦福大学开发的)组件包括五个功能不同的运行流程。服务器进程读取一个URL出来然后通过履带式转发到多个进程。每个履带进程运行在不同的机器,是单线程的,使用异步I/O采用并行的模式从最多300个网站来抓取数据。爬虫传输下载的页面到一个能进行网页压缩和存储的存储服务器进程。然后这些页面由一个索引进程进行解读,从HTML页面中提取链接并将他们保存到不同的磁盘文件中。一个URL解析器进程读取链接文件,并将相对的网址进行存储,并保存了完整的URL到磁盘文件然后就可以进行读取了。通常情况下,因

为三到四个爬虫程序被使用,所有整个系统需要四到八个完整的系统。

在谷歌将网络爬虫转变为一个商业成果之后,在斯坦福大学仍然在进行这方面的研究。斯坦福Web Base项目组已实施一个高性能的分布式爬虫,具有每秒可以下载50到100个文件的能力。Cho等人又发展了文件更新频率的模型以报告爬行下载集合的增量。

互联网档案馆还利用多台计算机来检索网页。每个爬虫程序被分配到64个站点进行检索,并没有网站被分配到一个以上的爬虫。每个单线程爬虫程序读取到其指定网站网址列表的种子从磁盘到每个站点的队列,然后用异步I/O来从这些队列同时抓取网页。一旦一个页面下载完毕,爬虫提取包含在其中的链接。如果一个链接提到它被包含在页面中的网站,它被添加到适当的站点排队;否则被记录在磁盘。每隔一段时间,合并成一个批处理程序的具体地点的种子设置这些记录“跨网站”的网址,过滤掉进程中的重复项。Web Fountian爬虫程序分享了魔卡托结构的几个特点:它是分布式的,连续,有礼貌,可配置的。不幸的是,写这篇文章,WebFountain是在其发展的早期阶段,并尚未公布其性能数据。

3.搜索引擎基本类型

A.基于爬虫的搜索引擎

基于爬虫的搜索引擎自动创建自己的清单。计算机程序“蜘蛛”建立他们没有通过人的选择。他们不是通过学术分类进行组织,而是通过计算机算法把所有的网页排列出来。这种类型的搜索引擎往往是巨大的,常常能取得了大龄的信息,它允许复杂的搜索范围内搜索以前的搜索的结果,使你能够改进搜索结果。这种类型的搜素引擎包含了网页中所有的链接。所以人们可以通过匹配的单词找到他们想要的网页。

B.人力页面目录

这是通过人类选择建造的,即他们依赖人类创建列表。他们以主题类别和科目类别做网页的分类。人力驱动的目录,永远不会包含他们网页所有链接的。他们是小于大多数搜索引擎的。

C.混合搜索引擎

一种混合搜索引擎以传统的文字为导向,如谷歌搜索引擎,如雅虎目录搜索为基础的搜索引擎,其中每个方案比较操作的元数据集不同,当其元数据的主要资

料来自一个网络爬虫或分类分析所有互联网文字和用户的搜索查询。与此相反,混合搜索引擎可能有一个或多个元数据集,例如,包括来自客户端的网络元数据,将所得的情境模型中的客户端上下文元数据俩认识这两个机构。

4.爬虫的工作原理

网络爬虫是搜索引擎必不可少的组成部分:运行一个网络爬虫是一个极具挑战的任务。有技术和可靠性问题,更重要的是有社会问题。爬虫是最脆弱的应用程序,因为它涉及到交互的几百几千个Web服务器和各种域名服务器,这些都超出了系统的控制。网页检索速度不仅由一个人的自己互联网连接速度有关,同时也受到了要抓取的网站的速度。特别是如果一个是从多个服务器抓取的网站,总爬行时间可以大大减少,如果许多下载是并行完成。虽然有众多的网络爬虫应用程序,他们在核心内容上基本上是相同的。以下是应用程序网络爬虫的工作过程:1)下载网页

2)通过下载的页面解析和检索所有的联系

3)对于每一个环节检索,重复这个过程。

网络爬虫可用于通过对完整的网站的局域网进行抓取。

可以指定一个启动程序爬虫跟随在HTML页中找到所有链接。这通常导致更多的链接,这之后将再次跟随,等等。一个网站可以被视为一个树状结构看,根本是启动程序,在这根的HTML页的所有链接是根子链接。随后循环获得更多的链接。

一个网页服务器提供若干网址清单给爬虫。网络爬虫开始通过解析一个指定的网页,标注该网页指向其他网站页面的超文本链接。然后他们分析这些网页之间新的联系,等等循环。网络爬虫软件不实际移动到各地不同的互联网上的电脑,而是像电脑病毒一样通过智能代理进行。每个爬虫每次大概打开大约300个链接。这是索引网页必须的足够快的速度。一个爬虫互留在一个机器。爬虫只是简单的将HTTP请求的文件发送到互联网的其他机器,就像一个网上浏览器的链接,当用户点击。所有的爬虫事实上是自动化追寻链接的过程。网页检索可视为一个队列处理的项目。当检索器访问一个网页,它提取到其他网页的链接。因此,爬虫置身于这些网址的一个队列的末尾,并继续爬行到下一个页面,然后它从队列前面删除。

A.资源约束

爬行消耗资源:下载页面的带宽,支持私人数据结构存储的内存,来评价和选择网址的CPU,以及存储文本和链接以及其他持久性数据的磁盘存储。

B.机器人协议

机器人文件给出排除一部分的网站被抓取的指令。类似地,一个简单的文本文件可以提供有关的新鲜和出版对象的流行信息。对信息允许抓取工具优化其收集的数据刷新策略以及更换对象的政策。

C.元搜索引擎

一个元搜索引擎是一种没有它自己的网页数据库的搜索引擎。它发出的搜索支持其他搜索引擎所有的数据库,从所有的搜索引擎查询并为用户提供的结果。较少的元搜索可以让您深入到最大,最有用的搜索引擎数据库。他们往往返回最小或免费的搜索引擎和其他免费目录并且通常是小和高度商业化的结果。

5.爬行技术

A:主题爬行

一个通用的网络爬虫根据一个URL的特点设置来收集网页。凡为主题爬虫的设计有一个特定的主题的文件,从而减少了网络流量和下载量。主题爬虫的目标是有选择地寻找相关的网页的主题进行预先定义的设置。指定的主题不使用关键字,但使用示范文件。

不是所有的收集和索引访问的Web文件能够回答所有可能的特殊查询,有一个主题爬虫爬行分析其抓起边界,找到链接,很可能是最适合抓取相关,并避免不相关的区域的Web。

这导致在硬件和网络资源极大地节省,并有助于于保持在最新状态的数据。主题爬虫有三个主要组成部分一个分类器,这能够判断相关网页,决定抓取链接的拓展,过滤器决定过滤器抓取的网页,以确定优先访问中心次序的措施,以及均受量词和过滤器动态重新配置的优先的控制的爬虫。

最关键的评价是衡量主题爬行收获的比例,这是在抓取过程中有多少比例相关网页被采用和不相干的网页是有效地过滤掉,这收获率最高,否则主题爬虫会花很多时间在消除不相关的网页,而且使用一个普通的爬虫可能会更好。

B:分布式检索

检索网络是一个挑战,因为它的成长性和动态性。随着网络规模越来越大,已经称为必须并行处理检索程序,以完成在合理的时间内下载网页。一个单一的检索程序,即使在是用多线程在大型引擎需要获取大量数据的快速上也存在不足。当一个爬虫通过一个单一的物理链接被所有被提取的数据所使用,通过分配多种抓取活动的进程可以帮助建立一个可扩展的易于配置的系统,它具有容错性的系统。拆分负载降低硬件要求,并在同一时间增加整体下载速度和可靠性。每个任务都是在一个完全分布式的方式,也就是说,没有中央协调器的存在。

6、挑战更多“有趣”对象的问题

搜索引擎被认为是一个热门话题,因为它收集用户查询记录。检索程序优先抓取网站根据一些重要的度量,例如相似性(对有引导的查询),返回链接数网页排名或者其他组合/变化最精Najork等。表明,首先考虑广泛优先搜索收集高品质页面,并提出一种网页排名。然而,目前,搜索策略是无法准确选择“最佳”路径,因为他们的认识仅仅是局部的。由于在互联网上可得到的信息数量非常庞大目前不可能实现全面的索引。因此,必须采用剪裁策略。主题爬行和智能检索,是发现相关的特定主题或主题集网页技术。

结论

在本文中,我们得出这样的结论实现完整的网络爬行覆盖是不可能实现,因为受限于整个万维网的巨大规模和资源的可用性。通常是通过一种阈值的设置(网站访问人数,网站上树的水平,与主题等规定),以限制对选定的网站上进行抓取的过程。此信息是在搜索引擎可用于存储/刷新最相关和最新更新的网页,从而提高检索的内容质量,同时减少陈旧的内容和缺页。

原文:

Discussion on Web Crawlers of Search Engine

Abstract-With the precipitous expansion of the Web,extracting knowledge from the Web is becoming gradually important and popular.This is due to the Web?s convenience and richness of information.To find Web pages, one typically uses search engines that are based on the Web crawling framework.This paper describes the basic task performed search engine.Overview of how the Web crawlers are related with search engine.

Keywords Distributed Crawling, Focused Crawling,Web Crawlers

Ⅰ.INTRODUCTION

WWW on the Web is a service that resides on computers that are connected to the Internet and allows end users to access data that is stored on the computers using standard interface software. The World Wide Web is the universe of

network-accessible information,an embodiment of human knowledge.

Search engine is a computer program that searches for particular keywords and returns a list of documents in which they were found,especially a commercial service that scans documents on the Internet. A search engine finds information for its database by accepting listings sent it by authors who want exposure,or by getting the information from their “Web crawlers,””spiders,” or “robots,”programs that roam the Internet storing links to and information about each page they visit.

Web Crawler is a program, which fetches information from the World Wide Web in an automated manner.Web crawling is an important research issue. Crawlers are software components, which visit portions of Web trees, according to certain strategies,and collect retrieved objects in local repositories.

The rest of the paper is organized as: in Section 2 we explain the background details of Web crawlers.In Section 3 we discuss on types of crawler, in Section 4 we will explain the working of Web crawler. In Section 5 we cover the two advanced techniques of Web crawlers. In the Section 6 we discuss the problem of selecting more interesting pages.

Ⅱ.SURVEY OF WEB CRAWLERS

Web crawlers are almost as old as the Web itself.The first crawler,Matthew Gray?s Wanderer, was written in the spring of 1993,roughly coinciding with the first release Mosaic.Several papers about Web crawling were presented at the first two World Wide Web conference.However,at the time, the Web was three to four orders of magnitude smaller than it is today,so those systems did not address the scaling problems inherent in a crawl of today?s Web.

Obviously, all of the popular search engines use crawlers that must scale up to substantial portions of the Web. However, due to the competitive nature of the search engine business, the designs of these crawlers have not been publicly described. There are two notable exceptions:the Goole crawler and the Internet Archive crawler.Unfortunately,the descriptions of these crawlers in the literature are too terse to enable reproducibility.

The original Google crawler (developed at Stanford) consisted of five functional components running in different processes. A URL server process read URLs out of a file and forwarded them to multiple crawler processes.Each crawler process ran on a different machine,was single-threaded,and used asynchronous I/O to fetch data from up to 300 Web servers in parallel. The crawlers transmitted downloaded pages to a single Store Server process, which compressed the pages and stored them to disk.The page were then read back from disk by an indexer process, which extracted links from HTML pages and saved them to a different disk file. A URLs resolver process read the link file, relative the URLs contained there in, and saved the absolute URLs to the disk file that was read by the URL server. Typically,three to four crawler machines were used, so the entire system required between four and eight machines. Research on Web crawling continues at Stanford even after Google has been

transformed into a commercial effort.The Stanford Web Base project has implemented a high performance distributed crawler,capable of downloading 50 to 100 documents per second.Cho and others have also developed models of documents update frequencies to inform the download schedule of incremental crawlers.

The Internet Archive also used multiple machines to crawl the Web.Each crawler process was assigned up to 64 sites to crawl, and no site was assigned to more than one crawler.Each single-threaded crawler process read a list of seed URLs for its assigned sited from disk int per-site queues,and then used asynchronous I/O to fetch pages from these queues in parallel. Once a page was downloaded, the crawler extracted the links contained in it.If a link referred to the site of the page it was contained in, it was added to the appropriate site queue;otherwise it was logged to disk .Periodically, a batch process merged these logged “cross-sit” URLs into the

site--specific seed sets, filtering out duplicates in the process.

The Web Fountain crawler shares several of Mercator?s characteristics:it is distributed,continuous(the authors use the term”incremental”),polite, and configurable.Unfortunately,as of this writing,Web Fountain is in the early stages of its development, and data about its performance is not yet available.

Ⅲ.BASIC TYPESS OF SEARCH ENGINE

A.Crawler Based Search Engines

Crawler based search engines create their listings https://www.doczj.com/doc/7e3707682.html,puter programs …spider? build them not by human selection. They are not organized by subject categories; a computer algorithm ranks all pages. Such kinds of search engines are huge and often retrieve a lot of information -- for complex searches it allows to search within the results of a previous search and enables you to refine search results. These types of search engines contain full text of the Web pages they link to .So one cann find pages by matching words in the pages one wants;

B. Human Powered Directories

These are built by human selection i.e. They depend on humans to create listings. They are organized into subject categories and subjects do classification of

pages.Human powered directories never contain full text of the Web page they link

to .They are smaller than most search engines.

C.Hybrid Search Engine

A hybrid search engine differs from traditional text oriented search engine such as Google or a directory-based search engine such as Yahoo in which each program operates by comparing a set of meta data, the primary corpus being the meta data derived from a Web crawler or taxonomic analysis of all internet text,and a user search query.In contrast, hybrid search engine may use these two bodies of meta data in addition to one or more sets of meta data that can, for example, include situational meta data derived from the client?s network that would model the context awareness of the client.

Ⅳ.WORKING OF A WEB CRAWLER

Web crawlers are an essential component to search engines;running a Web crawler is a challenging task.There are tricky performance and reliability issues and even more importantly, there are social issues. Crawling is the most fragile application since it involves interacting with hundreds of thousands of Web servers and various name servers, which are all beyond the control of the system. Web crawling speed is governed not only by the speed of one?s own Internet connection ,but also by the speed of the sites that are to be crawled.Especially if one is a crawling site from multiple servers, the total crawling time can be significantly reduced,if many downloads are done in parallel.

Despite the numerous applications for Web crawlers,at the core they are all fundamentally the same. Following is the process by which Web crawlers work:

1.Download the Web page.

2.Parse through the downloaded page and retrieve all the links.

3.For each link retrieved,repeat the process.

The Web crawler can be used for crawling through a whole site on the

Inter-/Intranet.

You specify a start-URL and the Crawler follows all links found in that HTML page.This usually leads to more links,which will be followed again, and so on.A site can be seen as a tree-structure,the root is the start-URL;all links in that

外文翻译-基于Android智能家居系统

通信工程学院 毕业设计外文翻译 毕业设计题目基于ANDRIO的智能家居 系统的设计与实现 外文题目UBIQUITOUS SMART HOME SYSTEM USING ANDROID APPLICATION 专业:通信工程 学号: 学生姓名: 指导教师姓名: 指导教师职称:副教授 日期:2015 年 1 月10 日

International Journal of Computer Networks & Communications (IJCNC) V ol.6, No.1, January 2014 基于Android应用的无处不在的智能家居系统 Shiu Kumar Department of Information Electronics Engineering, Mokpo National University, 534-729, Mokpo, South Korea 摘要 本文提出了一种灵活独立的,低成本的智能家居系统,它是基于Android应用与微web服务器通信,不仅仅提供交换功能。Arduino以太网的使用是为了避免使用个人电脑从而保证整个系统成本最低,语音激活时用来实现切换功能的。光开关,电源插头,温度传感器,湿度传感器,电流传感器,入侵检测传感器,烟雾/气体传感器和警报器等这些设备集成在系统中,表明了所提出的智能家居系统的有效性和可行性。经过检测,智能家居应用程序可以成功地进行智能家居操作,例如开关功能,自动环境监测,和入侵监测,在监测到有不法入侵后,系统会自动发送一个邮件,并响警笛。 关键字: Android智能手机,智能家居,物联网(loTs),远程控制 1.引言 随着移动设备受欢迎程度的不断增长和人们日常生活中对无处不在的先进的移动应用的功能需求不断增加,利用Web服务是提供远程访问服务的最开放和可互操作的方式,并且使应用程序能够彼此通信。一个有吸引力的市场产品自动化和网络化是忙碌的家庭和有生理缺陷的个人的代表。 loTs可以被描述为连接智能手机,网络电视,传感器等到互联网,实现人们之间沟通的新形势。过去几年中loTs的发展,创造了一个新层面的世界。这使得人们可以在任何时间,任何地点,联通任何期望的东西。物联网技术可用于为智能家居创建新的概念和广阔的空间,以提供智能,舒适的发展空间和完善生活质量。 智能家居是一个非常有前途的领域,其中有各种好处,如增加提供舒适性,更高安全性,更合理地使用能源和其他资源。这项研究的应用领域非常重要,未来它为帮助和支持有特殊需求老的人和残疾人士提供了强有力的手段。设计一个智能家居系统时需要考虑许多因素,该系统应该是经济实惠的,是可伸缩的,使得新的设备可以容易地集成到系统中,此外,它应该是用户友好的。 随着智能手机用户的急剧增加,智能手机已经逐渐变成了具备所有功能的便携式设备,为人们提供了日常使用。本文介绍了一种低成本的控制和监视家居环境控制的无线智能家居系统。利用Android设备,可以通过一个嵌入式微Web服务器与实际的IP连接,访问和控制电器和远程的其它设备,这可以利用任何支持Android的设备。Arduino Ethernet 用于微Web服务器从

在线考试系统外文翻译

J2EE文献及翻译 1 引言 本文分析了Hibernate和Struts的机制,提出了一种基于Hibernate和Struts 的J2EE应用开发策略。在这种策略中,模型层用Hibernate实现,视图和控制器则用Struts框架实现。这样可大大降低代码的耦合性以及提高系统的开发效率。关键字 Hibernate,Struts,MVC,持久层。 随着Java技术的逐渐成熟与完善,作为建立企业级应用的标准平台,J2EE平台得到了长足的发展。借助于J2EE规范中包含的多项技术:EnterpriseJavaBean(EJB)、Java Servlets(Servlet)、Java Server Pages(JSP)、Java Message Service(JMS)等,开发出了许多应用系统。但是,在传统J2EE应用的开发过程中也出现了一些问题:1)数据模型和逻辑模型之间的矛盾。目前使用的数据库基本上都是关系型数据库,而Java本质上是一种面向对象的语言,对象在存储和读取时使用SQL和JDBC进行数据库操作,降低了编程的效率以及系统的可维护性;2)传统的J2EE应用多采用基于EJB的重量级框架,这种框架适合于开发大型企业应用,但是使用EJB容器进行开发和调试需要耗费大量时间。为了降低代码的耦合性,提高系统的开发效率,本文提出了一种基于Struts框架和Hibernate框架的J2EE应用开发策略。 2 J2EE开源技术介绍 数据持久层及Hibernate,Hibernate是一个数据持久层框架,是一种实现对象和关系之间映射(O/R Mapping)的工具,它对JDBC进行了轻量级的对象封装,使程序员可以使用对象编程思想来操作数据库。它不仅提供了从Java类到数据表的映射,也提供了数据查询和恢复机制。相对于使用JDBC和SQL来操作数据库,使用Hibernate能大大的提高实现的效率。Hibernate框架用配置文件的形式来定义Java对象和数据表之间的映射关系,同时在更深的层面将数据表之间的关系解释为Java对象之间的继承及包含等关系。通过使用HQL语句将复杂的关系算法用

毕设开题报告-及开题报告分析

开题报告如何写 注意点 1.一、对指导教师下达的课题任务的学习与理解 这部分主要是阐述做本课题的重要意义 2.二、阅读文献资料进行调研的综述 这部分就是对课题相关的研究的综述落脚于本课题解决了那些关键问题 3.三、根据任务书的任务及文件调研结果,初步拟定执行实施的方案(含具体进度计划) 这部分重点写具体实现的技术路线方案的具体实施方法和步骤了,具体进度计划只是附在后面的东西不是重点

南京邮电大学通达学院毕业设计(论文)开题报告

文献[5] 基于信息数据分析的微博研究综述[J];研究微博信息数据的分析,在这类研究中,大多数以微博消息传播的三大构件---微博消息、用户、用户关系为研究对象。以微博消息传播和微博成员组织为主要研究内容,目的在于发祥微博中用户、消息传博、热点话题、用户关系网络等的规律。基于微博信息数据分析的研究近年来在国内外都取得了很多成果,掌握了微博中的大量特征。该文献从微博消息传播三大构件的角度,对当前基于信息数据分析的微博研究进行系统梳理,提出微博信息传播三大构件的概念,归纳了此类研究的主要研究内容及方法。 对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。文献[6]综述了聚焦爬虫技术的研究。其中介绍并分析了聚焦爬虫中的关键技术:抓取目标定义与描述,网页分析算法和网页分析策略,并根据网络拓扑、网页数据内容、用户行为等方面将各种网页分析算法做了分类和比较。聚焦爬虫能够克服通用爬虫的不足之处。 文献[7]首先介绍了网络爬虫工作原理,传统网络爬虫的实现过程,并对网络爬虫中使用的关键技术进行了研究,包括网页搜索策略、URL去重算法、网页分析技术、更新策略等。然后针对微博的特点和Ajax技术的实现方法,指出传统网络爬虫的不足,以及信息抓取的技术难点,深入分析了现有的基于Ajax的网络爬虫的最新技术——通过模拟浏览器行为,触发JavaScript事件(如click, onmouseo ver等),解析JavaScript脚本,动态更新网页DOM树,抽取网页中的有效信息。最后,详细论述了面向SNS网络爬虫系统的设计方案,整体构架,以及各功能模块的具体实现。面向微博的网络爬虫系统的实现是以新浪微博作为抓取的目标网站。结合新浪微博网页的特点,通过模拟用户行为,解析JavaSc ript,建立DOM树来获取网页动态信息,并按照一定的规则提取出网页中的URL和有效信息,并将有效信息存入数据库。本系统成功的实现了基于Ajax技术的网页信息的提取。 文献[8]引入网页页面分析技术和主题相关性分析技术,解决各大网站微博相继提供了抓取微博的API,这些API都有访问次数的限制,无法满足获取大量微博数据的要求,同时抓取的数据往往很杂乱的问题。展开基于主题的微博网页爬虫的研究与设计。本文的主要工作有研究分析网页页面分析技术,根据微博页面特点选择微博页面信息获取方法;重点描述基于“剪枝”的广度优先搜索策略的思考以及设计的详细过程,着重解决URL的去重、URL地址集合动态变化等问题;研究分析短文本主题抽取技术以及多关键匹配技术,确定微博主题相关性分析的设计方案;最后设计实现基于主题的微博网页爬虫的原型系统,实时抓取和存储微博数据。本文研究的核心问题是,根据微博数据的特点设计一种基于“剪枝”的广度优先搜索策略,并将其应用到微博爬虫中;同时使用微博页面分析技术使得爬虫不受微博平台API限制,从而让用户尽可能准确地抓取主题相关的微博数据。通过多次反复实验获取原型系统实验结果,将实验结果同基于API微博爬虫和基于网页微博爬虫的抓取效果进行对比分析得出结论:本文提出的爬行策略能够抓取主题相关的微博数据,虽然在效率上有所降低,但在抓取的微博数据具有较好的主题相关性。这实验结果证明本论文研究的实现方案是可行的。 文献[9]阐述了基于ajax的web应用程序的爬虫和用户界面状态改变的动态分析的过程和思路。文献[10]对于全球社交网络Twitter,设计并实现了,一个爬虫系统,从另一个角度阐明了Python在编写爬虫这个方面的强大和快速。仅仅用少量的代码就能实现爬虫系统,并且再强大的社交网站也可

计算机网络安全文献综述

计算机网络安全综述学生姓名:李嘉伟 学号:11209080279 院系:信息工程学院指导教师姓名:夏峰二零一三年十月

[摘要] 随着计算机网络技术的快速发展,网络安全日益成为人们关注的焦点。本文分析了影响网络安全的主要因素及攻击的主要方式,从管理和技术两方面就加强计算机网络安全提出了针对性的建议。 [关键词] 计算机网络;安全;管理;技术;加密;防火墙 一.引言 计算机网络是一个开放和自由的空间,但公开化的网络平台为非法入侵者提供了可乘之机,黑客和反黑客、破坏和反破坏的斗争愈演愈烈,不仅影响了网络稳定运行和用户的正常使用,造成重大经济损失,而且还可能威胁到国家安全。如何更有效地保护重要的信息数据、提高计算机网络的安全性已经成为影响一个国家的政治、经济、军事和人民生活的重大关键问题。本文通过深入分析网络安全面临的挑战及攻击的主要方式,从管理和技术两方面就加强计算机网络安全提出针对性建议。

二.正文 1.影响网络安全的主要因素[1] 计算机网络安全是指“为数据处理系统建立和采取的技术和管理的安全保护,保护计算机硬件、软件数据不因偶然和恶意的原因而遭到破坏、更改和泄漏”。计算机网络所面临的威胁是多方面的,既包括对网络中信息的威胁,也包括对网络中设备的威胁,但归结起来,主要有三点:一是人为的无意失误。如操作员安全配置不当造成系统存在安全漏洞,用户安全意识不强,口令选择不慎,将自己的帐号随意转借他人或与别人共享等都会给网络安全带来威胁。二是人为的恶意攻击。这也是目前计算机网络所面临的最大威胁,比如敌手的攻击和计算机犯罪都属于这种情况,此类攻击又可以分为两种:一种是主动攻击,它以各种方式有选择地破坏信息的有效性和完整性;另一类是被动攻击,它是在不影响网络正常工作的情况下,进行截获、窃取、破译以获得重要机密信息。这两种攻击均可对计算机网络造成极大的危害,并导致机密数据的泄漏。三是网络软件的漏洞和“后门”。任何一款软件都或多或少存在漏洞,这些缺陷和漏洞恰恰就是黑客进行攻击的首选目标。绝大部分网络入侵事件都是因为安全措施不完善,没有及时补上系统漏洞造成的。此外,软件公司的编程人员为便于维护而设置的软件“后门”也是不容忽视的巨大威胁,一旦“后门”洞开,别人就能随意进入系统,后果不堪设想。

网络爬虫外文翻译

外文资料 ABSTRACT Crawling the web is deceptively simple: the basic algorithm is (a)Fetch a page (b) Parse it to extract all linked URLs (c) For all the URLs not seen before, repeat (a)–(c). However, the size of the web (estimated at over 4 billion pages) and its rate of change (estimated at 7% per week) move this plan from a trivial programming exercise to a serious algorithmic and system design challenge. Indeed, these two factors alone imply that for a reasonably fresh and complete crawl of the web, step (a) must be executed about a thousand times per second, and thus the membership test (c) must be done well over ten thousand times per second against a set too large to store in main memory. This requires a distributed architecture, which further complicates the membership test. A crucial way to speed up the test is to cache, that is, to store in main memory a (dynamic) subset of the “seen” URLs. The main goal of this paper is to carefully investigate several URL caching techniques for web crawling. We consider both practical algorithms: random replacement, static cache, LRU, and CLOCK, and theoretical limits: clairvoyant caching and infinite cache. We performed about 1,800 simulations using these algorithms with various cache sizes, using actual log data extracted from a massive 33 day web crawl that issued over one billion HTTP requests. Our main conclusion is that caching is very effective – in our setup, a cache of roughly 50,000 entries can achieve a hit rate of almost 80%. Interestingly, this cache size falls at a critical point: a substantially smaller cache is much less effective while a substantially larger cache brings little additional benefit. We conjecture that such critical points are inherent to our problem and venture an explanation for this phenomenon. 1. INTRODUCTION A recent Pew Foundation study [31] states that “Search eng ines have become an indispensable utility for Internet users” and estimates that as of mid-2002, slightly

计算机网络新技术外文翻译文献

计算机网络新技术外文翻译文献 (文档含中英文对照即英文原文和中文翻译) 译文: 计算机网络新技术 摘要 21世纪是一个信息时代的经济,计算机网络技术是这个时期的代表技术,以非常快的、具创造性得不断地发展,并将深入到人民群众的工作,生活和学习中。因此,控制这种技术看起来似乎具有很重要的意义。现在,我主要是采用新技术的几种网络技术在现实生活的应用。 关键字 因特网数字证书数字银包网格存储 3G

1.前言 互联网满36岁,仍然是一个进展中的工作。36年后在加州大学洛杉矶分校的计算机科学家使用15英尺的灰色电缆连接两台笨重的电脑,测试了一种在网络上新的数据交换的方式,这将最终成为互联网依然是一个在取得进展的工作。 大学的研究人员正在试验如何提高网络容量和速度。编程人员正在设法为网页注入更多的智能。并正在进行重新设计网络以减少垃圾邮件(垃圾邮件)和安全麻烦的工作。 与此同时威胁织机:批评人士警告说,商业,法律和政治压力可能会阻碍一些使互联网发展到今天的创新的类型。 斯蒂芬克罗克和温顿瑟夫属于1969年9月2日研究生加入的加州大学洛杉矶分校斯莱昂兰罗克教授工程实验室的团体,作为位无意义的测试数据两台计算机之间默默流动。到第二年的1月,其他三个“节点”加入到了这个网络。 然后是电子邮箱,几年之后,在七十年代后期一个所谓的核心通信协议即TCP / IP 协议,在80年代域名系统和在1990年万维网-现在的第二个最流行的应用背后电子邮件出现了。互联网的扩大,超出其最初的军事和教育领域延伸到了企业和全球的家庭中。 今天,克罗克仍然为互联网工作,为协作设计更好的工具。作为互联网管理机构的安全委员会主席,他正试图保卫系统的核心处理免受来自外部的威胁。 他认识到,他帮助建立的互联网工作远未完成,而这些改变是在商店,以满足多媒体日益增长的需求。网络供应商现唯一的“最佳努力”是在提供的数据包上。克罗克说,需要有更好的保障,以防止跳过和过滤现在常见的视频。 瑟夫,现在在MCI公司说,他希望他建立了有内置安全的互联网。微软,雅虎和美国在线公司,和其他的一些,目前正在努力改进网络,使邮件发送者可以验证的方式发送以降低使用虚假地址发送垃圾邮件。 瑟夫说,现在正在制定许多功能,是不可能立即解决计算速度慢和互联网管道窄,或

在线考试系统翻译

河北理工大学轻工学院 COLLEGE OF LIGHT INDUSTRY, HEBEI POLYTECHNIC UNIVERSITY 本科毕业设计 资料翻译(汉译英) 论文题目:在线考试系统 学生姓名: 学号: 专业班级: 学部: 指导教师: 2013年05月25日

摘要 系统采用https://www.doczj.com/doc/7e3707682.html,和SQL Server 2008数据库,开发了基于B/S三层体系结构的C#在线考试系统。第一层客户层,该层是位于客户端的Web浏览器,用户由Web浏览器访问Web服务器, 在客户端的Web浏览器上显示所需要的主页。第二层应用层,是具有应用程序扩展功能的Web服务器。该层的任务是接受用户的请求,执行相应的程序与数据库的连接,通过SQL方式向数据库提出数据处理请求,等待数据库服务器将数据处理的结果提交给Web服务器,再由Web服务器传回客户端。第三层数据库层,就是数据库服务器。它的任务是接受Web服务器对数据库操纵的请求,实现对数据库查询,修改,更新等功能,把运行结果交给Web服务器。 系统分为三大模块:系统管理模块、用户注册模块和考试模块。其中系统管理模块是进行用户、试题、试卷等的添加、修改和删除,是系统运行的基础;用户注册模块实现了学生用户的注册,学生注册后才有资格参加考试;考试模块是客户端用户通过自己的账号以及密码登陆系统,进入界面时由系统按照管理员预先设置好的试卷结构从题库中随机抽取适合的题目,形成试卷。 系统对提高了教学质量,改进了学生的考核手段,实现了由传统考试方式向网络无纸化考试方式的转变。 关键字https://www.doczj.com/doc/7e3707682.html,;考试;组卷; SQL Server 2008

网络安全外文翻译文献

网络安全外文翻译文献 (文档含英文原文和中文翻译) 翻译: 计算机网络安全与防范 1.1引言 计算机技术的飞速发展提供了一定的技术保障,这意味着计算机应用已经渗透到社会的各个领域。在同一时间,巨大的进步和网络技术的普及,社会带来了巨大的经济利润。然而,在破坏和攻击计算机信息系统的方法已经改变了很多的网络环境下,网络安全问题逐渐成为计算机安全的主流。

1.2网络安全 1.2.1计算机网络安全的概念和特点 计算机网络的安全性被认为是一个综合性的课题,由不同的人,包括计算机科学、网络技术、通讯技术、信息安全技术、应用数学、信息理论组成。作为一个系统性的概念,网络的安全性由物理安全、软件安全、信息安全和流通安全组成。从本质上讲,网络安全是指互联网信息安全。一般来说,安全性、集成性、可用性、可控性是关系到网络信息的相关理论和技术,属于计算机网络安全的研究领域。相反,狭隘“网络信息安全”是指网络安全,这是指保护信息秘密和集成,使用窃听、伪装、欺骗和篡夺系统的安全性漏洞等手段,避免非法活动的相关信息的安全性。总之,我们可以保护用户利益和验证用户的隐私。 计算机网络安全有保密性、完整性、真实性、可靠性、可用性、非抵赖性和可控性的特点。 隐私是指网络信息不会被泄露给非授权用户、实体或程序,但是授权的用户除外,例如,电子邮件仅仅是由收件人打开,其他任何人都不允许私自这样做。隐私通过网络信息传输时,需要得到安全保证。积极的解决方案可能会加密管理信息。虽然可以拦截,但它只是没有任何重要意义的乱码。 完整性是指网络信息可以保持不被修改、破坏,并在存储和传输过程中丢失。诚信保证网络的真实性,这意味着如果信息是由第三方或未经授权的人检查,内容仍然是真实的和没有被改变的。因此保持完整性是信息安全的基本要求。 可靠性信息的真实性主要是确认信息所有者和发件人的身份。 可靠性表明该系统能够在规定的时间和条件下完成相关的功能。这是所有的网络信息系统的建立和运作的基本目标。 可用性表明网络信息可被授权实体访问,并根据自己的需求使用。 不可抵赖性要求所有参加者不能否认或推翻成品的操作和在信息传输过程中的承诺。

智能电网构架毕业论文中英文翻译文献

中英文资料外文翻译文献 场域网络的标准化和灵活的IPv6架构最后一英里的智能电网构架本文旨在为智能电网的最后一英里的基于开放标准IPv6的基础设施提供一个综合和全面的视角,用于支持一系列先进的应用程序(如读表,需求响应,遥测,遥信和电网监控和自动化),同时作为多服务平台也从中受益。在本文中,我们将展示IPv6网络基础设施的各种模块如何提供一个高效,灵活,安全和多业务的基于开放标准的网络。 为了讨论电业在转型过程中需要处理的一些问题例如遗留的老设备,网络和应用程序集成,在过渡期推出的混合网络结构的操作,随后的文件会有更进一步的阐述。 1.介绍 在过去几年,由于在智能电网基础设施的突出作用,最后一英里网络已经获得了相当大的发展势头。这些网络在本文件称为邻区网络(NAN),他们支持一系列应用不仅包括用电计量和管理,而且包括需求响应(DR)和配电自动化(DA)应用高级应用;需求响应应用为用户提供机会可以基于实时电价信息而优化其能源使用;配电自动化(DA)应用它允许分布的监测和控制,自动故障检测, 1

隔离和管理,并作为未来的虚拟电厂,其中包括分布式发电,住宅能源存储(例如,电动汽车(EV)充电),以及小规模的社区电力交易。 场区网络(FAN)((NAN和具有回程广域网接口的通讯设备的组合)已经成为一个智能电网的网络基础设施的核心组成部分。事实上,他们作为回程网络可以为各种其他电网控制设备提供服务;例如多租户服务(煤气表和水表),家庭局域网(HAN)设备的数据交换服务,这些都通过各种无线连接或有线线路连接的技术。这就形成了对部署的IP协议套件的需求,并使的公开标准的使用提供了可靠性,可扩展性,安全性,跨网络和灵活性,从而能为应付数量快速增长的电网配电网络的关键应用提供支持。 IP也使得领区网络(NAN)容易整合到到端到端的网络架构。 通过场区网络正在运行的应用程序之一是抄表,每个电表定期把使用数据发向一个事业单位端点的应用服务器。因此,在一个多点到单点(MP2P)模式中,大部分电表的流量是从电表网络到事业单位网络的。随着需求响应,分布式能源资源整合和电动汽车充电等应用程序的出现和扩散,预计整个场区网络的数据流量将大幅增加,交通模式和双向通信的需求会变得复杂得多。特别是场区网络将支持一些利用网络服务来支持一些使用: ●单个仪表通讯:按需抄表,实时警报报告,把某个位置的电表关闭都需要NMS/前端点的点对点 (P2P)的通信电表,反之亦然。 ●DA设备之间的通信。 DA设备的子集需要彼此沟通,以管理和控制在某一特定地区的电网运行, 包括在某些情况下点到点之间的相互沟通需要灵活运用。 ●HAN应用:HAN应用程序需要同过单个电表作为应用程序的服务器来实现家电和公用事业头端的 沟通。例如,用户可以激活直接负荷控制(DLC),授权公用事业公司在电力高峰和/或电价高时远程关闭某些家电(例如,A / C,洗衣机/干衣机)。 ●电动车充电:用户不在家时,需要能够进入各自的车辆充电帐户信息查看。这是为了当他们在 路上或走亲访友时能够给车充电。验证用户帐户信息将需要通过电表到公用事业头端服务器来实现通讯,以实现在动态位置时同时对大量的移动车辆充电。 ●多租户服务:把在客户端的信息合并,并在另一端区分几个服务信息以形成一个复杂的多点对 多点网络(MP2MP)。例如,这可能是一个连接多个公用事业设备融合的网络,比如开放的表计系统里所提到的英国国家电信运营商DCC或德国通信盒。 ●安全性:强大的身份验证机制用于验证设备连接到先进计量基础设施(AMI)网络以及加密数据 对隐私和网络保护。 ●网络管理:由于FAN网络承载越来越多的流量,并有严格的服务等级目标(SLO),所以监控和 维护网络的健康和性能,管理网络相关的数据就变得至关重要。这将要求电网状态和通讯统计的通讯,从仪表到通信表计网络管理系统(NMS)/首末端都是MP2P方式。 ●组播服务:一组仪表可能需要同时使用多播,如由一个网络管理系统(NMS)使用多播请求使软 件或参数升级,或对所有的仪表和各种子集仪表发送多播请求。 2.网络协议的关键优势 一个端到端的IP智能电网架构可以影响30年互联网协议技术的发展而保证开放标准和互操作性是通过互联网的日常使用和其20亿最终用户证明。 注意:使用互联网协议套件并不意味着运行IP的基础设施是已被公开或公开访问的网络,的确许多现有的关键的私营和高度安全的网络,如银行内部网络IP架构,军事和防御网络,公共安全和应急

在线考试系统中文翻译

西班牙全国大学入学考试中在线语言考试的实 PAULEX UNIVERSITAS项目 作者:安娜吉梅诺 - 桑斯*&何塞马卡里奥德斯奎拉CAMILLE研究小组,应用语言学系,瓦伦西亚理工大学,卡米诺维拉14,46022 摘要 本文详细介绍了PAULEX UNIVERSITAS项目,一个在线系统,用来设计、发表和评估西班牙大学入学考试中的一个必要部分即国外语言考试。外语考试对想要接受高等教育的所有学生都是强制性的。学生们可以选择下面语言之一考试:英语,法语,德语,意大利语或葡萄牙语。每年,大约有27000名学生同时在巴伦西亚自治区(包括3个省:阿利坎特,卡斯特利翁和瓦伦西亚)参加考试,并且25000多名学生选择英语考试。本文参照当前西班牙形势政策的变化,介绍此次大学入学考试的背景,包括来自平台阐述,以及关于系统管理工具,数据安全性和用户交互问题的讨论。论文通过呈现200多名学生在瓦伦西亚进行试验得出的一些结果,并通过处理有关PAULEX在线考试区域平台的实施所遇到的一些问题,进而得出结论。 1 介绍 2008年12月西班牙教育部颁布了一项新的法律来规范国家大学入学考试。这项新的法律规定:基于阅读理解题和写作的传统英语考试,现在应该包括对听力理解和口语技能的测试。这恰巧与提交给西班牙科学和创新部的一个项目建议书目标一致,就是要设计一个网络平台正式发表高考外语考试。以CAMILLE研发组在瓦伦西亚理工大学开展的前期研究即INGENIO创作工具和传送环境(吉梅诺2008A和2008B )为起点,小组成员着手设计了一个完整的网上平台,包括设计外语考试,网上发表,评估所有考试,提供考试成绩给当地学校。该三年期项目从2007年9月运行至2010年底。 2 PAULEX UNIVERSITAS 该PAULEX在线考试传送平台是由一个位于大学核心信息和通信系统单元内

简析网络语言的文献综述

浅析网络语言的文献综述 摘要 语言是一种文化,一个民族要有文化前途,靠的是创新。从这个意义上说,新词语用过了些并不可怕,如果语言僵化,词汇贫乏,那才是真正的可悲。语汇系统如果只有基本词,永远稳稳当当,语言就没有生命力可言,因此,在规定一定的规范的同时,要允许歧疑的存在,但更要积极吸收那些脱离当时的规范而能促进语言的丰富和发展的成分。正确看待网络语言。 关键字 网络语言;因素;发展趋势; 一、关于“网络语言”涵义及现状的研究 1.网络语言的涵义研究 网络语言是一个有着多种理解的概念,既可以指称网络特有的言语表达方式,也可以指网络中使用的自然语言,还可以把网络中使用的所有符号全部包括在内。网络语言起初多指网络语言的研究现状(网络的计算机语言,又指网络上使用的有自己特点的自然语言。于根元,2001)。 较早开展网络语言研究的劲松、麒可(2000)认为,广义的网络语言是与网络时代、e时代出现的与网络和电子技术有关的“另类语言”;狭义的网络语言指自称网民、特称网虫的语言。 周洪波(2001)则认为,网络语言是指人们在网络交流中所使用的语言形式,大体上可分为三类:一是与网络有关的专业术语;二是与网络有关的特别用语;三是网民在聊天室和BBS上的常用词语。 于根元(2003)指出,“网络语言”本身也是一个网络用语。起初多指网络的计算机语言,也指网络上使用的有自己特点的自然语言。现在一般指后者。狭义的网络语言指论坛和聊天室的具有特点的用语。 何洪峰(2003)进一步指出,网络语言是指媒体所使用的语言,其基本词汇及语法结构形式还是全民使用的现代汉语,这是它的主体形式;二是指IT领域的专业用语,或是指与电子计算机联网或网络活动相关的名词术语;其三,狭义上是指网民所创造的一些特殊的信息符号。总的看来,研究者基本认为网络语言有广义、狭义两种含义,广义的网络语言主要指与网络有关的专业术语,狭义的网络语言主要指在聊天室和BBS上常用的词语和符号。 2. 网络语言的研究现状 如:国人大常委会委员原国家教委副主任柳斌表示,网络语言的混乱,是对汉语纯洁性的破坏,语言文字工作者应对此类现象加以引导和批评。国家网络工程委会副秘书史自文表示,老师要引导学生使用网络语言。比如说在写出作文的时候,可以针对彩简单的网络语言还是用含义更有韵味的唐诗更好做一个主题研讨会,和学生一起探讨。这样就可以在理解、尊重学生的基础上进行引导。经过这样的过程,学生对于用何种语言形式多了一个选择,又加深了对传统文化的理解。 如:北京教科院基教所研究员王晓春表示,在网络世界里用网络语言无可厚非。但在正式场合要引导学生不使用网络语言。在教学中老师要引导学生如何正

网络安全中的中英对照

网络安全中的中英对照 Access Control List(ACL)访问控制列表 access token 访问令牌 account lockout 帐号封锁 account policies 记帐策略 accounts 帐号 adapter 适配器 adaptive speed leveling 自适应速率等级调整 Address Resolution Protocol(ARP) 地址解析协议Administrator account 管理员帐号 ARPANET 阿帕网(internet的前身) algorithm 算法 alias 别名 allocation 分配、定位 alias 小应用程序 allocation layer 应用层 API 应用程序编程接口 anlpasswd 一种与Passwd+相似的代理密码检查器 applications 应用程序 ATM 异步传递模式

audio policy 审记策略 auditing 审记、监察 back-end 后端 borde 边界 borde gateway 边界网关 breakabie 可破密的 breach 攻破、违反 cipher 密码 ciphertext 密文 CAlass A domain A类域 CAlass B domain B类域 CAlass C domain C类域 classless addressing 无类地址分配 cleartext 明文 CSNW Netware客户服务 client 客户,客户机 client/server 客户机/服务器 code 代码 COM port COM口(通信端口) CIX 服务提供者 computer name 计算机名

搜索引擎爬虫外文翻译文献

搜索引擎爬虫外文翻译文献 (文档含中英文对照即英文原文和中文翻译) 译文: 探索搜索引擎爬虫 随着网络难以想象的急剧扩张,从Web中提取知识逐渐成为一种受欢迎的途径。这是由于网络的便利和丰富的信息。通常需要使用基于网络爬行的搜索引擎来找到我们需要的网页。本文描述了搜索引擎的基本工作任务。概述了搜索引擎与网络爬虫之间的联系。 关键词:爬行,集中爬行,网络爬虫 1.导言 在网络上WWW是一种服务,驻留在链接到互联网的电脑上,并允许最终用户访问是用标准的接口软件的计算机中的存储数据。万维网是获取访问网络信息的宇

宙,是人类知识的体现。 搜索引擎是一个计算机程序,它能够从网上搜索并扫描特定的关键字,尤其是商业服务,返回的它们发现的资料清单,抓取搜索引擎数据库的信息主要通过接收想要发表自己作品的作家的清单或者通过“网络爬虫”、“蜘蛛”或“机器人”漫游互联网捕捉他们访问过的页面的相关链接和信息。 网络爬虫是一个能够自动获取万维网的信息程序。网页检索是一个重要的研究课题。爬虫是软件组件,它访问网络中的树结构,按照一定的策略,搜索并收集当地库中检索对象。 本文的其余部分组织如下:第二节中,我们解释了Web爬虫背景细节。在第3节中,我们讨论爬虫的类型,在第4节中我们将介绍网络爬虫的工作原理。在第5节,我们搭建两个网络爬虫的先进技术。在第6节我们讨论如何挑选更有趣的问题。 2.调查网络爬虫 网络爬虫几乎同网络本身一样古老。第一个网络爬虫,马修格雷浏览者,写于1993年春天,大约正好与首次发布的OCSA Mosaic网络同时发布。在最初的两次万维网会议上发表了许多关于网络爬虫的文章。然而,在当时,网络i现在要小到三到四个数量级,所以这些系统没有处理好当今网络中一次爬网固有的缩放问题。 显然,所有常用的搜索引擎使用的爬网程序必须扩展到网络的实质性部分。但是,由于搜索引擎是一项竞争性质的业务,这些抓取的设计并没有公开描述。有两个明显的例外:股沟履带式和网络档案履带式。不幸的是,说明这些文献中的爬虫程序是太简洁以至于能够进行重复。 原谷歌爬虫(在斯坦福大学开发的)组件包括五个功能不同的运行流程。服务器进程读取一个URL出来然后通过履带式转发到多个进程。每个履带进程运行在不同的机器,是单线程的,使用异步I/O采用并行的模式从最多300个网站来抓取数据。爬虫传输下载的页面到一个能进行网页压缩和存储的存储服务器进程。然后这些页面由一个索引进程进行解读,从HTML页面中提取链接并将他们保存到不同的磁盘文件中。一个URL解析器进程读取链接文件,并将相对的网址进行存储,并保存了完整的URL到磁盘文件然后就可以进行读取了。通常情况下,因

在线考试系统文献综述

本科毕业设计(论文) —文献综述 在线考试系统—考试模块和维护模块的设计 摘要 随着计算机技术和网络技术的发展,基于Web的在线考试系统可以发挥网络的优势,其自动评阅、计分、成绩存档的功能,有效地避免了人力和物力资源的浪费,提高了效率,相比于传统的考试方式,基于Web的在线考试系统一方面可以动态地管理各种考试信息,按照要求自动生成各种试卷;另一方面,考试可以不受时空限制,而且最大的特点是阅卷快,系统可以在考试结束时当场准确而又公平地给出客观题考试成绩。 基于Web的在线考试系统可以发挥网络的优势,建立大型、高效、共享的题库和实现随时随地的考试,降低考试成本,减少人为干扰,减轻教师负担,节约人力、物力和财力。 本文从分析在线考试系统的发展趋势出发,针对教师及学生的需求进行了具体分析,分别研究管理员维护系统及考生考试系统,给出了系统的功能结构。采用B/S结构模式,设计了管理员维护系统、考生考试系统等功能,提高了考试管理的质量,改进了学生考核手段,取消了课程考核对时间和地点的限制性要求。 关键词管理员维护系统,考生考试系统,B/S模式,ASP技术 1前言 考试是教学过程中的一个重要环节,通过考试,教师可以了解学生的学习效果,为

改进教学提供依据;学生则通过考试了解自己对内容的掌握情况,增强学习兴趣。传统的考试方式往往使人们受到地域、时间、场所等各种各样的限制,造成有些人的不便。在网络遍布的今天,将考试系统应用在互联网上是现代考试系统的发展趋势。 随着计算机技术和互联网的快速发展,人类已经进入了信息时代,也有人称为数字化时代。在数字化的网络环境下,学生希望得到个性化的满足,根据自己的情况进行学习,同时也希望能够得到科学的评价,老师希望有效改进现有的考试模式,提高考试的效率;教育机构也希望给网上的学生提供更全面、灵活的服务,全面准确地对学生进行跟踪和评论。在线考试系统正是迎合这一时代需求而开发的,它旨在探索一种以互联网为基础的考试模式。通过这种新的模式,为学校创造一种新的考试环境,提高考试工作效率和标准化水平,使学校管理者、教师和学生可以随时随地通过网络进行考试。 在线考试系统提高了考试的可靠性、有效性和工作效率,降低了考试成本,顺应了社会的网络化趋势,必将成为一种不可或缺的考试方式。本文研究的目的是开发一个易于管理和维护的面向教学的考试系统,具有一定的通用性,能够满足多门课程的测试与考核要求。为教师开展平时考核及期末考核提供一个考核平台。 为了满足系统对先进性、安全性、跨平台性、可扩展性、可移植性、分布式等方面的要求,系统总体架构设计采用先进的基于B/S的三层体系结构:用户层、业务逻辑层、数据库层。要求建立后台数据库,内含一个试题样库,教师可以在题库中添加、编辑和删除试题;教师可以增加新的考试科目;可以充分利用题库中的试题由系统随机组卷,并能在指定时间内发布试卷;学生参加完考试能立即得到答案,并分析考试中答错的题目;教师能得到学生考试后传送到系统的反馈信息,可方便的对成绩进行查询和分析,同时对学生考试中出现的错误进行统计以便今后的教学。此外,还应具有良好的用户界面,操作方便,尽量减少误操作率,具有安全保密机制。 2 管理员维护/考生考试系统概述 在网络技术逐渐渗入社会生活各个层面的今天[1],随着科学技术的不断发展,考试的手段和媒介也在发生着革命性的变化,从传统的纸笔考试到计算机辅助考试,其实现方法由单机形式逐步向不同时间、不同地点的网络考试方式发展,基于网络的计算机辅助考试系统以其特有的优势在教育中扮演着十分重要的角色[2]。 在线考试系统是传统考试和考场的延伸,它可以利用网络的无限广阔空间,满足广大学生在不同时间和不同地点利用网络进行考试[3]。借助于数据库技术应用平台,使得

智能家居外文翻译文献

智能家居外文翻译文献 (文档含中英文对照即英文原文和中文翻译) 译文: 提高个人的生活质量,通过他们的智能家居 该项目的假设是:可以增加一个人的生活质量的“智能技术”集成到他们的家庭环境。这个假设是非常广泛的,因此,研究人员将调查它考虑到多方面的,潜在的过度研磨,分节的人口。特别是,该项目将重点放在与卫生保健需求的环节,因为它认为,这些子章节将获得最大的受益于这种增强的方法住房。两个研究问题流从这一假说:什么是保健,可以改善通过“智能住宅”的问题,什么是技术问题需要解决,让“智能住宅”建造?虽然存在少量的措施,在加拿大境外,据称这方面的调查,没有这方面的全球视野。工作往往是在小范围内的各个部分是如何有助于实现更大的目标只有有限的想法。这个项目有一

个非常强烈的责任感,并认为,如果没有这一全球性的方向,其他措施将失败,以解决各部分的重要问题,而且正确的全局方向的总和的部分会产生更大的回报比的各个组成部分。这个新的领域与业务流程工程领域,有许多相似之处,很多产品失败的原因只考虑一个子集的问题,通常是技术的子集。成功的项目和实施才开始启动,当人们开始认识到,一个全面的方法是至关重要的。这种整体性的要求也适用于领域的“聪明屋”,如果我们真的希望它有利益于社区,而不仅仅是技术的兴趣。话虽如此,下面列出的大部分工作是非常重要的,在其个人的主题包含了大量新奇的。 医疗保健和保障性住房: 至目前为止,很少有人协调,研究如何“聪明屋”的技术可以帮助体弱的老人留在家里,或降低成本所经历的非正式照顾者。因此,建议研究的目的是确定帮助老年人保持自己的独立性和帮助照顾者维持他们的爱心活动中的各种住宅技术的实用性。 整体设计的研究是集中在两个群体的老年人。首先是老人出院急性护理环境的潜在能力下降,保持独立。一个例子是有髋关节置换手术的老年人。本集团可能会受益于技术,这将有助于他们成为适应他们的行动不便。第二个是老年人有慢性健康问题,如老年痴呆症和接受援助的非正式护理员的生活在距离。关心的高级生活的距离是非正式照顾者在照顾者的职业倦怠的高风险。监测的关心,高级健康和安全是通过这样照顾者的重要任务之一。如地面传感器和访问控制来确保安全的入侵者或指示私奔与老年痴呆症的高级设备,可以减少护理

在线考试系统文献综述

中文摘要:随着网络技术的日益成熟,网络已经深入到生活的每一个角落,包括教育、购物、咨询、办公等等许多领域。在网络迅速发展的今天,网页技术的应用也越来越广泛。网页技术的应用对于教育行业来说优势更加的明显。教育行业可以通过网络进行学生和教职工的管理、组织学生在线考试、在网站上发布学校相关信息等活动。这样不仅能增加学校管理的透明度,还提高了学校的管理水平。在线考试还能充分的利用学校的现有资源,大大减轻教师的工作量,把老师从出卷、阅卷等一些繁重中做中解脱出来。 本文重点论述了由于网络的存在扩大了学校的服务范围,为学校的管理提供了更多的条件。对此做出了详细的调查,可行性研究和分析。系统采用了B/S结构,在网络上建立学校自己的教育网站。系统开发经历了系统分析、系统设计和系统实施三个阶段。从设计方案的提出,经过详细的调查,分析了方案的可行性和必要性,通过详细的系统设计,力图提高系统的集成性和快捷性;并在系统实施阶段收集了大量的实验数据,以便测试阶段系统的准确性和稳定性。 系统整体是基于浏览器/服务器,前台应用JSP技术,后台采用SQL Server2000作为数据库与前台连接。 关键词:网络教育在线考试 B/S结构 JSP技术 Abstract With the increasingly sophisticated network technologies, the network had penetrated every corner of life, including education, shopping, advice, office and so many fields. Today, the rapid development of the network, the application of web technology more and more widely. Web technology advantage for the education industry is more evident. Education sector through a

相关主题
文本预览
相关文档 最新文档