当前位置:文档之家› 计算机信息检索02139自考资料全

计算机信息检索02139自考资料全

计算机信息检索02139自考资料全
计算机信息检索02139自考资料全

第一章信息检索概述

1.信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。

2.根据检索手段的不同,信息检索可以分为手工检索、光盘检索、联机检索和网络检索。

3.信息检索的基本原理

通过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。

4.信息检索语言

信息检索语言是人们在加工、存储和检索信息时用来描述信息容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。

5.五个信息检索阶段:手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索,后三

者统称为计算机信息检索。

6.与手工检索相比,计算机信息检索的特点表现在:

(1)速度快、效率高,仅几分钟就可以从成千上万条记录中找到所需信息;

(2)检索围广,可以迅速而方便地浏览相关学科或主题的所有数据库中的记录,在网

络中,几乎每一台个人计算机都可以成为信息源;

(3)检索不受时空的限制,只要拥有相应的软件和硬件设备,就可以在任何地方借助

光盘和通信网络查询所需信息。

7.信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和

抽象,表述为某种数学公式,再经过演绎、推断、解释和实际校验,反过来指导信息检索实践。

信息检索的三个经典模型是:布尔模型、向量空间模型和概率模型。

8.信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。

9.信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。

10.数据库由字段、记录和文档构成。

11.根据载体的不同,数据库可分为:联机数据库、光盘数据库和网络数据库三种。

12.信息检索系统评价的核心是检索性能评价。

13.检索性能评价:根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一

步完善检索工作的过程。

评价检索效果的最主要的指标:查全率和查准率。

14.查全率

查全率是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。

15.查准率

查准率是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。

第二章网络信息检索的方法与技术

1.布尔逻辑检索的主要运算符

布尔逻辑检索的主要运算符有:逻辑与(“AND”)、逻辑或(“OR”)、逻辑非(“NOT”)。

它们分别代表的含义是:(1)逻辑“与”。表示检索结果中必须包含所有的检索词;(2)逻辑“或”。表示检索结果中只要包含任何一个检索词即可;(3)逻辑非。表示检索结果中一定不能出现“NOT”后面的检索词。

2.邻近检索

邻近检索是用一些特定的算符来表达检索词与检索词之间的顺序和词间距的检索。

3.短语检索:短语用“”表示,检索出与“”形式完全相同的短语,以提高检索的精度和准确度,

因而也有人称之为“精确检索”

4.截词检索

是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符一般用“?”或“*”表示,但不同的数据库中有所差别。

常用的截词检索方法有前截词、中间截词和后截词。

5.在信息检索过程中,为了提高查全率或查准率,需要将检索围限制在特定的字段中,即字段限制检

索。

6.模糊检索:模糊检索是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、

下位词进行检索,以达到扩大检索围、避免漏检的目的。

word版本.

7.信息检索的主要技术有:

(1)全文检索技术;(2)多媒体信息检索技术;(3)超文本及超媒体检索技术;(4)智能信息检索技术;(5)可视化信息检索技术;(6)跨语言信息检索技术;(7)文本聚类技术。

(8)智能信息检索的最大特点是在检索过程中引入了资源对象的语义处理。

8.检索策略

检索策略是为实现检索目标而制订的全盘计划或方案,是就一个问题检索一个或多个数据库所输入的全部检索式的集合。

9.信息检索的一般步骤(主要流程):

(1)分析信息需求。即要确切了解所要查询的目的和要求,确定检索问题的关键词、涉及学科、信息类型、查询方式、查询围、查询时间等。

(2)选择合适的检索工具。选择合适的检索工具主要从检索工具的类型、收录围、检索问题的类型、检索具体要求等方面综合考虑。

(3)确定检索点与关键词。应尽量选专指词、特定概念或专业术语,避免冷僻词汇和太泛的词。

(4)正确构造检索式。利用搜索工具支持的检索运算、允许使用的检索标识和各种限定,正确构建检索式。

(5)及时调整检索策略。当检索结果为零或检索结果太少,需要扩大检索围;检索时如果得到太多的检索结果,或检索结果不相关,需要缩小检索围。

(6)检索结果的输出。

第三章搜索引擎

1.搜索引擎是一种基于Web上应用的软件系统,它以一定的策略在Web上搜索和发现信息,在对信息

进行处理和组织后,为用户提供web信息查询服务。

搜索引擎有三个功能模块:网页搜集;预处理;查询服务。

2.搜索引擎的工作原理:

搜索引擎的三个功能模块形成了搜索引擎工作的三个阶段。

(1)网页搜集。系统在一定时间定向向派出“蜘蛛”程序,扫描的所有网页并将相关信息存入数据库。

(2)预处理。主要包括关键词的提取;重复网页或网页的消除;分析;网页重要程度的计算。

(3)查询服务。搜索引擎接受用户提交的查询请求后,按照用户的要求检索索引数据库,找到用户所需要的资源,并返回给用户,列表显示摘要结果。

3.按信息容的组织方式,搜索引擎可划分为目录式搜索引擎和机器人搜索引擎。

(1)目录式搜索引擎。是以人工方式或半自动方式搜集信息,由搜索引擎的编辑员查看信息之后,依据一定的标准对网络资源进行选择、评价、人工形成信息摘要,并将信息置于事先确定的分类框架中而形成的主题目录。

(2)机器人搜索引擎。是由一个被称作“蜘蛛”的计算机程序依据一定的网络协议以某种策略自动在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。

4.Yahoo是目前最流行的目录式搜索引擎,提供主题目录检索。

5.按专业畴划分,可将搜索引擎划分为综合性搜索引擎和专业性搜索引擎。综合性搜索引擎容涵盖各

个学科和生产生活的各个领域,可检索图片、音频、视频等多种资源类型,适用对象广泛。

6.常用的综合性搜索引擎包括哪些,专业性搜索引擎包括哪些

7.按检索功能划分,可将搜索引擎划分为独立搜索引擎和元搜索引擎。元搜索引擎是多个独立搜索引

擎的集合,通过一个统一的用户界面,可同时对多个搜索引擎进行检索操作。

8.调查显示,截止2009年6月底,中国网民人数已达3.38亿。其中约2.35亿网民使用过搜索引擎,

中国网民用得最多的搜索引擎是百度。在全球围,2009年7月,搜索引擎用户已达1137亿次,其

中Google市场份额最高。

9.综合性搜索引擎的评价指标主要有:

(1)收录围。即搜索引擎收录的围是否完备充分。(2)分类。即搜索引擎的分类是否科学合理,分类的广度与深度是否合适。(3)检索功能与效果。检索手段是否完善,检索效果是否好。(4)对检索结果的处理。结果的排序方式是否多样、是否有去重功能、能否按照用户反馈动态调整和显示检索结果。(5)页面组织。页面组织是否清晰、类目设置是否合理、界面是否友好。(6)其他功能与服务。能否满足用户多方面的信息需求。

word版本.

第四章国重要的综合性信息检索系统

1.中国知网CNKI的《中国期刊全文数据库》(CAJ)是目前世界上最大的连续动态更新的中国期刊全

文数据库,收录了国1994年至今的8200余种综合性期刊与专业特色期刊的全文。

2.中国知网CNKI提供了导航检索、逻辑式检索、智能辅助检索三种类型。

3.中国知网的源数据库资源主要有:中国学术期刊全文数据库,中国博士学位论文全文数据库,中国

优秀硕士学术论文全文数据库,中国重要会议论文全文数据库,中国重要报纸全文数据库,中国年

鉴网络出版总库,中国工具书网络出版总库。

4.维普资讯网VIP的前身是科学技术部西南情报中心的情报分析,目前已发展成为集外文献、企业咨

询、动态新闻服务、行业信息资源等多种服务为一体的科技文献知识资源门户。

5.维普资讯网的主要资源有:中国科技期刊数据库,中文科技期刊引文库,外文科技期刊数据库,中

国科技经济新闻数据库,中国科学指标数据库。

6.维普资讯网设有专门的“专业检索首页”,为中文期刊专业文章提供一站式的检索服务。检索方式

有快速检索,传统检索,高级检索,期刊导航。

7.国家科技图书文献中心NSTL是经国务院领导批准,于2000年6月12日成立的一个基于网络环境

的科技信息资源服务机构。

8.国际科学引文数据库(DISC)是国家科技图书文献中心(NTSL)于2006年首创的集文献发现、引

文、原文传递为一体的信息服务系统。它提供快速检索,期刊浏览,来源文献检索,引文检索。

9.中国高等教育文献保障系统CALIS 是经国务院批准的我国高等教育“211工程”、“九五”、“十五”

总体规划中三个公共服务体系之一。它的数据资源主要有中文数据资源、外文数据资源两大类。

10.中国高等教育文献保障系统(CALIS)中的联合目录公共检索系统(OPAC)选择多库分类检索,OPAC

中的数据按照语种划分,可分为中文、西文、日文、俄文四个数据库。

11.中国科学院国家科学数字图书馆(CSDL)建设以来非常重视信息服务,其中:论文查收查引检索及

评价服务是根据用户需要,在国外权威数据库中检索其论文被收录和被引用的情况,并出具相关检

索证明报告。定题、专题检索服务是针对用户事先选定的专题,定期或不定期地进行文献跟踪检索,把经过筛选的最新检索结果,以书目、索引、全文等方式提供给用户。科技查新服务是根据用户提

供的有关科研资料查证其研究结果是否具有新颖性,并做出结论。在线参考咨询服务是用户可按专

业、机构或所处地理位置选择专家提问,可在线提交咨询表单。

第五章国外重要的综合性信息检索系统

1.学术资源整合平台(WOK)是基于互联网建立的动态的学术信息资源整合平台,提供自然科学、工

程技术、社会科学、艺术与人文等多个领域中高质量的学术信息。

2.学术资源整合平台(WOK)支持的运算有布尔逻运算,截词检索,短语检索。

3.在截词检索中,通常运用*代表多个字符,运用?代表一个字符。

4.引文检索是指从被引著者、被引文献入手检索文献的被引用情况。

5.美国Dialog系统是世界上最早和最大的专业情报检索系统,也是我国科技界广泛使用的系统。

6.美国Dialog联机检索系统支持的运算有布尔逻运算,位置限制检索,短语检索和截词检索。

7.SDOL采取浏览与检索相结合的方式,主要有期刊论文浏览、快速检索、高级检索、专家检索。

8.联机计算机图书馆中心(或OCLC)创立于1967年,是全球最大的不以赢利为目的、维护和管理电

子资源系统并提供计算机图书馆服务的会员制合作和研究组织。

9.PowerSearch 2.0检索平台支持对Gale的2万多种出版物的浏览,提供5种检索方式,包括基本

检索、主题词浏览、出版物浏览、高级检索、异构跨库检索。

10.CSA Illumina 是一个多学科、多信息类型的信息服务平台,目前由美国Proquest公司提供服务,

具有多语种文字检索界面。

第六章国外专业性书目信息检索系统

1.SciFinder是美国化学学会的分支机构推出的基于网络的文献检索系统。

2.在SciFinder检索窗口最上方的主工具栏中列出了3种检索模式:Explore References , Explore

Substances, Explore Reactions。

3.在数据库CASREACT中检索化学反应及相关信息。检索化学反应仅有1种检索途径。

4.用化学结构式检索化学反应,可以用反应分类,报道反应信息的文献来源,文献出版年和反应步数

加以限定,以缩小检索围。

5.在数据库CAS Registry 中检索化合物及相关信息,系统提供3种检索途径:化学结构检索,分子word版本.

式检索,物质检索.

6.BP主界面上提供6种检索方式:基本检索,高级检索,题录检索,检索工具,字段检索,多字段

检索。

7.工程索引(Engineering Village)系统所提供了5种检索方式:简单检索,快速检索,专家检索,

词表检索,标签检索。

8.PubMed提供概要、简介、文摘、引文、MEDLINE等5种显示检索结果容的记录格式。

9.PubMed可以全部或部分保存文献记录,既可保存当前页,又可以保存其中的几条记录。保存方式

有:网页格式和纯文本方式。

10.荷兰医学文摘(Excerpta Medica,简称EM)创刊于1947年

11.美国教育资源信息中心(ERIC)的检索方法有:初级检索,高级检索,ERIC叙词表检索。

12.美国教育资源信息中心(简称ERIC)包括两部分容:教育资源和当前教育期刊索引。

13.LexisNexis公司的数据库产品有:律商联讯、法律数据库、国会大全、统计大全、环境大全和学

术大全。

14.进入LexisNexis中文后,可见4个资源子库:法律子库,新闻和商业子库,企业界信息子库,在

线查询库

15.LexisNexis在线服务数据库主页的特点是无检索框。

16.LexisNexis系统默认的是Search方式,这种方式最符合用户的检索习惯。

第七章Internet上多媒体信息的检索

1.多媒体信息检索是指对包括图像和音频、视频等在的多媒体信息进行特征元数据提取、索引建库,

同时根据用户的检索需求,将用户的信息需求表达与多媒体索引库进行相似度匹配运算,识别和返

回用户所需信息,并通过与用户之间的反馈,不断优化、调整显示结果的过程。

2.目前,主流的多媒体信息检索方式主要分为基于文本的和基于容的多媒体信息检索两类。

3.现在,主流搜索引擎都有基于文本的图像检索功能,具有基于容的图像检索功能的搜索工具还不

多见。

4.基于容的图像检索的原理是:首先根据分析图像的容,提取其颜色、形状、纹理,以及对象空间关

系等信息,建立图像的特征索引库,而后将用户的检索提问与特征索引库进行匹配计算,返回检索

结果。

5.常见的图像检索系统有10个:QBIC, WebSEEK, TinEye, Titomo, VAST, ImageRover, Scour, Amazing

Picture Machine, Lycos, Image Surfer

6.QBIC:QBIC是基于容的图像检索系统的简称,是IBM Almaden研究中心开发的第一个商用的基于

容的图像及视频检索系统,主要为IBM的DB2大型数据库提供图像检索,并支持基于Web的图像检

索服务。它提供了对静止图像及视频信息基于容的检索手段,是标准的基于容特征检索图像的工具。

7.WebSEEK的检索途径有3种:一是使用关键词进行自由全文检索,但不支持短语检索;二是利用不

同的类目等级进行主题浏览;三是在检出图像的基础上利用其可视属性进行进一步检索。

8.视觉语义图像查询系统提供4种功能,分别是:(1)文本查询功能:可以直接在文本检索框中输入

想要查询的文本关键字;(2)示例查询功能:在示例图像框中输入想要查询的样例图像,或者点击

浏览选择图片;(3)综合查询功能:在示例图像框中输入想要查询的样例图像,或者点击浏览选择,同时在文本检索框中输入想要查询的文本关键字;(4)相关反馈:在进行文本查询后,如果满意结

果中的某图片,可以点击该图片下面的反馈,系统将返回与此图片相似且与文本关键字相关的图片

集。

9.基于容的视频检索通常有基于属性和基于对象两种方法,可以通过颜色、纹理、形状、空间联系、

原始语义、客观属性、主观属性、动作、文本和领域概念来表征视频信息。

10.基于容的视频检索,其检索过程分为数据库建立和视频检索两个阶段,前一阶段的任务主要是侦测

视频片段边界、选择关键属性和提取诸如颜色、纹理、形状等低级别的空间特征,后一阶段则致力

于通过颜色、形状或颜色与其他类目的组合,来进行用户需求向量与已有资源向量空间的相似度匹

配。

11.现有的基于容的视频信息检索工具主要有6个:VisualSeek, Informedia-II Digital Video

Library, Google Video Search, Yahoo Video Search, Open V, VideoQ

12.音频信息的检索可通过同音比较、听觉或知觉特征的提取、个人语言的主观特征描述和拟声法 4

种方式来实现。

八专题信息的检索

word版本.

1.专利包含三层含义,分别是专利权、专利技术和专利说明书。

2.专利权是指国家专利主管机关依据专利法授予申请人的一种实施其发明创造的专有权。

3.我国专利法将专利分为三种,即发明、实用新型和外观设计。

4.专利信息是指以专利文献作为主要容或以专利文献为依据,经分解、加工、标引、统计、分析、整

合和转化等信息化手段处理,并通过各种信息化方式传播而形成的与专利有关的各种信息的总称。

5.专利信息可分为5种:技术信息、法律信息、经济信息、著录信息、战略信息。

6.专利文献是包含已经申请或被确认为发现、发明、实用新型和工业品外观设计的研究、设计、开发

和试验成果的有关资料,以及保护发明人、专利所有人及工业品外观设计和实用新型注册证书持有

人权利的有关资料的已出版或未出版的文件(或其摘要)的总称。

7.专利文献的类型有一次专利文献,二次专利文献,专利分类资料。

8.专利分类是按专利文献的技术容或主题进行分类,以便于查找,各国曾有不同的专利文献分类

法。

9.中国专利说明书的编号体系包括:申请号,专利号,公开号,授权公告号

10.专门检索专利的搜索引擎有:FreePatentsOnline, IP-Discover,免费专利在线

11.商标是区别商品或服务来源的一种标志,每一个注册商标都是指定用于某一商品或服务上的。

12.商标信息检索的途径有:分类检索,关键词检索,图像检索

13.商标信息的主要来源有:商标主管部门提供的商标信息,商业性的商标数据库,专门的商标搜索引

擎,某企业的商标数据库。

14.专门的商标搜索引擎有:Trademarkia,桑尼维尔专利和商标中心,托马斯网

15.商业性的科技报告数据库:万方数据中的科技成果类数据库,NSTL的国外科技报告数据库,NTIS

美国政府报告数据库。

16.科技报告按性可以分为:报告、非报告和解密报告。

第九章网络信息检索与利用中的有关问题

1.《时代》杂志自2003年起每年都会评选最佳。

2.Robert Harris是一名作家和具有多年大学教育经验的教育家,他提出了因特网研究资源评价的著

名的CARS指标体系,即:可信性、准确性、合理性、支持度。

3.我们将网络信息的评价标准归为两大类:性能的评价标准和容的评价标准。

4.容是网络信息资源评估中最重要的指标。

5.网络信息资源的评价方法一般划分为定性评价法、定量评价法和综合评价法。

6.网络信息利用中应特别注意知识产权的四个特征,即法定性、专有性、地域性和时间性。

7.个人文献管理软件是一种用于帮助用户组织、管理与课题相关的参考文献,建立个人参考文献数据

库的软件。

8.个人文献管理软件的主要作用是帮助用户有效管理已经获取的文献信息,并且对已经获得的文献信

息进行方便快捷的利用。

9.个人文献管理软件的基本功能包括:建立个人的书目文献数据库,或是个人虚拟图书馆;帮助用户

组织、管理已获取的文献信息;对个人的书目文献数据库进行快速检索;按特定格式要求快速插入

引文(参考文献);导出/导入、备份/恢复个人文献数据库中的容。

10.自动翻译是在没有人工翻译参与的情况下,利用最新技术生成的翻译,自动翻译通常也称为“机器

翻译”。

11.自动翻译工具的功能有:文本翻译、文档翻译、翻译和翻译电子。

第十章信息检索的主要应用-科技查新

1.“查新”一词来源于专利审查,其本来意义是新颖性检索,最早见于1978年6月公布的《专利合

作条例》。

2.1991年国家科委正式制定《科技查新咨询工作管理办法(讨论稿)》,并通过考核评定,公布了首

批11个国家查新咨询单位,查新工作纳入制度化轨道?

3.查新咨询分为以下几类:科研咨询;产品咨询;技术、方法咨询以及专利咨询。

4.查新质量主要表现在文献检索质量和查新报告质量两方面。

5.查新报告的质量情况主要由对比分析质量、结论质量和表述质量反映。

word版本.

相关主题
文本预览
相关文档 最新文档