信息检索与利用
期末复习材料
第一章
1、信息素养的具体容:信息意思、信息知识、信息能力、信息道德。
2、搜商:人们借助工具获取新知识的能力。
3、信息:信息是事物运动状态和运动方向的表达。信息不是事物本身,而是由事物发出的
消息、指令、数据等所包含的容。
4、知识:知识就是经过思维加工(总结、处理、加工)了的信息。
5、情报:情报是人们为解决某一特定的问题而搜索、传递有特定效用的知识或信息。
6、情报的基本属性:知识性、传递性、效用性。
7、文献:文献是人们记录、积累、传播和继承知识的最有效手段。凡是记录有信息或知识
的一切载体均为文献。
8、信息、知识、情报与文献关系:包含关系、转化关系、交叉关系。
(围最广)信息人脑加工知识记录载体文献
口头、实物情报
9、文献的划分类型
(1)按文献的物质载体和记录方式划分:
手写型信息资源、印刷型信息资源、微缩型信息资源、声像型信息资源、机读型信息资源。(2)按文献的出版形式和容划分:
图书(M)、期刊(J)、报纸(N)、特种文献(灰色文献){科技报告(R)、
学位论文(D)、会议文献(C)、专利文献(P)、标准文献(S)、政府出版物、
产品资料、技术档案}。
(3)按加工程度划分:
零次文献(最原始文献):私人笔记、私人信件、手稿、实验记录、工程图纸、
论文草稿、设计草稿。
一次文献(原始文献):个人专著、大多数阅读性图书、期刊论文、科技报告、
专利文献、会议文献、学位论文、技术档案。
二次文献(检索性文献、检索工具):目录、题录、索引、文摘、机读型书目数据库。
三级文献(参考性文献):综述、专题述评、学科年度总结、进展报告、数据手册、
百科全书、年鉴、名录、图录、表谱、指南。
10、零次文献、一次文献、二次文献和三次文献之间的关系:
零次文献是最原始的信息资源,多数没有进入出版、发行和流通渠道,不易收集,但它是生成一次文献信息资源的主要素材;
一次文献是最主要的信息资源,是生成二次文献和三次文献的基础,
是信息检索和利用的主要对象;
二次文献是一次文献的集中提炼和有序化,是信息检索的主要工具;
三次文献是把分散的零次文献、一次文献、二次文献,按专题或知识的门类进行综合
分析、重新组合、加工而成的文献,是人们查考数据信息和事实信息的主要信息资源。
11、图书
概念广义:书籍、期刊、画册等出版物的总称。
狭义:图书是指由出版的,页数在49页以上(不包括封面和封底)的印刷品。
功能:对大围问题获得一般性知识;对陌生的问题有一个基本了解;
对熟悉问题进行历史性的全面系统的回顾。
主要外表特征:国际标准书号(International Standard Book Number,简称ISBN)。
★公开出版的图书都有ISBN。
12、图书之参考工具书(三次文献)
定义:供人们解决疑难问题或提供查阅参考的一定特殊类型的图书。
类型:(字典、词典)、百科全书、年鉴、手册、名录、(图录、图谱)、(年表、历表)。
世界三大百科全书:《不列颠百科全书》、《美国百科全书》、《科利尔百科全书》。
13、期刊:期刊是一种定期或不定期的连续性出版物。
外表特征:国际标准刊号(简称ISSN号)和国统一刊号(简称CN号)。
14、报纸:报纸是以刊载新闻和评论为主的定期连续性出版物。
15、专利文献
(1)概念广义:专利文献是指所有与专利有关的各种文献资料。
狭义:专利说明书。
(2)★专利法明文规定申请专利时不得事先讲容发表为论文。
(3)我国授予专利权的三个条件(专利的特点):新颖性、创造性、实用性。
(4)专利的基本特性:专有性、地域性、时限性(具有年限)。
(5)专利类型:
(6)专利申请号:
第3位数(2003年10 月以后第5位数)表示不同的专利类型:
1表示发明专利;2表示实用新型专利;3表示外观设计专利。
16、特征:GB 我国的强制性国家标准,具有法律属性。
GB/T 我国的国家推荐性标准。
GB/Z 我国的标准化指导性技术文件。
第二章
1、信息检索的概念:
广义:信息的存储和检索。
狭义:指依据一定的方法,从已经组织好的大量有关信息集合中,查找并获取特定的相关信息的过程。
2、信息检索的类型
按照检索的对象(或检索结果)划分:
(1)文献检索(相关性);(2)事实型信息检索(确定性);
(3)数据型信息检索(确定性);(4)声频与视频检索。
3、信息检索系统的类型
按手段划分:手工检索系统、计算机检索系统。
按容划分:目录、题录、文摘、索引、全文信息检索系统、多媒体信息检索系统。
目录:是以一个完整的出版物或收藏单位作为著录单元的检索工具。
题录:是以容上独立的文献单元(如一篇文章或书中的某一章节)作为著录的基本单元。
文摘:是在题录的基础上,在每条著录款项后边再加上文献容的摘要。
4、计算机检索系统的组成:硬件、软件、数据库。
5、数据库结构:字段、记录、文档。(关系:字段?记录?文档)
字段:数据库中最基本的信息单元。
主题性字段(表达文献容特征的字段):基本索引字段。
非主题性字段(表达文献外表特征的字段):辅助索引字段。
记录:由若干个字段组成,是计算机可存取的基本单元。
文档:文献数据库的结构一般由三个文档组成,即顺排文档(数据库的核心文档)、倒排文档和索引文档。
6、信息标引:分类标引:赋予信息分类号标识的标引过程。
主题标引:赋予信息主题词标识的标引过程。
7、信息检索的基本原理:信息检索是对信息集合与需求集合的匹配与选择。
8、检索语言
含义:用于描述信息系统息的容特征及外部特征和表达用户信息提问的人工语言。
类型(按表达信息的特征划分):外部特征语言、容特征语言(分类语言、主题语言)。
主题检索语言的特点:直观性、专指性、灵活性。
9、主题语言的类型(按照主题词的选词方式划分):
标题词语言(规化、先组式)、叙词语言(规化、后组式)、关键词语言(非规化、后组式)。
标题语言:以标题作为表达文献容和检索依据、完全先组式规化的检索语言。
10、规化处理:指对于具有语言语义关系的词语,按照一定的要求进行选择并限定其容含义,以
保证语词具有单义性,即一个主题词表达某种概念的唯一性,不能出现一词多义或多词一意现象。
11、分类语言的优、缺点:
优点:(1)较好地体现学科的系统性;
(2)较好地反映各类目间的纵向层次关系;
(3)分类语言是图书馆图书组织排架的依据;
(4)查全率较高。
缺点:(1)直线性(难以实现交叉表达);
(2)需要熟悉分类法,较难用;
(3)适应性差,修改困难。
12、《中国图书馆分类法》:当今国图书馆使用最广泛的分类法体系,简称《中图法》。
五个基本部类(22基本大类):马列主义、思想、理论,哲学,
社会科学(9大类),自然科学(10大类),综合性图书。
标记符号:英文字母与阿拉伯数字相结合的混合制代码。
等级划分:分类号位数没增加一位,分类级别便低一级。
13、国外常用的分类法有哪些?
第三章
1、布尔逻辑算符
(1)逻辑与:用“and”或“*”连接检索概念。
特点:缩小检索围、提高查准率。
逻辑或:用“or”或“+”连接检索概念。
特点:扩大检索围、提高查全率。
逻辑非:用“not”或“—”连接检索概念。
特点:缩小命中文献围,提高检索专指度。
(2)执行顺序:①同级运算自左向右进行。(只有一种符号的情况)
②多种混合使用,执行顺序为:逻辑非、逻辑与、逻辑或。
③有括号的情况下,先执行括号的运算。
2、截词检索算符
类型(1)按照截词符的位置划分:前截词、后截词、前后截词、中间截词。
(2)按截断字符数划分:有限截断(?)、无限截断(*)。
★无限截词符“*”不能作为中间截词符。
作用:
(1)无限截词符:
①前截词:检索*computer可以检索出数据库索引文档中储存的以computer结尾的词。
②后截词:检索computer*可以检索出数据库索引文档中储存的以computer结尾的词。
③前后截词:检索*computer*可检索出含有computer词干的所有词汇的文献。
(2)有限截词符:
一个“?”只能代表0~1个字符,n个“?”可以代表0~n个字符。
例:输入检索词computer?可检出computer和computers的文献。
输入检索词computer???可检出computer、computers、computerize的文献。
输入检索词work??可以检索出含有work、works、worker的文献。
中间截词:wom?n可检出woman和women的文献。
3、位置算符
(1)(W)与(nW)算符:
(W)算符:①(W)算符是with的缩写,可简写为()。
②(W)算符具严格限制了检索词相邻和前后位置关系。
两检索词之间除可以有一个空格、一个标点符号或一个连字符外,
不得夹有任何其他单词或字母,并且两检索词的顺序不能颠倒。
例:biological(W)control相当于检索biological control.
CD (W) ROM相当于检索CD ROM或CD-ROM.(nW)算符:允许在连接的两个检索词之间插入最多n个单元词,并且两检索词的顺序不能颠倒。
例:wear (1W) material相当于检索wear materials、wear of materials等。
(2)(N)与(nN)算符:
(N)算符:两检索词之间除可以有一个空格、一个标点符号或一个连字符外,
不得插入任何其他单词或字母,但两检索词的前后顺序可以颠倒。
例:robot (N) control 表示可以检索出robot control 或者control robot 的文献。
(nN )算符:(nN )表示两词间可插入最多n 个词,并且检索词的前后顺序可以颠倒。 例:control (1N) system 表示可以检索出control system 、control of system 、 control in system 、system of control 、system without control 等词语的文献。
★检索结果围:A+B > A*B > A (nN) B > A ()B 。
4、字段检索(与实验(具体数据库)结合)P52
5、短语检索算符:短语检索算符用双引号(“”)表示,短语检索表示检索出与“” 形式完全相同的短语,主要用于提高检索的精度和准确度。
5、搜索引擎
定义:搜索引擎是查找互联网上信息资源的工具,也称网络检索工具。
检索方式:分类检索、关键词检索。
分类(按工作方式进行划分):索引型搜索引擎、元搜索引擎、目录式搜索引擎。
6、第三章 第二节 P54~P59
7、信息检索流程:分析检索需求,选择检索字段、选择检索工具,确定检索途径、 选择检索词,构建检索提问式,实施检索并调整检索提问式,输出检索结果。
8、 P63 看一看
9、检索表达式的构建 P66 (参照课题分析P303)
10、习题 P72
第五章 专利及专利文献(见PPT )
1、 专利概念
2、 专利基本特性(独占性、时间性、地域性)
3、 专利类型
4、 我国授予专利权的基本条件(新颖性、创造性、实用性)
5、 专利号(申请号)组成
6、 可供检索专利的数据库或
7、 检索平台通用规则(掌握一个检索平台(或数据库),可从哪几个方面入手)P80
8、 三大中文数据库平台运算符配备情况P83
9、 运算符在维普数据库平台不同检索方式中表现形式P83
第九章
1、评价信息检索效率的指标:查全率、查准率。
2、信息总数全部检索信息数量的相关系统中相关检出查全率= 信息总数
的信息数量的全部检出相关检出查准率= 3、漏检率和误检率:
漏检率是查全率的补充指标,它们是一对互逆指标,查全率高,则漏检率低,反之亦然; 误检率是查准率的补充指标,它们是一对互逆指标,查准率高,则误检率低,反之亦然。
4、查全率和查准率的关系:
在同一次检索中,采取措施,限制检索条件,缩小检索围,提高查准率的同时,
查全率会下降;反之,放宽检索条件,扩大检索围以提高查全率的同时,查准率也会下降。
5、提高检索效果的主要措施
(1)提高查全率:
①降低检索词的专指度,采用上位词、扩展词。
②选用主要概念、核心概念、排除次要概念,进行检索。
③增加检索词的同义词、近义词、相关词,充分挖掘隐含概念词,使用逻辑或组配。
④检索词进行适当的拆分或者去除一些字眼。
⑤利用截词技术进行扩展检索。
⑥主题检索时,可以逐步扩大检索围,限制字段依次为:全文
→
题名→
→。
摘要
关键词
⑦逐步扩大算符的检索围,逐步提高查全率的算符依次是:逻辑算符and
位置算符w→
→
→。
→
nN
N
nw
⑧利用已经检索到的相关文献后的参考文献进行追踪检索,从而获取更多高质量的相关文献。
⑨选择“模糊检索”的检索方式。
⑩取消限定条件。
(2)提高查准率:
①提高检索词的专指度,采用下位词、专制性较高的自由词、专用词、专业词汇。
②增加检索词的修饰词、限定词,使用逻辑与组配。
③用逻辑非排除无关的概念,去除干扰信息。
④逐步缩小主题途径的检索围。
⑤使用各种位置运算符控制检索词之间的顺序和位置关系,尤其是前后不可颠倒的w算符。
⑥逐步缩小限定条件的围。
⑦利用检索结果的相关度排序,获取切题文献。
⑧对于一些专有名词,化学物质名称等希望查找出精确结果时,在一些数据库或
搜索引擎中可以利用双引号进行精确检索。
⑨如果要查找特定图书、特定专利、特定化学物质,又知道该书的ISBN号、专利号
或者登记号等,直接用ISBN号、专利号或登记号进行检索。
⑩选择“精确检索”的检索方式。
(3)同时兼顾查全率和查准率的措施:
①跨库检索,使用综合检索工具,结合专业的检索工具。
②分类途径和主题途径等多途径结合使用。
③尝试多次检索,在失败中调节检索策略,阅读已知的信息,增加背景知识。
④预防操作错误,采用严谨的科学态度,耐心细致地检查检索步骤的各环节。
⑤进行多文献类型,多语种、多数据库的检索。
⑥进行多途径的文献检索。
⑦熟悉并掌握数据库的检索性能。
实习:
数据库:维普数据库、清华同方公司的中国知网系列数据库(cnki)、
万方公司的系列数据库、fulink数据库,馆藏书目数据库,数字图书馆(超星、北大方正、书生读吧等),超星读秀学术搜索,Springerlink全文数据库、Science Dierct数据库,Web of science,搜索引擎使用技巧,google学术搜索、文献管理软件(国外ENDNOTE,国产NoteExpress)。
掌握以上数据库可检索的文献类型、可检索字段及检索方法、,具体数据库的检索策略(查全与查准)的调整。
附:
考试题型:
1、单选题20*1'=20'
2、多选题10*2'=20'
3、判断题20*1'=20'
4、填空题10*1'=10'
5、分析题30'
分析题(主要考核实验部分):
1、给出课题名称,分析显性主题概念,列检索表达式
2、三大中文数据库的高级检索
3、三大中文数据库的专业检索(多字段限制检索)
4、搜索引擎的限制检索(intitle/filetype/site/link)