当前位置:文档之家› 信息检索技术 第二章 信息检索模型(3)

信息检索技术 第二章 信息检索模型(3)

文献检索的方法

文献检索的方法 一、文献检索方法 查找文献的方法分为如下三种: 1. 直接法 直接利用检索工具(系统)检索文献信息的方法,这是文献检索中最常用的一种方法。它又分为顺查法、倒查法和抽查法。 (1)顺查法 按照时间的顺序,由远及近地利用检索系统进行文献信息检索的方法。这种方法能收集到某一课题的系统文献,它适用于较大课题的文献检索。例如,已知某课题的起始年代,现在需要了解其发展的全过程,就可以用顺查法从最初的年代开始,逐渐向近期查找。 (2)倒查法 倒查法是由近及远,从新到旧,逆着时间的顺序利用检索工具进行文献检索的方法。此法的重点是放在近期文献上。使用这种方法可以最快地获得最新资料。 (3)抽查法 抽查法是指针对项目的特点,选择有关该项目的文献信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。 2. 追溯法 不利用一般的检索工具,而是利用已经掌握的文献末尾所列的参考文献,进行逐一地追溯查找“引文”的一种最简便的扩大信息来源的方法。它还可以从查到的“引文”中再追溯查找“引文”,像滚雪球一样,依据文献间的引用关系,获得越来越多的相关文献。 3. 综合法 综合法又称为循环法,它是把上述两种方法加以综合运用的方法。综合法既要利用检索工具进行常规检索,又要利用文献后所附参考文献进行追溯检索,分期分段地交替使用这两种方法。即先利用检索工具(系统)检到一批文献,再以这些文献末尾的参考目录为线索进行查找,如此循环进行,直到满足要求时为止。 综合法兼有常用法和追溯法的优点,可以查得较为全面而准确的文献,是实际中采用较多的方法。对于查新工作中的文献检索,可以根据查新项目的性质和检索要求将上述检索方法融汇在一起,灵活处理。 二、文献检索途径

信息检索模型研究概述

信息检索模型研究概述 【摘要】随着信息量的日益增长,用户要在巨大的信息海洋中查找自己所需的信息就变得复杂,这就需要对信息进行相关性选择,以提高查询的检全率和检准率。为此,人们提出了一系列检索模型,本文介绍了这些检索模型以及在此基础上的发展。 【关键词】信息检索;检索模型;认知心理学;综述 一、引言 信息检索是寻找相关信息的过程,而检索过程始终都涉及相关性问题。相关性是信息需求内容与文献内容之间的一种关系,为了正确地解释检索过程,就必须给相关性一个合理的衡量。为此,人们提出了一系列检索模型,本文就讨论介绍了这些信息检索模型研究的进展。文中笔者将检索模型分为基于系统的检索模型、基于认知心理学的检索模型和基于本体的检索模型三大类。 二、基于系统的信息检索模型 在基于系统的检索模型中,可以分为逻辑模型、模糊模型、向量空间模型和概率模型。 1.逻辑模型及其发展 1957年,巴-希列尔(Y.Bar-Hille)提出布尔逻辑模型。布尔逻辑式构造简单,但其不易全面反映用户的需求,匹配标准存在某些不合理的地方,且检索结果不能按照用户定义的重要性排序输出,很难控制输出量的大小,对用户的素质有很高的要求。 为了克服传统布尔逻辑模型的一些缺陷,Waller和Kraft在1979年提出了加权布尔逻辑检索模型。加权布尔逻辑检索模型通过对标引词进行加权,解决了传统布尔逻辑检索模型的一些缺点,比如无法排序、不能区分检索词的重要程度,但同时也带来了一个问题,即布尔逻辑操作算符在不加权布尔逻辑查询情形下的许多算律(如交换律、结合律等)已不再成立。 在Waller和Kraft之后,Salton于1983年提出扩展布尔模型。扩展模型是传统布尔逻辑检索模型完全匹配的严格性和向量模型提问的无结构性的折中,在保持布尔逻辑检索的结构式提问的同时,也吸取了模糊检索和向量检索模型的长处。而且该模型中巧妙地引入了一个模型参数p,通过适当调节这个参数,Salton 模型可以分别表现为布尔模型、向量空间模型和模糊模型。 2.模糊模型及其发展 布尔模型和扩展的布尔模型主要是基于康托(Contor)的经典集合论,但经典集合论容不得模糊的概念,这对于信息检索过程中所存在的模糊性的解释造成一定的困难,用户对检索结果的满意程度也具有不确定性。为了解决这种模糊性引起的不确定问题,人们引入模糊集合理论来构建模糊集合模型。 模糊集合模型是基于美国自动控制专家扎得(L.A.Zadeh)的“模糊集合”理论,模糊检索将文献看成是与某提问在一定程度上相关,对于每一个标引词,都存在一个模糊的文献集合与之相关;对于某一给定的标引词,用隶属函数表示每一文献与该词相关的程度,即隶属度,其取值在[0,1]上。在模糊集合检索中,对于布尔模型的用户信息需求的处理通常是把表达用户需求的布尔逻辑式转换成析取范式的形式。基于模糊集合模型的检索结果是建立在文献集上的,且其隶属度就是文献集对用户提问的相关程度的模糊子集。但目前而言,还无法十分精

专业技术人员学术论文写作与信息检索答案

单项选择题 第1题:学术论文选题的原则有价值性原则、创新性原则和()。 A:实践性原则 B:适宜性原则 C:通俗化原则 第2题:工程实践型学术论文的结构应包括引言或工程背景、()以及总结。 A:工程实践的可行性论证 B:工程实践的方法、步骤、注意事项和结果 C:工程实践的后续发展展望 第3题:论证型论文的结构主要包括序论、本论和( )三部分。 A:导论 B:余论 C:结论 第4题:论文观点错误主要有基本观点错误和()两种情况。 A:观点与大多数人的观点相冲突 B:观点主观片面 C:观点过于超前 第5题:理论研究型论文的特点主要有:内容上的概括性与说理性、严密的逻辑以及()。 A:深刻的思想性 B:直接表述作者的思想观点 C:材料的丰富性 第6题:论文联合署名时,应按()的顺序排列。 A:贡献大小 B:职务高低 C:职称高低

第7题:论文写作信息材料的整理方法主要有逻辑分析法、系统分析法和()。 A:内容归类法 B:概率研究法 C:整体分析法 第8题:注释可分为篇名注、作者注、文中释义性注释和()。 A:引文注释 B:观点注释 C:内容注释 第9题:学术论文选题不仅要遵从价值性原则和适宜性原则,而且还应遵守()原则。 A:实践性 B:创新性 C:思想性 第10题:工具书可分为检索性工具书()。 A:应用性工具书 B:查阅性工具书 C:参考性工具书 二、多项选择题 第11题:学术论文关键词的词性主要包括()。 A:名词 B:动名词 C:名词性词组 D:形容词 第12题:学术论文初稿写作的方法主要有()。 A:个案分析法 B:比较寻疑法

C:追溯验证法 D:实践应用法 第13题:学术论文写作的特征主要有()。 A:实践性 B:科学性 C:规范性 D:可读性 第14题:学术论文摘要一般包括研究目的、研究对象、()等内容。 A:研究方法 B:研究结果 C:所得结论 D:结论的适用范围 第15题:学术论文署名者应具备的条件有()。 A:学术论文的直接责任者 B:做出主要贡献者 C:学术论文撰写者 D:学术论文的构思、论证或执笔者 第16题:中国知网数据库检索方式可分为()。 A:初级检索 B:二次检索 C:精确检索 D:高级检索 第17题:文献综述除了包括介绍相关领域研究现状外,还应该有()等内容。 A:说明用什么方法解决所提出的问题

计算机信息检索02139自考资料

第一章信息检索概述 1.信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。 2.根据检索手段的不同,信息检索可以分为手工检索、光盘检索、联机检索和网络检索。 3.信息检索的基本原理 通过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。 4.信息检索语言 信息检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。 5.五个信息检索阶段:手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索,后三 者统称为计算机信息检索。 6.与手工检索相比,计算机信息检索的特点表现在: (1)速度快、效率高,仅几分钟就可以从成千上万条记录中找到所需信息; (2)检索范围广,可以迅速而方便地浏览相关学科或主题的所有数据库中的记录,在 网络中,几乎每一台个人计算机都可以成为信息源; (3)检索不受时空的限制,只要拥有相应的软件和硬件设备,就可以在任何地方借助 光盘和通信网络查询所需信息。 7.信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和 抽象,表述为某种数学公式,再经过演绎、推断、解释和实际校验,反过来指导信息检索实践。 信息检索的三个经典模型是:布尔模型、向量空间模型和概率模型。 8.信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。 9.信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。 10.数据库由字段、记录和文档构成。 11.根据载体的不同,数据库可分为:联机数据库、光盘数据库和网络数据库三种。 12.信息检索系统评价的核心是检索性能评价。 13.检索性能评价:根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一 步完善检索工作的过程。 评价检索效果的最主要的指标:查全率和查准率。 14.查全率 查全率是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。 15.查准率 查准率是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。 第二章网络信息检索的方法与技术 1.布尔逻辑检索的主要运算符 布尔逻辑检索的主要运算符有:逻辑与(“AND”)、逻辑或(“OR”)、逻辑非(“NOT”)。 它们分别代表的含义是:(1)逻辑“与”。表示检索结果中必须包含所有的检索词;(2)逻辑“或”。表示检索结果中只要包含任何一个检索词即可;(3)逻辑非。表示检索结果中一定不能出现“NOT”后面的检索词。 2.邻近检索 邻近检索是用一些特定的算符来表达检索词与检索词之间的顺序和词间距的检索。 3.短语检索:短语用“”表示,检索出与“”内形式完全相同的短语,以提高检索的精度和准确度, 因而也有人称之为“精确检索” 4.截词检索 是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符一般用“?”或“*”表示,但不同的数据库中有所差别。 常用的截词检索方法有前截词、中间截词和后截词。 5.在信息检索过程中,为了提高查全率或查准率,需要将检索范围限制在特定的字段中,即字段限制 检索。 6.模糊检索:模糊检索是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、 下位词进行检索,以达到扩大检索范围、避免漏检的目的。

信息检索的概率模型-

信息检索的概率模型 一、综述 一、信息检索技术 由于以因特网为主体的信息高速公路的不断普及和发展,信息技术已经渗透到我们社会生活的各个角落,正以前所未有的速度和能力改变着我们的生活的工 作方式,我们真正处于一个“信息爆炸”的时代。一方面,因特网上面蕴含的海 量信息远远超过人们的想象;另一方面,面对信息的汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”和“信息迷向”的现象。于是一个 极富挑战性的课题:如何帮助人们有效地选择和利用所感兴趣的信息,尽量剔除不相关的信息。同时保证人们在信息选择方面的个人隐私权利?成为学术界和企 业界所十分关注的焦点。 随着在线文本的日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆。如此众多的信息,仅仅依靠大脑来收集和整理所需要的信 息显然是不够的。所以,自动收集和整理所需要的各类信息成为信息产业面临新 的挑战和新的发展契机。根据不同的应用背景和不同的使用目的,信息处理技术已经演化信息检索、信息过滤、信息分类、问题回答等方向。 由于目前网上信息的表现形式大多数为文本,而且文本也是广大用户所习惯接收的形式。因此我们在下面主要讨论中文文本检索和相关的评价方案。 1、信息检索技术的发展 信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据 信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程。 信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务 项目。1945年,Vannevar Bush的论文《就像我们可能会想的……》第一次提出 了设计自动的,在大规模的存储数据中进行查找的机器的构想。这被认为是现在信息检索技术的开山之作。进入50年代后,研究者们开始为逐步的实现这些设 想而努力。在50年代中期,在利用电脑对文本数据进行检索的研究上,研究者 1

信息检索技术方法及搜索引擎

信息检索技术方法及搜索引擎.txt 1 截词检索技术 2 邻近检索技术 3 字段检索技术 4 布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索 方法. 主要的布尔逻辑关系词有:逻辑与(AND),逻辑或(OR),逻辑非(NOT) 1 布尔逻辑检索技术 逻辑与 逻辑乘: "and"或"*"表示 组配方式:A*B或者A and B 表示两个概念的交叉和限定关系,只有同时含有这两个概念的记 录才算命中信息 作用:增加限制条件,即增加检索的专指性,以缩小提问范围,减少文献输出量,提高查准率. 逻辑或 又称逻辑和:"or","+" 组配方式:A OR B或者A+B,表示检索含有A词,或含有B词,或同时包含A,B两词的文章. 作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率. 逻辑非 又称逻辑差: "not" "-" 组配方式:A-B,表示检索出含有A词而不含有B 词的文章. 作用:逻辑非用于排除不希望出现的检索词,它和"*"的作用相似,能够缩小命中文献范围,增 强检索的准确性. 例如检索:"打印机驱动程序" 查询关键词:打印机,驱动程序 检索表达式:打印机 AND 驱动程序 例如检索:"微型计算机"方面的有关信息 查询关键词:微型计算机,微机 检索表达式:微型计算机OR 微机 布尔逻辑检索举例 布尔运算符优先级比较 有括号时:括号内的先执行; 无括号时:NOT > AND > OR 例:检索"唐宋诗歌"的有关信息. 关键词:唐,宋,诗歌; 检索表达式: (唐 OR 宋)AND 诗歌; 唐 AND 诗歌 OR 宋 AND 诗歌; 错误表达式: 唐 OR 宋AND诗歌; 唐 AND 宋AND诗歌;

信息检索基本方法教案

第五章信息检索的基本方法 5.1 布尔逻辑检索Boolean logic 由GEORGE BOOLE 1815-1864提出,目前大多数搜索引擎都采用 与AND,*,& 或OR,+ ,︱ 非NOT,—,! 逻辑“与”:用关系词AND表示(可写作“*”或“&”)。逻辑“与”表示AND 所连接的两个检索词必须同时在结果中出现才满足检索条件。 逻辑“或”:用关系词OR表示(可写作“+”或“︱”),逻辑“或”表示OR所连接的两个检索词只要有一个能出现在结果中就算满足了检索条件。 逻辑“非”:用关系词NOT表示(可写作“and not”“—”或“!”),逻辑“非”表示NOT后面的那个检索词一定不能在检索结果中出现。 例如:校庆AND 武汉大学 高等教育* 中国 湖南OR 湖北 移动学习+ 泛在学习 大学NOT 武汉大学 玉米–甜玉米 例如,用GFsoso检索,电子AND 读书笔记 电子读书笔记OR 读书笔记软件 5.2 位置限制检索 临近检索(Proximity Search) 以Dialog为例,收900多个数据库 (1)PRE/0,P/0 表示前后词序不能颠倒,中间不能插入其他词,但可以插入符号。 With, (W) 例如:Wuhan P/0 University

(2)PRE/#,P/# 表示前后词序不能颠倒,中间可插入一定数量的单词,即插入#个单词。 例如:Wuhan P/1 University 检索结果:Wuhan Medical University; Wuhan Agriculture University; Wuhan Technology University; (3)NEAR/0,N/0 表示前后词序可以颠倒,但中间不能插入单词。 例如:Wuhan N/0 University 检索结果:Wuhan University;Wuhan – University;Wuhan ,University University, Wuhan; University-Wuhan; University Wuhan (4)NEAR/#,N/# 表示前后词序可以颠倒,中间可以插入#个单词。 例如:Wuhan N/1 University 检索结果:Wuhan Medical University; Wuhan Agriculture University; Wuhan Technology University; University of Wuhan; University in Wuhan; University at Wuhan (5)(s)是sentence的缩写,A(s)B表示A和B必须同时出现在记录的同一个句子或短语中,但次序可以随意改变,A与B之间可以有若干个其他的词。 如:resin (s) ester (酯化树脂) 【练习】1、查找computer和game的间隔不大于100个单词的网页 2、检索“杂交玉米”的外文文献,要求两词间隔1个词,前后次序固定。hybrid、corn 答案:1、computer near/100 game 2、hybrid p/1 corn hybrid w/1 corn

信息检索基本方法教案.doc

布尔逻辑检索 Boolean logic 由 GEORGE BOOLE 1815-1864提出,目前大多数搜索引擎都 采用与AND,*,& 或OR,+ ,︱ 非 NOT,—, ! 逻辑“与” : 用关系词 AND表示 ( 可写作“ * ”或“ &”) 。逻辑“与”表示 AND 所连接的两个检索词必须同时在结果中出现才满足检索条件。 逻辑“或” : 用关系词 OR表示 ( 可写作“ +”或“︱” ), 逻辑“或”表示 OR所连接的两个检索词只要有一个能出现在结果中就算满足了检索条件。 逻辑“非” : 用关系词 NOT表示 ( 可写作“ and not ”“ —”或“ ! ” ), 逻辑“非”表示 NOT后面的那个检索词一定不能在检索结果中出现。 例如:校庆AND武汉大学 高等教育 *中国 湖南 OR 湖北 移动学习 + 泛在学习 大学 NOT 武汉大学 玉米–甜玉米 例如,用 GFsoso检索,电子AND读书笔记 电子读书笔记 OR 读书笔记软件 位置限制检索 临近检索( Proximity Search) 以 Dialog 为例,收 900 多个数据库 (1)PRE/0, P/0表示前后词序不能颠倒,中间不能插入其他词,但可以插 入符号。 With,(W) 例如: Wuhan P/0 University (2)PRE/#, P/#表示前后词序不能颠倒,中间可插入一定数量的单词,即

插入 #个单词。 例如: Wuhan P/1 University 检索结果:Wuhan Medical University ; Wuhan Agriculture University ; Wuhan Technology University ; (3)NEAR/0,N/0表示前后词序可以颠倒,但中间不能插入单词。 例如:Wuhan N/0 University 检索结果: Wuhan University;Wuhan–University;Wuhan,University University, Wuhan; University-Wuhan; University Wuhan (4)NEAR/#,N/#表示前后词序可以颠倒,中间可以插入#个单词。 例如: Wuhan N/1 University 检索结果: Wuhan Medical University; Wuhan Agriculture University; Wuhan Technology University; University of Wuhan; University in Wuhan; University at Wuhan (5)(s)是 sentence 的缩写, A( s) B 表示 A 和 B 必须同时出现在记录的同一个句子或短语中,但次序可以随意改变, A 与 B 之间可以有若干个其他的词。 如: resin (s) ester (酯化树脂) 【练习】 1、查找 computer 和 game的间隔不大于 100 个单词的网页 2、检索“杂交玉米”的外文文献,要求两词间隔 1 个词,前后次序固 定。 hybrid 、corn 答案: 1、computer near/100 game 2、hybrid p/1 corn hybrid w/1 corn

常用网上信息检索方法综述

常用网上信息检索方法综述 学生姓名:常** 专业:信号与信息处理学号:201520601001 教师:黄文清老师

摘要 因特网的普及和发展给人们带来了空前丰富的信息资源,越来越多的用户利用网络阅读和查询所需信息,网上阅读和检索已成为人们获取信息的重要途径。如何认识和利用浩瀚如海的网络信息,快速查找并准确获取所需资源,需要掌握一定的网络检索方法和技巧以便捷地对互联网进行检索查询,提高搜索的命中率。 关键词:因特网;信息资源;检索方法

ABSTRACT The popularity of the Internet and development brings unprecedented rich information resources, more and more users use the network reading and required information query, online reading and retrieval has become an important way of access to information. Such as how to understand and use the vast sea of network information, quick search and accurately obtain the resources needed, need to master certain network retrieval methods and techniques to conveniently Internet search queries, improve search hits. Keywords: Internet, Information resources, Retrieval methods

《信息检索技术》书中答案

《信息检索技术》书后习题及参考答案(部分) 第1章绪论 【综合练习】 一、填空题 1.文献是信息的主要载体,根据对信息的加工层次可将文献分为_________文献、__________文献、___________文献和___________文献。 2.追溯法是指利用已经掌握的文献末尾所列的__________,进行逐一地追溯查找_________的一种最简便的扩大情报来源的方法。 3.用规化词语来表达文献信息__________的词汇叫主题词。主题途径是按照文献信息的主题容进行检索的途径,利用能代表文献容的主题词、关键词、叙词、并按字顺序列实现检索。 4.计算机信息检索过程实际上是将___________与____________进行对比匹配的过程。 5.无论是手工检索还是计算机检索,都是一个经过仔细地思考并通过实践逐步完善查找方法的过程。检索过程通常包含以下几个步骤_________、__________、__________、__________、_________。 6.检索工具按信息加工的手段可以分文__________、____________、___________。 7.《中国图书馆图书分类法》共分___________个基本部类,下分________个大类。 8.索引包括4个基本要素:索引源、___________、___________、和出处指引系统。 答案1.零次,一次,二次,三次 2.参考文献,引文 3.容特征 4.检索提问词,文献记录标引词 5.分析课题,选择检索工具,确定检索途径及检索式,进行检索,获取原文 6.手工检索工具,机械检索工具,计算机检索工具 7.五,22 8.索引款目,编排方法 二、判断题 1.在检索信息时,使用逻辑符“AND”可以缩小收缩围。() 2.逆查法是由近及远地查找,顺着时间的顺序利用检索工具进行文献信息检索的方法。() 3.按编制方法划分,信息检索工具可以分为:手工检索工具、机械检索工具、计算机检索工具。() 4.请判断下面图书的国际标准书号的格式是否正确。ISBN:978-030-26151-X。() 5.文献的专利号、报告号、合同号、标准号、索取号、国际标准书号、刊号属于文献的部特征。 6.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检索。 答案1.√2.×3.×4.√5.√6.× 三、选择题(单选或多选)

信息检索原理与技术考试大纲重点整理

信息检索原理与技术考试大纲重点整理

序移动,是一次、二次、三次文献信息的演变过程。对于“文献信息链”的研究,有利于从整体的角度了解文献信息的有序化、动态性特征,从而探索文献信息的产生、演变规律及其结构形态。 (1)信息检索:广义理解分为信息的存储与检索。信息的存储主要包括在某一专业领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。信息的检索是指借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息。狭义的信息检索仅指该过程的后一部分。存储是检索的基础、检索是存储的反过程。信息检索的本质是用户的信息需求和一定的信息集合的匹配。 (2)信息检索系统:指为了满足用户的信息需求而建立的存储,经过加工了的信息集合,拥有一定的输入、匹配、输出的技术设备,提供一定的检索服务功能的一种相对独立的实体。 (3)信息检索入口:又称检索点或检索知识,是指用以标识信息的外部特征和内容特征的属性值的集合。检索知识包括主题词、分类号、著者、标题、机构、代码等。 (4)信息检索的一般原理:P7 (5)检索系统由物理构成(硬件、软件和数据库)和逻辑构成(文献与数据的选择与抽取子系统、词表子系统、标引子

系统、查询子系统、用户与系统交互子系统、匹配子系统)(6)检索工具的构成:编辑说明与凡例、分类表与主题表、正文、辅助索引、资料来源目录与附录。 (7)检索系统的功能:报道功能、存储功能、检索功能。(8)信息检索理论:标引理论、检索模型、检索结果的可视化。 (9)现代信息检索技术与方法:全文检索、多媒体检索、超文本及超媒体检索、联机检索、网络信息检索、智能检索、跨语言检索、跨平台检索。 第2章信息检索模型 (1)最初的信息检索模型是以数学知识为基础的原因:第一,数学是个有几千年历史的学科,被大家所熟知,并且通俗易懂。第二,人们的信息有很大的模糊性,甚至用文字不能表达,而文字具有很大程度的抽象性和概括性,这样就很容易表达出人们信息检索的需求,能够很方便快捷地组建信息检索模型。 (2)信息检索模型的类型:P18 (3)布尔检索模型:采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。 (4)布尔逻辑运算符:逻辑与(AND)、逻辑或(OR)、逻

信息检索技术

第一章信息检索概述 1,什么是信息检索?它有哪些主要类型? 信息检索指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要找出其中相关信息的过程。有目的和组织化的信息存取活动,其中包括“存”和“取”两活动。 旧分类方法:文献检索、事实检索、数据检索 新分类方法:文本检索、数值检索、音/视频检索 2,试分析阐述信息检索的基本原理,信息集合、需求集合、匹配与选择,信息检索三阶段及期特点? 答:即信息集合与需求集合的匹配与选择。 (1)信息集合是指有关某一领域的,经采集、加工的信息的集合。形成可供用户访问与检索的对象,在某种意义上说,它是以一种公共知识结构,它有可能弥补某个特定用户的知识结构缺陷,即可以向用户提供所需要的知识或信息,或是获取知识的线索,或者提供某种信息区激活人脑中存储的知识。(2)需求集合:用户的信息需求是在社会实践活动中产生的。众多用户不同形态的信息需求的汇集,就形成了需求集合的存在。信息需求的产生与满足,是实施信息检索行为的前提与基础,也是实施信息检索行为的目的所在。(3)选择与匹配:面对信息集合与需求集合,如何在两者之间建立起联系与沟通的桥梁,以便能够从信息集合中快速获取用户所需要或所缺少的信息与知识呢?这就需要信息检索提供一种“匹配”机制。它的主要功能在于:能够把需求集合与信息集合依据某种相似性标准进行比较与判断,进而选择出符合用户需要的信息。这里,我们要求匹配机制至少包括两个要素:一是匹配标准,即相似性标准;二是执行匹配的 动因。 3,信息检索主要经历了哪些不同的发展阶段?各阶段 有何特点? (1)手工检索阶段,主要特点可以概括为印刷文献(图 书、期刊、会议、专利、学位论文)为主要检索对象; 以各类文摘、题录、和目录性工具书为可利用的主要 检索工具;以图书馆的参考咨询部门为开展信息检索 服务的中心机构。(2)计算机化检索阶段(脱机批处 理检索时期、联机实时检索时期、联机网络化与多元 化检索时间),主要特点:以各类机读数据库为检索对 象;各类信息中心,联机服务中心作为新兴的信息服 务部门而存在;信息检索用户逐渐由专业检索人员(检 索中介)向个人终端用户转移和扩散。(3)网络化检 索时期,分布式存储、分布式检索、分布式处理,检 索范围领域广,传统技术与网络技术的结合,用户界 面友好度,检索效率低。 4、名词解释 1)文本检索:指以各种自然语言符号系统所表示的信 息作为主要检索对象的信息检索活动。 2)数值检索:针对数值型数据的查询而发展起来的 一类有特色的信息检索。 3)音视频检索:针对各种数字化音频与视频信息而进 行查询的一类新兴的信息检索操作。 4)信息存储与检索:将信息按照一定的方式组织和存 储起来,并能够根据信息用户的需求找出其中相关信 息的过程。信息检索是一种有目的和组织化的信息存 取活动,其中包括“存”和“取”两活动。 5)文献检索:以文献(包括文献、题目、或全文)为 检索对象的一类信息查询活动,是一种相关性检索。 6)数据检索:以经过选择、整理、鉴定的各种数据信 息的性能参数作为检索对象的一类检索,是一种确定 性检索。 7)事实检索:针对从文献中提取出来的各种事实(或 知识项)所进行的检索活动,是一种确定性检索。 第二章信息源 1,如何鉴别高质量的期刊? 目前国内外公认的鉴别方式有2种:核心期刊和同行 评审期刊。 (1)核心期刊:指的是刊载某一学科或专业有关的信 息较多,且学术水平较高,能够反映该学科最新成果 和前沿动态,受到该专业读者特别关注并成为检索与 阅读首选的那些期刊。 (2)同行评审期刊:它是国内外高水平期刊对来搞评 审普遍采用的方式。具体做法是:作者将文稿寄交编 辑部并经初审合格后,为了审查论文的学术质量需要 将论文稿送交有关专家(即同行)进行评审。 2,我国出版的专利文献有哪些? 目前我国出版的专利文献主要包括专利说明书、专利 公报、专利索引等。既有一次文献,也有二次文献, 他们是: (1)<<发明专利公报>>、<<实用新型专利公报>>和<< 外观设计专利公报>>(每周一次); (2)<<发明专利申请公开说明书>>,<<发明专利申请 审定说明书>>及<<实用新型专利申请说明书>>。 (3)专利年度索引; 3,书目数据库的特点是:信息密度高,文献报道范围 广,数据量大,连续性和积累性强;数据结构简单, 记录格式较为固定,费用低廉;检索途经多,速度快; 更新周期较长。 4,全文数据库的特点:可直接利用;简化数据库标引 和建库工作;避免了文献二次加工中的人为差错;后 处理能力强。 5,名词解释: 1)电子信息源:指以数字化形式(即二进制码)将文 字、图像、声音、动画等存储在光、磁等存储介质上,

信息检索技术习题答案

《信息检索技术》(第三版)书后习题及参考答案(部分) 第1章绪论 【综合练习】 一、填空题 1.文献是信息的主要载体,根据对信息的加工层次可将文献分为_________文献、__________文献、___________文献和___________文献。 2.追溯法是指利用已经掌握的文献末尾所列的__________,进行逐一地追溯查找_________的一种最简便的扩大情报来源的方法。 3.用规化词语来表达文献信息__________的词汇叫主题词。主题途径是按照文献信息的主题容进行检索的途径,利用能代表文献容的主题词、关键词、叙词、并按字顺序列实现检索。 4.计算机信息检索过程实际上是将___________与____________进行对比匹配的过程。 5.无论是手工检索还是计算机检索,都是一个经过仔细地思考并通过实践逐步完善查找方法的过程。检索过程通常包含以下几个步骤_________、__________、__________、__________、_________。 6.检索工具按信息加工的手段可以分文__________、____________、___________。 7.《中国图书馆图书分类法》共分___________个基本部类,下分________个大类。 8.索引包括4个基本要素:索引源、___________、___________、和出处指引系统。 答案1.零次,一次,二次,三次 2.参考文献,引文 3.容特征 4.检索提问词,文献记录标引词 5.分析课题,选择检索工具,确定检索途径及检索式,进行检索,获取原文 6.手工检索工具,机械检索工具,计算机检索工具 7.五,22 8.索引款目,编排方法 二、判断题 1.在检索信息时,使用逻辑符“AND”可以缩小收缩围。() 2.逆查法是由近及远地查找,顺着时间的顺序利用检索工具进行文献信息检索的方法。() 3.按编制方法划分,信息检索工具可以分为:手工检索工具、机械检索工具、计算机检索工具。() 4.请判断下面图书的国际标准书号的格式是否正确。ISBN:978-030-26151-X。() 5.文献的专利号、报告号、合同号、标准号、索取号、国际标准书号、刊号属于文献的部特征。 6.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检索。 答案1.√2.×3.×4.√5.√6.× 三、选择题(单选或多选)

浅谈现代信息检索技术的发展

浅谈现代信息检索技术的发展 要想充分利用这些浩如烟海的文献信息资源,必须借助各种各样的检索工具。同时,因特网信息资源的骤增及其异构性、动态性,不断给信息检索带来新的挑战。信息检索已成为现代社会信息化和各种应用的关键。如何更高层次的模拟、应用人脑的智能原理,从本质上变革信息资源检索方法,已成为现代化信息知识检索理论研究的热点。实践证明,将人工智能技术与信息技术结合,发挥人工智能的作用,是一条成功的经验。下面就知识检索与信息检索的关联和发展,作初步的探讨。一、布尔检索利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“OR”、逻辑与“AND”、逻辑非“NOT”。用这些逻辑算符将检索词组配构成检索提问式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。①“计算机”AND“文献检索”,表示查找文献内容中既含有“计算机”又含有“文献检索”词的文献。 ②“计算机”OR“文献检索”,表示查找文献内容中含有“计算机”或含有“文献检索”以及两词都包含的文献。③“计算机”NOT“文献检索”,表示查找文献内容中含有“计算机”而不含有“文献检索”的那部分文献。检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应有检索效果的事情是很多的。二、信息检索信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。信息检索通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。它是基于信息组织形式,如字符串、结构化数据库,应用信息处理方法,如排序数据查找、字符匹配,实现效率不高的检索。信息检索综合应用布尔检索方法和基于超链的检索技术,改进了基本检索功能,但缺点是对精确的提问不能给出精确的回答。从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。 三、知识检索知识检索的基本思想是,模拟扩展人类关于知识处理与利用的智能行为和认识思维方法,是充分利用在线图书馆和数字图书馆的文献信息资源的有利工具。例如:抽象思维方法,形象思维方法。知识检索具有明显的优势:①实现信息服务向知识服务的转化,向用户提供潜在内容知识,以及分析预测后的超前性领域成果或知识。②提供主动服务方式,自动优化用户需求,主动提供个性化检索。③面向用户,依据用户的需求及其变化,能灵活选择理想的检索策略和技术,并且将繁重的知识信息存取工作从用户移向了计算机。④综合应用各类知识和各种高效的智能技术,全面提高检索效率。知识检索是综合应用信息管理科学人工智能认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果。四、智能检索智能检索利用分词词典、同义词典,同音词典改善检索效果,比如用户查询“计算机”,与“电脑”相关的信息也能检索

信息检索方法与程序_案例

110240232 张嘉自控1108 文献检索方法是为了达到既定目的所采取的手段。检索途径是按照文献存贮与检索基本原理,并依检索工具的编排方法来查找有关的具体文献信息。两者都是为实现检索服务的,这是它们的相同点。但从检索步骤看,两者又是有区别的。多数是在选定检索工具书刊或数据库的前提下,先定检索途径,后定检索方法。 一、文献检索方法 文献检索方法有多种,主要有: (一)时序检索法。时序检索法是按时间先后次序由近及远或由远及近地查找文献信息的方法。分顺时法、逆时法和分段法三种。 1·顺时序法。这是以课题研究所涉时间为检索起点,由远及近地检索所需文献的方法。适用于需要系统掌握有关文献的研究课题。优点:查全率高并可系统掌握现有的研究成果,便于分析、比较和筛选文献。缺点:所需的检索工具书刊或数据库较全、时间较多,否则反而影响文献检索质量。 例如,查汕头经济特区的发展史料,即可采用顺时法。所涉工具书刊除《全国报刊索引·社会科学》分册及其数据库和中国人民大学书报资料中心编的复印资料有关经济类各分册和索引外,《经济年鉴》、《汕头经济特区年鉴》及有关经济专题索引等检索工具,也是不可或缺的。 2·逆时序法。这是以课题研究所涉时间为检索起点,由近及远地检索所需文献的方法,又称倒查法。适用于新课题或老而有新进展的课题研究所采用。如“汕头与深圳经济特区利用外资结构的分析研究”,即可采用此法。优点:可迅速掌握本课题的研究动态、新观点、新数据等文献信息,缩短查资料的时间。缺点:漏检率高,以至影响对现有文献的有效利用。 3·分段法。是顺时法与逆时法交替使用的检索方法,又称循环法、交替法。采用此法查找文献大致有两种情况:一是已知在某一时期内有关本课题文献的集中与分散情况;二是已知某一专题学术会议中必议题与时间。凡与本课题有关的文献集中期,则列为重点检索的时间范围,其它时间内的文献可作为补充性检索。优点:目标明确,可迅速掌握切题文献信息和节省检索时间。但对本课题的研究动态及其脉络必须有清晰的了解。 (二)跟踪检索法。利用所见图书或论文的后附引文索引、脚注、参考文献等所提供的文献线索,循踪觅迹地扩大检索范围的检索方法,又称追溯法、扩展法。这种由此及彼地扩大检索范围的检索方法,往往可以查到意想不到的切题文献。在检索工具不完备的条件下,广泛地利用文献综述或述评、研究报告等文献后所附的参考文献,不失为扩大检索范围的好方法。但扩展法所索文献往往不系统、漏检率也高。 (三)综合检索法。是指上述检索法的综合利用。例如,对某一时期的文献集散情况较为了解,即先利用逆时法或分段法以越过文献稀少时期。而发现某书或

信息检索考试要点讲解

信息检索考试要点(Word版) 考试题型: 考试分试卷一,试卷二两部分, 试卷一:(客观题80分) (一)单选(20题,20分) (二)多选(20题,40分) (三)判断(20题,20分) 试卷二:(20分) (四)填空题(20空,10分) (五)实务题 1、写检索式(三题,6分) 2、调整检索策略(4分)

第一章绪论 信息素质:在信息化时代,人们认识、利用和创造信息的品质与素养,它是创新人才应具备的素质。 信息素质由信息意识、信息知识、信息能力和信息道德素质四部分构成。 信息:是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。 信息具有客观性、时效性、共享性、价值性、传递性、开发性 知识:是人们在改造世界的实践中所获得的认识和经验的总和,是人的大脑通过思维重新组合的系统化的信息集合。 知识具有意识性、信息性、实践性、规律性、继承性、渗透性 情报:是为了解决一个特定的问题所需要的激活了、活化了的特殊知识或信息。 情报具有知识性、传递性和效用性三个基本属性。 文献:凡是记录有信息或知识的一切载体均为文献。 文献具有三个基本功能:存贮知识、传递信息和交流信息;四个基本要素:知识内容、记录符号、物质载体和记录手段。 文献信息资源类型划分标准: 一、按物质载体和记录形式划分

类型1)印刷型 载体纸张等 记录手段手写、印刷、打印、复印 种类图书、报刊、特种资料等 优点便于阅读及广泛流传,成本低 缺点存储密度低,所占空间大,保管耗较多人力物力,难于实现自动化 类型2)缩微型 载体感光材料 记录手段缩微拍摄 种类缩微平片、缩微胶卷、全息胶片 优点体积小,存储密度高,成本低,传递较为方便 缺点不能直接阅读,需要借助于缩微阅读机,存储要求较高 类型3)声像型 载体磁性、感光材料 记录手段机械装置输入 种类唱片、录音带、录像带、光盘等 优点高密度存储,直观、真切,图文并茂,制作快 缺点不能直接阅读,需要先进的技术设备,制作成本稍高

相关主题
文本预览
相关文档 最新文档