当前位置:文档之家› 文本信息分析

文本信息分析

文本信息分析
文本信息分析

文本信息分析

1.中文文本信息过滤技术研究

1.1文本过滤技术

文本信息过滤是指依据一定的标准和运用一定的工具从大量的文本数据流中选取用户需要的信息或剔除用户不需要的信息的方法[1]。文本过滤和文本检索及文本分类有很大的相似之处。

1.1.1文本信息过滤技术发展

1958年Luhn提出的“商业智能机器”是信息过滤的最早雏形。Luhn所提出的构想涉及了信息过滤系统的每一个方面,为后来的文本过滤做了很好的铺垫。1982年,Dernzing 首次提出了“信息过滤”的概念,在他描述的例子中,可以通过“内容过滤器”识别出紧急邮件和一般邮件,以此提示对信息内容进行有效控制。1987年,Malone等人提出了三种信息选择模式,即认知、经济、社会。认知模式相当于“基于内容的信息过滤”;经济模式来自于Denning的“阈值接受思想”;社会模式是他最重要的贡献,即“协同过滤”。1989年,美国消息理解大会(Message Understand Conference)成立,将自然语言处理技术引入到信息研究中来,极大地推动了信息过滤的发展。

20世纪90年代以来,著名的文本检索会议TREC(Text Retrieval Conference)每年都把文本过滤当作一个很重要的一个研究内容,这很大程度上促进了文本过滤技术的发展。从TREC-4开始,增加了文本过滤的项目;从1997年TREC-6开始,文本过滤主要任务确定下来;TREC-7又将信息分为自适应过滤、批过滤和分流过滤,使得对信息过滤的研究更加深入。

随着信息过滤需求的增长和研究的深入发展,其他领域的许多技术被应用到文本过滤中来,并取得了很好的效果。如信息检索中的相关反馈、伪相关反馈以及文本检索中的向量空间模型的相关技术,文本分类和聚类技术,机器学习以及语言底层的处理技术都被应用到信息过滤中来,极大地拓展了信息过滤的研究广度,推动着信息过滤理论研究与技术应用不断走向完善与成熟。

1.1.2中文本过滤技术

中文文本过滤技术在最近几年得到了业内人士的普遍关注。国内对于信息过滤研究起步较晚,但是目前发展也很快,尤其是随着信息安全、信息定制等应用在国内的兴起,对信息过滤技术的研究也得到人们普遍的重视。其中,中科院计算所、复旦大学都曾参加了TREC 评测中的信息过滤任务,取得了较好的成绩;哈工大、南开大学等重点科研单位也已经开始对信息过滤进行研究。

然而,基于目前提出的中文文本过滤模型开发出的试验系统在不同的领域达到的过滤精度也不相同。由于中英文语法差异较大,对于文本信息的预处理方法不同,因此面向英文的众多过滤算法是否适合中文文本过滤还有待检验[2]。

1.2中文文本过滤的关键技术

文本过滤工作基本上可以概括为两项:一是建立用户需求模型,表达用户对信息的具体需求;二是匹配技术,即用户模板与文本匹配技术。因此,文本过滤的主要流程首先是根据用户的信息需求,建立用户需求模型,然后在相应的文本流中搜索符合用户需求的文本,同时,利用反馈改进需求模型。文本过滤系统的一般模型如图1所示:

1.2.1中文分词

中文分词是对中文句子的切分技术,是中文文本最重要的预处理技术。自动分词过程是指从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程[3]。自动分词是汉语所特有的研究课题,英语、法语等印欧语种,词与词之间存在着自然的分割,一般不存在分词的问题。

中文自动分词已经研究了20多年,但是目前仍然是制约中文信息处理的瓶颈[4]。汉语除了连续书写之外,汉语词汇没有形态变化,也没有各种词的变格,缺乏自然的分割信息。汉语语法的研究多源于印欧语法的研究,分析结果对分词有用的信息较少;汉语的词序义极为灵活,相对的语法限制也较少。在词汇数量上,一般的印欧语种的词汇最多为几十万词,而汉语的词汇高达几百万乃至上千万。一个汉字序列可能有几种不同的切分结果,产生歧义现象。这些都给自动分词造成了极大的困难。宏观上,主要存在语言学和计算机科学等两方面的困难。

汉语分词系统的实现及效果依赖于分词理论与方法。目前国内分词系统所采用的或者正在研究的方法基本上分为以下几类。

(1)机械分词法:主要有最大匹配法(MM法)、逆向最大匹配法、逐词匹配法、部件词典法、词频统计法、设立标志法等。

(2)语义分词法:语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法等。

(3)人工智能法,又称理解分词法,如专家系统法、神经网络方法等。

1.2.2 过滤模型

信息过滤系统的性能,关键在于模型的完善程度如何。目前描述文本信息的模型有很多种,有布尔模型、向量空间模型、概率推理模型、潜在语义搜索模型、基于模糊集合的信息过滤模型。

其中,向量空间模型(VSM)的最大优点在于它在知识表示方法上的巨大优势:文本被形式化为多维空间中的向量,把对文本内容的处理简化为向量空间中的向量运算,大大降低了问题的复杂度,提高了文本处理的速度和效率。

在一个向量空间模型构造的信息过滤系统中,用字项来标识文档。一个包含不健康信息的文档D用一个m维向量来表示,其中m是能够用来表示文档内容的字项的总数。给每一个字项赋予一个权值用来表明它的重要程度。该文档D的向量表示为D={w1w2…wm},其

中wm表示第m个字项的权值。在进行信息过滤的过程中,首先对请求的页面数据进行加工将其看成是一个由n个词组成的向量P,然后比较向量P和向量D的相似程度。通常使用的方法是取两个向量的余弦值,根据它们夹角的大小来判断相似程度。最后根据相似程度来决定是否要过滤掉该页面。

也正因为把文本以向量的形式定义到数域中,VSM模型大大提高了文本处理的速度和效率,因此在文本过滤领域VSM是被广泛采用的文本表示模型[5]。向量空间模型也有明显的缺点:它是一种忽略了特征项之间顺序的词代文本表示模型,虽然带来了计算和处理上的便利,但却损失了大量的文本结构和语义信息;另外向量空间模型是建立在所有项两两正交这一假设的基础上的,没有考虑特征项之间的相关性,对于有着丰富语义的自然语言来说,这种假设过于严格,不能很好地反映自然语言的特征。总之,用简单的初等运算来代替语义,误差势必存在。

1.2.3 特征选择

特征选择(Feature Selection)的基本思想通常是构造一个评价函数,对特征集的每个特征进行评估。这样每个特征都获得一个评估分,然后对所有的特征按照其评估分的大小进行排序,选取预定数目的最佳特征作为结果的特征子集。选择的准则是经特征选择后能有效提高文本准确率。选择没有改变原始特征空间的性质,组成一个新的低维空间。

特征选择具有降低向量空间维数、简化计算、防止过分拟合以及去除噪声等作用,特征提取的好坏将直接影响着文本过滤的准确率。常用的特征选择方法有:文档频率、信息增益、互信息、x 统计量、期望交叉熵、文本证据权和几率比等。采用国家“八六三”计划中文文本语料库和Rocchio 分类器对常用的特征选择算法进行评估,结论是几率比OR(OR,Odds Ratio)方法最好[8]。几率比(OR,Odds Ratio):

其中,pos表示正例集的情况,neg表示负例集的情况。几率比只关心目标类值,这使得几率比特别适用于二元分类器。在二元分类器中,希望能识别出尽可能多的正类,而不关心识别出负类。而实际的训练集中负类往往占90%以上的比重,这时几率比对于其它评估函数来说有其独特的优势。

1.3文本过滤的评估标准

为了衡量信息过滤系统效果,需要一套性能标准。一个完善的评价系统需要考虑的不仅仅是信息内容,还包括社会因素、用户兴趣等方面,所以至今还没有一套完美的评测方法。通常,信息过滤系统效果的评估借鉴信息检索的做法。

得益于信息检索评估的长期经验,具体的方法大致可以分为三种:试验评估,仿真评估和分析评估。信息检索标准的评估对信息过滤效果的评估有一定的参考价值,但是不能完全套用。目前大部分过滤效果还是由查全率(Recall Ratio)和准确率(Precision Ratio)来衡量的,准确率和查全率被广泛应用于仿真试验。然而,由于查全率的计算必须以整个数据集为基础,而整个数据集是未知的,所以它不可能应用于那些已经将无关数据忽略掉的真实过滤系统的实验。除了采用在信息检索中常用的查全率和准确率指标外,批过滤和自适应过滤子任务还采用Utility 和 F 值来评价,而分流子任务则根据平均非插值准确率(average un-interpolated precision)评价[9]。

下面就常见的几种评估标准进行比较说明

( 1 )查全率,指系统在执行某一检索时,检出相关文档的能力,它等于检出满足用

户需求的文档与系统中相关文档总量的比:

R = 检出相关文档量/系统数据库中相关文档总量

(2)准确率,指系统在执行某一检索时,拒绝不相关文档的能力,它等于检出的满足用户需求的文档与检出的文档总量的比:

P = 检出相关文档量/检出文档总量

(3)F值,基于Van Rijsbergen的定义,是准确率和查全率的函数。定义为:

在同一个运行环境下,查全率和准确率是两个矛盾的参数,一方面性能的提高,另一方面的性能就会有所下降。根据不同应用领域对内容过滤性能要求的侧重点不同,以及各种过滤算法的优缺点,可以选择适合本应用领域的过滤算法,也可以把这些算法结合适用,以提高系统的整体性能。

F 测度是一种综合了查准率与召回率的指标,只有当两个值均比较大的时候,对应的F 测度才比较大,因此是比单一的查准或召回率更加具有代表性的指标。

2 自由文本信息抽取技术

2.1 背景

随着计算机的普及与互联网的高速发展,信息也是爆炸式地增长。信息的过量增长带来一定负面影响:面对巨量的信息,难以发现真正需要的信息。如何将大量无序的信息及时准确地进行提取、整理、组织成便于查询检索的形式,已成为研究开发的焦点。信息抽取正是在这种背景下产生、发展起来的。

信息抽取是以一个以未知的自然语言文档作为输入,产生固定格式、无歧义的输出数据的过程。这些数据可以直接向用户显示,也可作为原文信息检索的索引,或存储到数据库、电子表格中,以便于以后的进一步分析。从广义上讲,信息抽取的处理对象可以是文本、图像、语音、视频等多种媒体。但随着文本信息抽取的强势发展,特别是在美国防高级研究计划局(DARPA)所资助的消息理解会议(MUC)对不同文本信息抽取系统组织统一评估后,信息抽取已被用来专指文本信息的抽取。

信息抽取首先是自然语言理解技术和实际应用相折衷的产物。自然语言处理有着从根本上解决人机对话问题的良好前景。然而,目前的自然语言处理水平尚不能对任意的文本进行深入的分析,不具备深入理解自然语言的能力。与自然语言理解不同,信息抽取一般不对文本作深入的全面分析,它的主要功能是根据预先设定的任务,抽取特定类型的信息。例如,一个用于从新闻报道中抽取恐怖主义事件的信息抽取系统,只需提取诸如受害者、加害者、事件中使用的武器等信息即可达到要求。信息抽取的优势在于简化了自然语言处理的过程,只关注相关的信息,而忽略无关的内容。

另一方面,信息抽取技术可视为信息检索技术的一个深化。信息检索从文档的集合中寻找与用户要求相关的文本或段落。信息抽取则是在相关文本或段落的基础上,发现用户需要的信息。信息检索一般对文本的语义不进行分析,而由用户对文本的语义做出解释。信息抽取则由系统分析文本的语义,在此基础上,给出用户需要的信息。在实际的应用中,信息抽取和信息检索可互补使用。如,由信息检索系统寻找相关文档,而后由信息抽取系统在相关文档中抽取所需信息;反之,也可在信息抽取的基础上,进行高精度的信息检索。

信息抽取、信息检索与自然语言处理这三者之间的关系可用图1表示。

近十多年来,信息抽取在许多领域得以成功应用。如:在经济领域中,从经济新闻中抽取公司的人事更替信息等;在医药领域中,从医疗记录中抽取病人的症状、处方等信息;在军事领域中,从军用电文中抽取目标的相关信息,实现军用情报的自动收集等。另外,信息抽取还可实现从扫描的图书信息中,自动构建索引信息,这对构造数字化图书馆有相当重要的意义。

2.2 信息抽取的内容和主要应用

根据消息理解会议(MUC)的定义,信息抽取按层次不同可分为五类。

①命名实体的识别。抽取文档中的人名、地名、组织名、日期、时间和涉及的一些数额等信息内容。目前,命名实体的识别技术是信息抽取技术中最简单,也是最可靠的技术。

②指代的解析。分析文档中实体之间的指代关系,同一个实体在所分析的篇章中,可能有多种不同的指代方法,指代的解析就是将不同的指代连接到同一实体上。

③模板元素的构建。将描述性信息联系到实体上,信息抽取除了对命名实体进行定位、分类外,一般还要求将一些描述性信息分配不同的实体上,形成实体的完整描述。

④模板关系的构建。发现实体之间的相互关系,在模板元素的基础上,寻找实体之间可能存在的关系。

⑤场景模板的产生。场景模板是信息抽取系统输出的原型,场景模板的产生就是将各实体联系到一起形成事件或关系的完整描述。

信息抽取以结构化的方式表达原文的内容,这使得各种不同的应用都可利用或得益于信息抽取的结果。总的来讲,这些应用可分为如下几类。

①摘要和总结。将原先较长的文本,用较短的文本进行表达。

②可视化。以可视的方式表达原文中的概念及其关系。

③搜索。寻找某一处理层面上或语义上相似的信息。

④索引和分类。根据语义表示进行分类,建立索引。

⑤翻译。由于翻译具有语境针对性,一般要进行语义上的信息抽取。

⑥问答。一般用于人机交互中。

⑦知识抽取。在信息抽取的基础上进行知识的抽取。

⑧知识推理。应用机器学习方法在信息抽取结果上进行知识推理。

⑨任务定义。机器人等通过自然语言界面接受命令。

⑩构建知识库。信息放入知识库中,实现跨应用和时间的信息共享。

2.3 信息抽取的评估

信息抽取的评估可分为两个方面:一是对信息抽取任务复杂度的评估,二是对信息抽取系统性能的评估。一般而言的信息抽取评估,是指在给定任务的情况下,对信息抽取系统性能的评估。

2.3.1 抽取任务复杂度的评估

信息抽取任务的难易主要取决于以下三个因素。

(1)文本的类型。信息抽取的文本既可能来自于学术期刊,也可能来自WWW上的HTML 文档,或电子邮件信息。不同来源的文本有不同的格式规范,有时信息抽取可利用这些格式上的隐性信息。

(2)涉及的领域。信息抽取应用较为广泛,既可用于金融领域,也可用于旅游业或技术支持性的领域等。

(3)抽取的场景。既有公司、企业之间合并信息的抽取,也有关于恐怖主义活动等的信息抽取。

因此,抽取任务复杂度的评估必须兼顾文本类型、涉及领域、抽取场景的多态性。在所有的信息抽取中,实体抽取是最低层的任务,也是必不可少的。因此,抽取任务复杂度可从文本中涉及的实体关系方面进行分析。首先将抽取的任务用实体网络进行描述,在实体网络中,以节点表示实体,以弧表示实体之间存在的关系。一个实体网络中含有的节点和弧越多,表明相应的抽取任务越复杂。因此,弧的数目在一定意义上表明了抽取任务的复杂度。

2.3.2 信息抽取系统性能的评估

信息抽取系统产生固定格式、无歧义的输出,对信息抽取系统的评估易于采用较严格的标准。信息抽取系统性能的评估主要有两个指标:精度(precision)和召回率(recall)。精度是指抽取的信息中正确抽取的比例,召回率则指正确抽取的信息占应抽取信息的比例。当比较两个不同信息抽取系统的性能时,一般使用这两个指标的综合值:F度量。

其中:P为精度,R为召回率,U为对精度的偏重量,一般取U=1。

2.4 自由文本信息抽取技术

信息抽取处理的文本可分为三种:自由文本、半结构化文本和结构化文本。自由文本有较强的语法,如新闻报道等内容。结构化文本则有较强的结构性,往往由程序控制自动产生,信息抽取的对象一般为某些字段所对应的内容。半结构化文本介于两者之间,它的信息内容是不合语法的,有一定的格式,但没有严格的格式限制,如房屋租赁广告的web页面等。一般可认为半结构化文本和结构化文本主要通过互联网产生,其抽取技术也有很多的相似之处,通常将这两种文本称为在线文本,本文的研究仅限于自由文本的信息抽取技术。

自由文本的抽取技术可分为三类:基于NLP(自然语言处理)的方式、基于规则的方式和基于统计学习的方式。基于NLP的方式是早期的信息抽取方法,一般效率较低,现已较少使

用。基于规则的方式是一种知识工程的方法。在早期,一般以手工的方式设置抽取规则。随着应用范围的扩大,手工获取规则突兀成为知识工程的瓶颈。近期大量语料库的涌现,为规则的自动学习和获取提供了可能,这使得机器学习的方法在规则的(半)自动获取中得到广泛应用,基于规则的方式成为当前信息抽取的主流。基于统计学习的方式主要有基于HMM(隐马尔可夫模型)的方法等,由于HMM的参数可通过训练获得,这种方式的可移植性较好。

2.4.1 基于NLP信息抽取方式

自然语言的处理过程一般可归为:语音、词、词形、语法、语义、篇章、语用7个不同的抽象级别。自然语言理解所需的知识量是惊人的。据文献介绍,20世纪80年代初,耶鲁大学研制的BORIS系统,在知识工程方面经过三年的努力,只能对两段描述性的文本进行深入的分析,对其他段落则无能为力,这初步表明自然语言理解方法不完全适合于进行广泛的信息抽取。随后的相关研究继续证实了这一点,如在MUC-3的信息抽取中,TACITUS作为一个文本理解系统,取得了最高的精度,但速度特别慢。在100条信息的抽取中,TACITUS用了36小时的时间。NLP方式不适于信息抽取的主要原因在于:信息抽取与文本理解之间存在较大的差别:信息抽取只关心相关的内容,而文本理解则要能体会作者的细微用意和目的。意识到信息抽取远没有文本理解那么严格的要求,FASTUS对信息处理的过程进行了简化,并以有限状态机进行语法分析,取得较好的信息抽取效果。

FASTUS将处理过程分为5个层次。

①合成词语。对多词组合成的词和专有名称进行识别。

②基本短语。语句被分为名词词组、动词词组和虚词等部分。

③合成短语。识别较长的复杂名词词组和动词词组等。

④领域事件。产生应用中关注的事件模式,构建事件的结构。

⑤合并结构。对同一事件或实体信息的结构加以合并。

FASTUS尽管大大简化了文本理解的内容,但整个的处理结构,特别是底层的处理并没有脱离自然语言处理的模式,仍然是一种较为传统的信息抽取方法。但由于其“只做了该做的工作”,FASTUS具有较高的效率,并作为作战信息处理系统的一个部件,用于分析、追踪军用信息中紧迫性高的目标。

2.4.2 基于规则的信息抽取方式

基于规则的信息抽取是一个学习和应用的两阶段过程:规则的学习和应用规则获取目标信息。信息的抽取规则主要用于指明构成目标信息的上下文约束环境,如CIRCUS系统的抽取规则为概念节点,每个概念节点主要由触发词、激活条件、硬性约束、软性约束和目标信息位置这几项组成。其中,触发词用于指示目标信息的上下文中必须含有的关键词,激活条件指定必须满足的语言模式,硬性约束则是强制性的语义约束,软性约束也是一种语义限制,但这种限制是可违背的。这个概念节点成为后来的AutoSlog、CRYSTAL、AutoSlog-TS等系统的通用性规则。

LIEP、PALKA、RAPIER等其他系统的抽取规则具有类似的约束。由此可见,只要在文本中找到满足规则所指约束条件的信息,也就达到了信息抽取的目的。因此,规则本身的学习和提取成为信息抽取的关键,而目标信息的抽取则退居为次要过程。由于规则较为集中的体现了领域知识和语言知识的融合,所以其构建过程即为知识的获取过程。根据手工参与程度的不同,规则的构建可分为三种类型:知识的手工编制、知识的半自动获取和知识的自动获取。

2.4.3 基于统计的信息抽取方式

基于统计的信息抽取主要有基于HMM和基于PCFG(概率上下文无关方法)的方法等。基于HMM的方法因其简洁性和参数可通过未标注的训练集获取而成为研究的重点。HMM 的优势在于具有较强的统计理论基础,已形成健全的训练算法,能健壮的处理新数据,适于处理自然语言的任务。弱点是须预先提供HMM的拓扑结构,并要有大量的训练数据。

HMM一般将文本看作多层的结构:短语序列构成顶层HMM结构,短语内部的字串或词性标签序列构成底层HMM结构。短话既可为语法单元,也可为语义单元。语法单元可由语法分析器获取,为便于HMM的处理,通常认为此时短语之间不构成树形结构关系,仅作为扁平的HMM序列进行分析。语义单元可由HMM获得,也可由DFSA(确定有限状态自动机)识别,或用规则进行界定。

基于HMM的信息抽取过程可看作目标信息(待抽取的信息)的三次定位过程,一是在文本中定位到含有目标信息的句子;二是在此基础上,定位到目标信息所在的短语单元;三是在短语单元中寻找所要抽取的目标信息。

2.5 信息抽取的挑战及趋势

信息抽取面临的主要挑战是知识工程的瓶颈问题,即信息抽取的适应性问题。在特定的领域构建信息抽取系统,技术上已基本成熟,但仍需花费大量的人力和物力。知识的自动获取实际上仍没有达到完全自动,大部分系统只是把原先的由领域专家完成的任务,转化为用户的任务。在构建通用的知识学习器方面,部分文献进行了有益的探讨,但效果不是很理想。目前,移植IE系统面临以下四个方面的问题。

①适应新的领域信息。构建系统资源(如词库、知识库等),并设计新的模板使系统可以处理一些特定领域的概念。

②适应不同子语言特征。修改语法和词库,使系统能处理应用或领域内典型的特定语言结构。

③适应不同的文本流派。特定流派的文本(如医学结论、科学论文、政策报告等)具有特定的词汇、语法和篇章结构。

④适应不同类别的文本。基于Web的文档可能与新闻报纸之类的文本有着强烈的差别,必须能适应不同的情况。

现代信息抽取呈现以下三方面的趋势。

①信息抽取的范围不断扩大。从信息抽取的信息源看,早期的信息抽取主要集中于自由文本,现在的信息抽取则扩展到话语信息抽取和Web页面信息抽取。话语文本分析不同于一般的文本,当话语转换为文本时,会出现信息的增加和丢失(识别错误引起)现象,信息抽取技术也必须能适应这种现象。Web页面作为海量的信息存储所,近年来尤其受到信息抽取和文本挖掘技术的关注。从信息抽取的领域看,已从军事、政治、医学等领域,扩散到商业、科技等领域,且仍有进一步扩大的趋势。

②信息抽取技术的多样化。信息抽取一般与领域性知识有较紧密的关系,因此,最初的信息抽取与子语言的处理技术也极为相似,规则语法、上下文无关文法和自动机技术等应用的较为广泛。随着语料库的成功构建,特别是Web页面的迅猛增长,基于统计的技术(如HMM 等)和机器学习方法(如覆盖性算法等)在信息抽取发挥着越来越重要的作用。可以说,信息抽取技术已摆脱了狭义的自然语言理解技术的束缚,向着多样化的方向发展。

③知识获取的进一步自动化。信息抽取面临的主要挑战是系统在领域间的可移植性问题,这一问题关系着信息抽取技术适用范围的大小。知识的自动获取就是针对这个问题而提出的,并经历了手工编码、半自动获取和自动获取三个发展阶段,知识的自动获取已成为信息抽取技术的核心。目前,知识的获取主要面临三个方面的问题:a.没有提出标准的知识框架。领域之间所需知识差别很大,通用的知识框架能帮助快速获取这些知识。在这方面,概念节点是个很好的范例,但没有作为标准提出。b.知识的自动获取范围较窄。目前仅限于规则模式的自动获取,而对于如CRYSTAL等至关重要的概念层次等仍由手工编码完成。c.自动化的程度仍偏低,要求一定的手工参与。覆盖性算法等虽然要求用例较少,但对所用实例一般要求较高,必须细心选择。因此,知识获取自动化仍是研究的重点。

3 文本信息处理关键技术

3.1 分词技术

词由字构成,词是文本的有机组成部分,对文本信息的任何处理都离不开词。分词是文本信息处理的基石,分词技术的好坏直接影响文本信息的抽取、主题的提取、段落的理解、更进一步的自动摘要和文本中心思想的归纳以及隐藏在文本信息之中的知识挖掘。目前的中文分词技术存在两大难题:词典的不完备性和切分歧义性。

对于歧义消解,虽然做了许多工作,但效果依然不理想,比如将包含组合型歧义字段“将来”、“才能”、“中长期”的句子“市长将来我们学校考察工作”、“人才能推动科技进步”、“这是国际共产主义运动中长期没有解决的一个重大理论问题”在北大计算机语言研究所的分词测试平台上[14]和猎兔分词平台测试[15]都不能获取正确的分词结果。对包含交集型歧义字段的句子“每前进一步都要付出一定代价,避免暴力活动在大选前进一步升级”、“我看主要是你的问题,主要是再不显灵我们就没救了”、“食品加工厂负责人参加了会议,食品加工厂负责人参加密集的工序”进行测试依然不能获得正确的切分结果。

文献[12]统计,用一个含有70000个词的词典去切分含有15000个词的语料库,仍然有30%以上的词条不在词典之中,基于词典的分词方法的效果因此受到极大的限制。

另外,深层的、能体现文本语意的分词技术研究还比较欠缺。比如“信息抽取研究综述”切分成“信息”、“抽取”、“研究”、“综述”4个词,还是切分成“信息抽取研究”、“综述”两个词或切分成“信息抽取”、“研究综述”,在不同语境中有不同的切分方式。如何使得切分结果最贴近语意,这就存在一个切分方式与语意贴近距离度量问题的研究。如果找到一个能评价分词方式与语意贴近度度量的计算模型,使得切分方式最贴近文本语义,随后诸如文本的信息抽取、主题提取、自动摘要,甚至语义理解和归纳推理等工作就随之简单了。

因此分词歧义的消除、词典的完备以及切分方式如何贴近语义,是分词研究中的3大关键技术。目前这3方面的研究工作做了不少,但离文本信息的智能处理还有很大的差距。尤其是贴近语义的分词研究。

3.2 文本的结构化存储处理

计算机对数据处理的强势表现在结构化数据处理,而文本信息一直以来都是一种非结构化的存储数据。随着网络中的文本信息的急剧增长,网络文本信息的有效处理能力日益低下,因此如何有效地将非结构化文本数据转化为结构化存储,成为一种新的应用研究领域。

在网络环境下的信息时代中,针对计算机的特点,为提高计算机对文本数据处理的能力,在努力提高计算机处理非结构化数据能力的同时,将非结构化的文本数据转化为结构化存储,将是文本信息处理的一个具有挑战性的技术领域,对Web信息检索技术具有革新性的重要意义。

3.3 语义分析

自然语言理解的高级智能活动就是语义分析。不同智能水平的人对同一段文字的理解差异很大,因此文本信息的语义分析是人工智能的高级境界。没有文本语义的高级智能分析,不仅仅严重制约文本理解的深入和透切,更是制约诸如Web语义、图像、图形等信息的智能理解,因为所有这些信息载体中都或多或少附带一定文字说明。目前,文本语义分析研究从国内外的文献资料来看显得很匮乏。现有的关于基于语义分析的文献资料仅仅停留在一定文档模型基础上,对某些满足一定结构的字、词做一定的统计处理,并不是从文本本身的内在定义和外延进行分析处理,更未从文档中所涉及的对象及其对象属性和对象间的关系入手进行分析处理。当然文本的语义分析是计算机学家和语言学家所共同面临的问题,而这一问题的解决对信息处理的智能化程度有着不可估量的促进作用。

从文本所涉及的字词入手,分析其内涵和外延,从分文所涉及的事物、事件或对象入手,分析其关联和变迁,这样的文本语义分析将是文本信息处理的一个新的具有挑战性的综合研究领域,它的实现将是对语言文字人工智能化理解的具体体现。

3.4 归纳推理

归纳推理包含归纳和推理两个过程。所谓归纳就是一种由个别到一般的概括,包括句子的归纳、段落大意的归纳和短文主题的归纳等。推理就是在正确理解文本的语义前提下,透过字里行间推理言外之意及作者的语气、态度。文本信息处理中,计算机的推理像人工一样,能由表及里、由此及彼,从字里行间推理出合乎作者本意的言外之意。推理的结果既来自于字里行间,又高于字里行间;既符合原文实际内涵,又超越实际内涵;既基于已知事实,又不仅仅是已知事实。归纳推理是文本信息理解的最高境界,从人工对文字理解的角度来说依然是一个高难的智能过程。但我们认为,计算机在对文本做正确的分词和文本结构化处理的基础上,进行正确的语义分析,然后从文本信息中归纳出一些有广泛共识的结果是可行的,也是可能的。在归纳的基础上借助机器学习的技术进行推理不是不可能的,毕竟计算机有强大的信息处理能力以及丰富的计算模型,还有人们对科学的不断进步的追求精神。

参考文献

[1] 黄晓斌. 网络信息过滤原理与应用[M]. 北京: 北京大学出版社, 2005: 41~42.

[2]李宝安,李燕,孟庆昌.中文信息处理技术——原理与应用[M].北京:清华大学出版社,2005:193~196.

[3] 吴立德. 大规模中文文本处理[M]. 上海: 复旦大学出版社, 1997: 16~17.

[4] 李瑞芳, 孙健, 李娜. 基于计算机自动分词的研究[J].沈阳化工学院学报2008, (3): 255~259.

[5] 胡恬, 夏迎炬, 黄萱菁, 吴立德. 基于向量空间模型的Web中文信息过滤系统[J]. 计算机工程. 2003,增刊: 25~26

[6] 徐义峰.蒋慧新.周浩.基于Web 的信息过滤模型研究.商场现代化[J].2006, (11).

[7] 高淑琴.Web 文本分类技术研究现状述评[J].图书情报.2008,(3):0081~87.

[8] 张申亚. 文本分类技术中的特征选择算法研究[J]. 信阳农业高等专科学校学报, 2007,(3): 125~127.

[9] 刘杨,陈晖,陈远江. 中文文本信息过滤技术研究[J]. 船舶技术应用研究.2010(7):58~61.

[10] 李向阳,苗壮. 自由文本信息抽取技术[J].情报科学.2004(7):815~821.

[11] 袁鼎荣,钟宁,张师超.文本信息处理研究述评[J].计算机科学.2011(2):9~13.

[12]Chien Lee-Feng . PAT- tree-based adapti ve keyph rase extraction forint elligent Chinese informati on retrieval[ J ] . Information Processing and Management , 1999 , 35 : 501-521.

[14] https://www.doczj.com/doc/db8535499.html,/

[15] https://www.doczj.com/doc/db8535499.html,/SCSeg.jsp

3.1日常文本信息的加工与表达教学设计

3.1.文本信息的加工和表达教学设计 常见文本类型及日常文本信息的加工与表达 第一课时 一、教材分析 《日常文本信息的加工与表达》选自广东教育出版社出版的全日制普通高中高一信息技术第三章第一节中的第一和第二小节内容。这一节内容是后续的表格信息的加工与表达、多媒体信息的加工与表达、用智能工具处理信息、信息的发布与交流等内容的基础和前提。 不同文本的表现形式有不同的加工表达特点,所选用的工具也不一定相同。常用的文本加工工具有:Word、WPS、记事本、写字板等。按文本组织形式的复杂程度,我们可把文本信息的加工分为日常文本信息的加工和报刊类信息的加工两大类。日常文本包括标语、广告、通知、信函、报告、文章等。 二、学情分析 学生在义务教育阶段初步学习了写字板、WORD等,体验了文本加工的基本操作,通过前面章节的学习,大部分学生比较熟悉利用网络搜索素材。但是也有一部分学生是“零起点”,没有处理文本信息的操作基础。 三、教学目标分析 1、知识与技能 (1)、了解常见文本类型及其加工软件; (2)、巩固在文本处理时的常见名词,如:版面、段落、文字、对象等概念; (3)、能够根据任务需求,熟练使用文字处理软件加工信息,表达意图。 2、过程与方法 经历、体验文字信息的加工过程,表达自己的观点,交流思想,促进合作。 3、情感态度与价值观 (1)、培养学生的审美能力; (2)、培养团结协作的精神。 四、重点与难点分析 1、重点 (1)、如何利用文字处理工具软件加工信息; (2)、以恰当的效果表达意图。 2、难点 如何根据任务需要,较为熟练的加工信息,并选择恰当的效果。 五、教学策略 贯彻新课标和素质教育的精神,通过案例学习、任务驱动法、分层教学法以及小组协作

数据分析报告范例

竭诚为您提供优质文档/双击可除 数据分析报告范例 篇一:数据分析报告 数据分析报告 今年年初以来公司在总经理的领导下,积极生产,各项工作都取得了 一定的成绩,特别是通过坚持贯彻Iso9001:20XX标准,使公司的管理更上了一个台阶,现将我们收集的部分数据进行分析以供领导决策。 20XX年签订了项目合同13项,完成11项,2项项目在进行中,验收工程一次合格率100%,完成的11项工程项目顾客满意率超过95%。 系统集成部多次组织技术人员和项目经理、施工人员学习国家标准和行业规范,严格按照程序文件和作业指导书的要求组织设计和施工。 工程项目的实施都严格按照国家标准规范进行,确保为用户提供满意的、高质量的工程项目和优质的售后服务。从部门负责人到项目经理以至每一位员工都自觉地将分解到

的质量目标融入到日常工作之中,涉及到的每一个环节都得到较好的控制,由不理解到形成自觉的行动,按程序文件要求做已经在尉然成风,发现问题不遮、不掩、不护,采用自检、互检和专检活动,促进质量意识和企业文化深入人心,调动了每一位员工的积极性,上下形成一个共识,我们的工程要做成为顾客最满意的工程。 中国建设银行辽中近海支行综合布线系统项目、中国建设银行辽宁省分行、后台处理中心综合布线系统项目、中国建设银行沈阳彩霞支行综合布线系统项目、中国建设银行沈阳三好街支行综合布线系统 项目、建行大东支行莱茵河畔自助银行综合布线系统项目都是一次验收合格交付的,工程项目符合用户和行业标准的要求,得到了用户的赞扬和好评,提高了公司的经济效益和企业现代管理水平,至今没有发生顾客投诉等问题。 华汇人寿保险股份有限公司办公设备采购项目、中国建设银行辽宁省分行网点网络设备采购项目都是一次验收合 格交付,客户对我们公司提供的服务十分满意。 交付的大连泰山热电有限公司网络信息安全整改项目,提高了泰山热点系统运行效率,保证了系统的安全性,为系统正常运行发挥了重要作用。 部门采购人员今年按要求对供方进行了评价,确定了合格供方,到目前为止这些供方提供的产品、原材料质量稳定,

论述类文本阅读________分析概括作者在文中的观点态度

论述类文本阅读分析概括作者在文中的观点态度 作者在文中的观点态度,是文章思想内容的核心,也就是文章的意旨。“分析概括作者在文中的观点态度”这一能力点,是在归纳文章内容要点的基础上提出来的进一步要求。 (一)、什么是作者的观点态度 所谓观点,就是作者对事物所持的看法;所谓态度,就是指作者在文中所表现的思想倾向和感情倾向,包括肯定与否定、爱与憎、褒与贬,以及某种程度的保留等。 作者的观点态度,在不同类型的文章中有不同的表现形态。一般说来,论说性的文结字是明朗的、直说的;文学作品则比较含蓄。论说性的文章中,中心论点、分论点以及某些论,就是作者在文中的主要观点。叙述性的文学作品,一般以写人、叙事、写景见长,观点态度等不直接说出,但是,也是可以捕捉到的。如孙犁的散文《黄鹂》,由实而虚,经过几番推导,而不断飞跃,呈现出一种“哲理升华”的情致美。读完全文,经过一番揣摩,就可以领悟到溶化在艺术画面里的生活感受和得到的人生见解,感受到作者对美好事物的追求,以及对破坏人生和文艺“极致”的义愤。 (二)、分析概括作者观点态度的途径 途径多种多样,主要有三条。 1.从概括性强的句子入手 有的文章的观点是直接表述的,抓住了概括性强而又表达某种看法的句子,就抓住了作者的观点态度。 例1:1999年第23题第1问:这篇《创造宣言》认为教育的最大成功是什么?相关原文是这样的。 教师的成功,是创造出值得自己崇拜的人。先生之最大快乐,是创造出值得自己崇拜的学生。说得正确些,先生创造学生,学生也创造先生,学生先生合作而创造出值得彼此崇拜之活人。倘若创造出丑恶的活人,不但是所塑之像的失败,亦是合作塑像之失败。倘若活人之塑像又由于集体创造的,而不是个人创造的,那么这成功失败是属于集体,而不仅仅属于个人。 这段文字中的每一句话都明说着或暗含着作者的一种观点。哪一句话表达作者对“教育的最大成功”的观点呢?首句说教师的“成功”,自然不是;次句说“先生之最大的快乐”,有点像,但不是。因为下句有“说得正确些”,可见它不够正确。而“学生先生合作而创造出值得彼此崇拜之活人”一句概括力强,内容完备,就是作者的主要观点,也就是“教育的最大成功”之处。这样一个“寻找”的过程,就是分析的过程;这个句子表述明确集中,找出来就找到了答案,不必再作概括。 2.从文中运用的材料入手 文中运用的材料,不论是事实还是文献资料,总是要表达一定的观点的。因此,从分析材料入手,是分析概括作者观点态度的重要途径。 例2:第二段引述了《学会生存》中的一些话,作者引用这些话要说明什么?用自己的话概括为两点: ① ② 创造思考教学以培养创造性思维为目标。创造性思维具有以下特点:创造性思维的结果对于思考者或者文化而言具有新颖性和价值;创造性思维是非传统

文本素材处理

第2章文本素材处理 学习指南:本章介绍文本素材采集、编辑、加工处理的有关知识。主要内容有:文本素材的基础知识,文本素材的采集与处理方法,文本素材创作实例。学习本章,要求掌握以下知识: 掌握文本在计算机中的表示方法,了解文本素材的主要特点; 熟悉常见的文本文件的格式,并能正确地选择文本文件的存储格式; 了解常用的文本素材采集方式,熟悉扫描仪+OCR文字识别输入方法; 了解常用的文字处理软件,掌握Word文字处理的方法; 会用相关的文字处理软件制作多媒体作品中需要的文本素材。 在多媒体作品中,文本是最基本也是最常用的素材。一些说明、介绍、作品中的文字资料都会用到文本,作为多媒体系统的组成元素,它和其它素材同样重要。文本素材处理包含文本的采集、录入、编辑等加工处理,本章将介绍文本素材处理的相关知识。 2.1 文本素材概述 文本是人们早已熟知的信息表示方式,如一篇文章、一段程序、一个文件都可用文本描述。它通常以字、句子、段落、节、章为单位,记录自然现象、表述思想感情、传达某种信息。人们在阅读时,通常是一字一句、一行一页顺序地浏览。 文本是文字、字母、数字和各种功能符号的集合。在现实生活中,人们对事情的讲述、逻辑的推理、数学公式的表述等都主要用文字和数字来准确的表达。在多媒体应用系统中,虽然有图形、声音、视频影像等多种媒体形式,但是对于一些复杂而抽象的事件,文本表达却有它不可替代的独到之处。 2.1.2 文本素材基础知识 在多媒体应用系统中,文本作为重要的基本素材而被广泛应用,它具有信息表达清楚、计算机处理方便、存储容易、传输快捷等优势。具体来说: (1)编码形式简单 在计算机中,西文字符最常用的编码是ASCII码,即American Standard Code For Information Interchange(美国信息交换标准代码)。它用7位二进制数进行编码,可以表示27即128个字符,其中包括数字字符0~9、大小写英文字符、运算符号、标点符号、标识符号和一些控制符号。这些字符种类大致能够满足各种计算机语言、西方文字、常见命令的需要。一个ASCII码字符在内存中占一个字节。 汉字字符在计算机中也是以编码形式处理的,汉字输入用输入编码,汉字存储用机内码,汉字输出用字型码。在计算机中存储时,一个汉字占2个字节。 (2)易于获取,存储、处理和传输容易 多媒体计算机系统中,文本资料可以用多种方式获取,可采用多种输入编码录入,还

岗位分析范文

一、岗位标识信息 岗位名称:外销主管隶属部门:外销部 岗位编码:直接上级:销售副总经理 工资等级:直接下级:无 可轮换岗位:外销专管和专管助理分析日期: 二、岗位工作概述 负责公司与国外客户的信息沟通,提供服务,处理客户反馈,开拓市场,监控货款,指导和考核下属工作。 三、工作职责与任务 (一)信息沟通 1.负责翻译公司与客户往来信函; 2.负责价格沟通; 3.负责交货期沟通; 4.负责工程或其它问题沟通。 (二)提供服务 1. 翻译客户资料; 2.审查资料,提供报价,确认订单,传递发货信息; 3.客户来访的前期准备和接待工作; 4.客户满意度调查和评价; 5.客户所有询问的答复; 6.监控订单生产和交付,并做评价报告。 (三)处理客户反馈 1. 负责客户反馈的内部传递; 2.跟踪问题的解决过程; 3.评价问题解决的满意程度; 4.将问题的解决结果回复客户; 5.客户反馈处理评价。 (四)开拓市场 1.通过销售人员的服务,展示公司形象和工作效率,让客户对TPC有信心,扩大业务量; 2.通过对市场分析或与竞争对手比较,不断改善工作,让TPC成为最有竞争力的供应商; 3.走访客户,进行感情交流; 4.通过各种信息寻找新市场,开发新客户。 (五)监控货款 1.与财务沟通,掌握客户回款情况; 2.负责对超账期货款的催收,催收无效应采取措施; 3.通过日常与客户交流和对业务状况分析,关注客户变化,防止出现死账和呆账。 (六)指导和考核下属工作

1.负责对下属的工作指导,并进行绩效考核; 2.负责对新上岗的销售专管进行业务培训。 (七)完成上级委派的其他任务 四工作绩效标准 (一)信息沟通及时准确,失误率为零; (二)客户(包括公司内部)没有对服务的投诉; (三)客户反馈在2小时内传递到品质部,24小时内给客户回复,最终处理结果,客户能接受; (四)老客户每年销售额有增长,没有客户丢失,每年都有新的客户或新的领域被开发; (五)没有呆账或死账发生; (六)下属能达到公司考核要求,没有突发件产生,没有长期得不到解决的问题。 五、岗位工作关系 (一)内部关系 1.所受监督:在开发维护市场、进行客户服务与客户沟通过程中,接受主管销售的副总经理的指示和监督; 2.所施监督:依客户要求向生产、质量、工程和采购部门发出指示,分配与监督下属的工作,并对下属职员进行绩效考评; 3. 合作关系:在工作中要经常与生产、质量、工程、采购部门按客户要求进行工作安排与调整,与财务完成回款监督和回收货款,从计算机信息中心获取客户信息,并向其提供客户信息。 (二)外部关系销售过程中与所负责的顾客密切联系。 六、岗位工作权限 (一)对下属人员的临时工作调动权; (二)对下属人员的工作指导权、工作监督权和绩效考核权; (三)对客户标准交货期、重复订单的确认权; (四)对订单交货期改变的申请权; (五)依据客户要求对在线订单暂停的决定权; (六)对客户资信评价提请上级审议权。 七、岗位工作时间 在公司制度规定的正常班时间内工作,有时需要加班加点。 八、岗位工作环境 大部分时间在室内工作,温度、湿度适宜,无噪音、无粉尘等污染,照明条件良好,但有颈椎病发生的可能。 九、知识及教育水平要求 (一)PCB的专业知识; (二)国际商务知识; (三)熟练运用计算机办公、网络、制图等软件; (四)良好的英语听说读写能力; (五)基础的企业管理知识。 十、岗位技能要求 (一)熟练的外语翻译、交谈能力; (二)良好的市场开发技巧与营销战略运用; (三)良好的客户协调与沟通能力; (四)良好的市场洞察与分析能力;

高考语文:归纳文章要点、概括文意和分析思想感情

归纳文章要点、概括文意、分析思想感情 方法:①注意把握每段首尾句中的关键词 ②注意问题的定位:答案就近原则,需要概括总结 一、知识梳理 【考点知识】 (一)“归纳内容要点”包括三层含义 ?对具体的内容加以概括 ?对抽象、含蓄的内容加以阐发、解说 (二)“中心意思”包含两层含义 ?文章论述了什么内容(指论述的中心或中心论点) ?作者的基本观点,对文章的价值判断 中心意思一般在概括文章或段落后才能得出,少数以观点句的形式直接呈出。 (三)内容要点的具体呈现方式主要有 ?论点及分论点 ?论点的若干论据 ?现象背后的本质 ?产生现象的原因 ?发展导致的结果 ?分析得出的结论 (四)高考对“归纳内容要点”的考查主要有以下三种形式 ?直接考查对全文内容要点的分析、概括 ?结合层次分析,考查对全文内容的分析、概括 ?考查对段意、定义的某一具体材料的归纳概括 (五)对“概括中心意思”的考查主要有以下两种形式 ?概括、归纳文章的中心论点 ?揭示文章的目的、价值、意义、影响等 (六)分析作者的思想感情,这个考点主要集中在文学类文本的阅读上 现代散文,是指与小说、诗歌、戏剧并列的一种文学体裁,对它又有广义和狭义两种理解。广义的散文,是指诗歌、小说、戏剧以外的所有具有文学性的散行文章。除以议论抒情为主的散文外,还包括通讯、报告文学、随笔杂文、回忆录、传记等文体。随着写作学科的发展,许多文体自立门户,散文的范围日益缩小。 狭义的散文是指文艺性散文,它是一种以记叙或抒情为主,取材广泛、笔法灵活、篇幅短小、情文并茂的文学样式。这是我们考试中所使用的概念。散文的主要特点是“形散神不散”。散文的内容广泛,跳跃性很大,可涉及古今中外,天南海北,国计民生,花鸟虫鱼等诸多方面。

cet-4 例文分析

1-描述图画 2-分析原因 3-解决措施 The picture shows us a dialogue between two neighboring housewives. In the picture, one woman said, “I’ve been here for 5 years, what’s your name?” While the other replied, “I’ve been here for 6, what’s yours?” It reveals the relationship between people is quite indifferent. To begin with, owing to busy work schedule, city inhabitants have less time to rest, not to mention visiting their neighbors. Furthermore, even though they have a little free time, they prefer to stay alone for a break rather than be disturbed (bother). Still, decades ago, the ordinary used to live in the same yard, also called “siheyuan”. It’s quite convenient to call at next doors. Unfortunately, they move into apartments and are used to living individually. It’s quite uncomfortable for visiting. I hold that citizens should be fully aware of the important role good neighborhood relationship plays in modern society. Therefore, they should set up harmonious ties with our neighbors. We should also advocate to public the importance of communicating with next-doors so that an increasing number of citizens can enjoy a happy life.

高中语文论述类文本阅读策略——运用思维导图解读论述类文本

整体与部分并举梳理与理解齐飞 ——论述类文本阅读策略 【学习目标】 1、学会阅读论述类文本。 2、能快速找出论点、论据、论证,把握行文思路,理清文章结构。 【课前预习】 (一)论述类文本阅读(本题共3小题,9分) 阅读下面的文字,完成1~3题。 传统表演艺术是我国非物质文化遗产的重要组成部分,同时也是一座蕴藏丰富、有待进一步开发利用的民族民间艺术资源宝库。经过十几年的努力,一些传统表演艺术项目已走出困境,呈现出新的生机与活力,但仍有一些项目面临着不容忽视的新问题。 传统表演艺术与普通民众生活息息相关,其表演通常具有群体性特征:无论侗族大歌还是壮族山歌,人人都可展示歌喉;无论汉族的秧歌,还是藏民的锅庄,民众欢乐起舞的场面都蔚为大观。对这类非物质文化遗产的保护就要坚持其生活性、群体性,而不应仅局限在艺术团体或演出队等小范围内。广大民众为庆贺丰收、祭祖敬神、禳灾祈福而载歌载舞的即兴表演,寄托着他们深沉的精神追求和丰富情感。使传统表演艺术“雅化”,固然能彰显各类民族民间艺术的特色,但也弱化了传统表演艺术的民俗文化内涵。 当然,各类民间表演艺术经过充分提炼和艺术升华,进而搬上舞台,其成功之作会对此类非物质文化遗产的传播起到促进作用。如春晚舞台上,藏族舞蹈《飞弦踏春》、蒙古族舞蹈《吉祥颂》等都曾大放异彩。然而,在对民间表演艺术进行再创作的过程中,有些实施者没有坚持本真性的原则,将一些传统艺术改编得面目全非。比如,有些人在改造民乐时套用西方音乐编排方式,被改编的作品便失了自身的魂魄。因此,对民族民间传统艺木进行“二度创作”,应既不失其本真的艺术特性,又科学地融入现代元素,适应民众新的审美常求。要做到这一点就需要编导们深谙民间表演艺术的特性,并能进行实地调研、采风,挖掘出民间艺术的基本元素与本质精神。 各种传统表演艺术都是在特定时空中呈现的,靠其演出行为形成艺术作品,实现艺术价值。这类非物质文化遗产的特性决定了应对其实施活态传承与保护,使之以鲜活形态生存于民间。在非物质文化遗产抢救保护实践中,有些地区视保存为保护,重视硬件设施,各类场馆及专题博物馆建设颇具规模,民间收集来的各种乐器、道具、面具、服装等都得到妥善收藏。这种博物馆式的展示与收藏,虽然能较好地保存民间表演艺术的物质载体,但变活态传承为困态展示,无法从根本上解决传统表演艺术的生存发展问题。有人认为通过录音、录像等数字化手段便可记录、存储、呈现表演艺术的成果和过程,达到抢救性保护的效果,但是,这只是对文化遗产的部分信息进行了保存。人在进行艺术表演时涉及的很多现象难以精确量化,其中不少信息是无法获取和记录的。对传统表演艺术的保护必须坚持以人为本,活态保护,才符合其自身的传承发展规律。 (摘编自李荣启《论传统表演艺术的保护与传承》) 1.下列关于原文内容的理解和分析,不正确的一项是(3分) A.传统表演艺术通常具有生活性和群体性的特征,民众也是演出的重要参与者。 B.春晚优秀的民族歌舞节目为传统表演艺术的舞台改编提供了可资借鉴的思路。 C.传统表演艺术进行“二度创作”时,应当避免西式改编,以防失去原有风格。 D.录音、录像等手段可以记录传统表演艺术的成果和过程,能够起到保存作用。 2.下列对原文论证的相关分析,不正确的一项是(3分) A.文章针对当下传统表演艺术保护中出现的一些片面认识,提出了自己的观点 B.文章紧扣作为非物质文化遗产的传统表演艺术的几种属性,多角度展开证论。 C.第四段将一些地区的场馆建设和数字化保存做比,论证了保护与保存的不同。 D.文本对现有传统表演艺术保护举措的成效与不足都有论及,体现出辩证的态度。

2021年高考语文一轮复习古诗文阅读概括分析文本内容

2020-2021年高考语文一轮复习古诗文阅读—概括分析文本内容一、必备知识 (一)文本概括分析题的特点 根据近十年的高考全国卷真题,总结出文言文阅读中文本概括分析题这一题型的特点:每一个选项都由论点和论据的形式成陈述的。论点一般不会出现错误,只是在句子中重点实词虚词的理解上,文章情节的部分细节上,何时何地何官何事的先后错位上,论据会出现错误。论点的内容一般是对性格特点、修养品行、为人处世、当官的能力、别人对他评价的概括性总结。论据的内容是以“何时、何地、何人、干了何事、产生何结果”的格式来陈述关于传主的事件概括。ABCD四项的论点陈述是按照行文顺序陈述的,论点后所跟的论据也是按照行文顺序进行一一罗列陈述的。 要想快速且精准地理解文言文且选对第12题,良好的文言基础是必须的,但正确的阅读方法也是非常必要的。我称这个方法为总观性阅读。下面就谈一下总观性阅读方法的几个要点。 (二)总观性阅读方法 1、对文言文阅读整体的总观 文言文考查的文体一般是传记,而传记中的主人公一般在品德、修养、能力、忠孝等方面、在为人处世方面、辩证的看待问题方面、经验主义和理论主义方面等,基本是非常完美的人。这类人做官目的是效忠皇帝,发展国家经济和政治,让百姓安居乐业。所以但凡选项当中对传主有反面的、过分的、不合理的、牵强的等描述内容,一般是错误的选项。 2、对文言文阅读传主仕途情况的总观 第一,从小官做到大官。文章开篇主要简单介绍传主的姓名字号、籍贯、天赋、文学素养、性情、举荐或举功名情况、最初任职情况、和家庭情况等。文章的中间部分写传主从小县令开始做起,因其管理能力,造福百姓能力,管理农业能力,处理偏远地区盗贼等的能力显着而升官至地方或省会地区;又因传主能够审时度势,会管国家,会处理国家边疆事务,又升官至宫廷;受到皇帝的赏识,官职达到顶峰。文章的结尾,交代传主官位所至、朝野名望、盖棺论定、卒年赐谥等。 第二,从大官做到小官。文章开篇同样是简单介绍传主的姓名字号、籍贯、天赋、文学素养、性情、举荐或举功名情况、最初任职情况、和家庭情况等。文章的中间部分写传主直言纳谏,性格刚正无私,忠心耿直,被小人谗言,皇帝不知情被贬或被疏远,但传主仍继续保持高洁的品格,为皇帝、为国家、为百姓做事,后来皇帝知道了,可能又启用了,但传主也老了,不久去世了,皇帝给他封个谥号荣衔,文章叙述结尾死去。 第三,以上两点,文章是按照时间顺序来介绍传主的,即传主自幼至终老的过程。在叙述结构上,称

(完整版)文本信息加工教学设计

文本信息加工教学设计 一、教材分析 本节内容主要是了解文字处理技术的发展变化及其意义,并从中领悟传播民族文化的必要性和紧迫性;了解文字在计算机中的编码方式;介绍了字处理软件的基本特征,并会利用字处理软件进行信息的加工与表达,并学会根据不同信息的特点选择不同的字处理软件来加工文本信息;学会分析、比较文本信息的纯文本表达、结构化表达和形象化表达的优点与不足,学会使用结构化和形象化的方式来表达信息,加工信息。 二、教学目标 (1)知识与技能 1、了解文字处理技术的发展过程; 2、了解文字的编码方式; 3、掌握字处理软件的基本操作; 4、学会信息的加工与表达(纯文本表达、结构化表达、形象化表达)。(2)过程与方法 1、比较各种字处理软件(记事本、WORD、WPS)的有点和不足,掌握其 中一种常用的字处理软件WORD; 2、掌握信息的加工方法与表达方法。 (3)情感态度与价值观 1、通过了解字处理技术,领悟传播民族文化的必要性和紧迫性; 2、学会选择合适的字处理软件加工信息; 3、学会评价和欣赏。 三、教学难点,重点 1、了解文字在计算机中的编码方式; 2、根据不同信息的特点选择不同的字处理软件,并利用字处理软件进行信息 的加工与表达;

3、信息的结构化、形象化表达。 四、教学对象分析 本课程的教学对象是高一的学生,这个年龄阶段的学生,学习积极性好,而且有自己对事物的独特的看法,思维也比较活跃,善于表现自己,有很强的创新理念和动手能力。在本三节课中,将针对学生的这些特点,一步步地引导学生学习,从字处理技术的认识到字处理软件的使用,并利用他来处理我们所获得的信息,最终学会信息之间的表达与交流。 五、教学方法 任务驱动法、合作学习法、自主探究法 六、教学环境 多媒体电脑室、投影仪 七、教学过程 第一课时:字以及处理技术 课程导入: 同学们,每天你们都在写字,写具有我们国家文化特色的文字,那么,你们到底对我们国家的文字了解有多少呢?你们有没有兴趣来了解我们的文字处理技术呢? 具体过程: 师:我们的文字有字母文字和象形文字,那为什么不用汉语拼音代替汉字吗?请大家根据下面表格的提示,解答下列问题。

数据分析报告范文

数据分析报告范文 数据分析报告范文数据分析报告范文: 目录 第一章项目概述 此章包括项目介绍、项目背景介绍、主要技术经济指标、项目存在问题及推荐等。 第二章项目市场研究分析 此章包括项目外部环境分析、市场特征分析及市场竞争结构分析。 第三章项目数据的采集分析 此章包括数据采集的资料、程序等。第四章项目数据分析采用的方法 此章包括定性分析方法和定量分析方法。 第五章资产结构分析 此章包括固定资产和流动资产构成的基本状况、资产增减变化及原因分析、自西汉结构的合理性评价。 第六章负债及所有者权益结构分析 此章包括项目负债及所有者权益结构的分析:短期借款的构成状况、长期负债的构成状况、负债增减变化原因、权益增减变化分析和权益变化原因。 第七章利润结构预测分析

此章包括利润总额及营业利润的分析、经营业务的盈利潜力分析、利润的真实决定性分析。 第八章成本费用结构预测分析 此章包括总成本的构成和变化状况、经营业务成本控制状况、营业费用、管理费用和财务费用的构成和评价分析。 第九章偿债潜力分析此章包括支付潜力分析、流动及速动比率分析、短期偿还潜力变化和付息潜力分析。第十章公司运作潜力分析此章包括存货、流动资产、总资产、固定资产、应收账款及应付账款的周转天数及变化原因分析,现金周期、营业周期分析等。 第十一章盈利潜力分析 此章包括净资产收益率及变化状况分析,资产报酬率、成本费用利润率等变化状况及原因分析。 第十二章发展潜力分析 此章包括销售收入及净利润增长率分析、资本增长性分析及发展潜力状况分析。第十三章投资数据分析 此章包括经济效益和经济评价指标分析等。 第十四章财务与敏感性分析 此章包括生产成本和销售收入估算、财务评价、财务不确定性与风险分析、社会效益和社会影响分析等。 第十五章现金流量估算分析 此章包括全投资现金流量的分析和编制。

信息内容安全考试题目及答案

一.选择题: 1.以下不属于信息交互协议的是:(C) A.HTTP(S)信息 B.MMS信息 C.RIP信息 D.Gopher信息 2.以下不属于HITS算法的特点的是:(B) A.对抗链接反作弊功能差 B.计算效率高 C.部署位置在客户端 D.存在主题泛化问题 3.数据挖掘技术中不包括(D) A.可视化系统 B.空间数据挖掘 C.分布式数据挖掘 D.集中式数据挖掘 4.(B)不属于网络信息获取技术。 A.数据挖掘技术 B.信息隐藏技术 C.信息推荐技术 D.信息还原技术 5.使用原始套接字可以实现下列(D) ①traceroute ②ping ③ICMP头④TCP头 A.②③④ B.①③④ C.①②③ D.①②③④ 6.向量空间模型中的降维的最有效的办法就是(A)。 A.特征选择 B.精确查找 C.多维映射 D.聚类分析 7.特征项必须具备的特征不包括:(C) A.能够准确标识文本内容 B.具有将目标文本与其他文本相区分的能力 C.数量没有限制 D.特征项分离要比较容易实现 8.下列属于分类所采用评估函数的是(D) A.交叉熵 B.信息增益 C.x2统计 D.以上所有 9..x2统计具有(B)的特性。 A.降维简单 B.可靠性好 C.没有区分度 D.计算量小 10.信息抽取技术的功能不包括(A) A.从文件集中选取一个与用户需求相关的子集 B.以结构化的形式描述信息 C.从自然语言文本中抽取事实信息 D.供信息查询、文本深层挖掘、自动回答问题等应用 二.填空题: 1.信息安全学科是研究确保信息的完整性、可用性、保密性、可控性以及可靠性的一门综合性新型边缘学科。 2.网络信息的获取主要通过搜索引擎、数据挖掘、信息推荐等技术实现。 3.搜索引擎分为全文搜索引擎、目录式搜索引擎、元搜索引擎。 4.数据挖掘是通过从数据库中提取隐含的、未知的具有潜在使用价值信息的过程。 5.常见的网络数据包捕获方法有原始套接字、Libpcap、Winpcap、Jpcap四种。 6.文本处理过程包括文本预处理、特征提取及缩维、知识模式提取、知识模式评价。 7.机械分词法分为最大匹配法和最小匹配法。 8.特征项是用于表示文本的基本单位。 9.文本内容分析包括文本语法分析、文本语义分析、文本语用分析。 10.垃圾邮件泛滥的最主要的技术原因是SMTP协议缺陷。

经典的影视片分析范文及讲解1

影片分析 考察要点 第一,考察学生对于影片某些特殊的处理手法的理解,如张艺谋影片《我的父亲母亲》中的黑白、彩色两种色调的运用;再如《秋菊打官司》中纪实手法的运用等。 第二,考察考生对于一部影片的主题的把握能力,要求考生能够理解影片的深层含义和社会性。如《离开雷锋的日子》所讨论的主题是:在自由竞争、个人利益备受关注的社会转型时期,雷锋所代表的自我牺牲精神、集体主义却并未过时。

影片分析的写作方法 要写一篇影片分析,首要问题是确定写作的角度。 一部影片可分析的方面和角度很多,比如主题思想,剧作结构,视听语言方面的特色等。一篇优秀的影片分析就是抓住其中两三个突出的方面深入地论述。 一、主题分析 可以对影片作社会学分析,即作品如何反映时代的某个社会问题,作品所包含的社会内容与社会生活之间的关系,作品是如何展开这一社会主题的。 如《秋菊打官司》是一部现实主义风格的作品,影片给观众展示了一幅中国普通农

村的真实生活画卷,通过一个生活在农村的卑微的小人物执著的要用法律武器为自己讨个说法的故事,揭开了一个关于法律观念的主题:每个人都有用法律保护尊严的权力,中国的法制观念彻底普及还需要很长的路。 二、叙事分析 就影片作叙事分析,也就是影片剧作技巧的分析,分析一部影片如何建立一种叙事关系,也就是如何讲故事,影片的创作者如何通过情节的铺排、细节的设置、人物形象地塑造来一步一步推动故事向前发展的。 故事结构——开端、发展、高潮、结局。 人物分析——人物性格、人物动作、人物语言、人物关系等。

三、视听语言分析 可以从技术的层面对影片的导演手法、视听语言的技巧进行分析,分析作品如何建立时空关系、影片叙事的镜头体系、导演如何进行场面调度等。 视听语言包括视觉和听觉部分。 视觉分析: 画面语言——构图、色彩、光影等。 镜头语言——景别、方向、角度、运动镜头、焦距等。 镜头剪辑——画面组接、蒙太奇、长镜头。 听觉分析: 声音语言——人声、音乐、音效、无声

对点精练三 概括和分析文本内容 高考语文(人教版)一轮复习课时作业(含答案)

对点精练三概括和分析文本内容 一、比对法专练 比对下面的原文与选项,看看选项存在什么问题。 1.原文:崔群,字敦诗,清河武城人。元和初,召为翰林学士,历中书舍人。群在内职,常以谠言正论闻于时。宪宗嘉赏,降宣旨云:“自今后学士进状,并取崔群连署,然后进来。”群以禁密之司,动为故事,自尔学士或恶直丑正,则其下学士无由上言。群坚不奉诏,三疏论奏方允。 选项:崔群正直敢言,却难违圣意。宪宗要求学士进奏要有崔群的署名才能呈上,崔群认为这容易成为定例,会阻碍学士的言路,坚决不奉诏,但最终还是妥协应允了。 答:________________________________________________________________________ 答案“难违圣意”“最终还是妥协应允了”错,原文“三疏论奏方允”的意思是“再三上疏议论方才获准”,崔群最终也没有遵从圣意,是皇上做出了妥协。 参考译文 崔群,字敦诗,清河武城人。元和初年,被召担任翰林学士,还曾担任中书舍人。崔群在内廷奉职,常因为直言正论闻名于当时。宪宗赞赏他,下诏宣旨说:“从今以后学士进呈奏状,须同时有崔群的联合署名,然后才可以进呈上来。”崔群认为宫禁的管理举措动辄成为定规,(那么)从此学士中就会有嫉害毁谤正直之士的人了,这样他下面的学士就无法进呈直言了。因而崔群坚持不遵奉此诏,再三上疏议论方才获准。 2.原文:杜伏威,齐州章丘人。少豪荡,不治生赀,与里人辅公祏约刎颈交。公祏数盗姑家牧羊以馈伏威,县迹捕急,乃相与亡命为盗,时年十六。 选项:杜伏威豪爽放荡,不治生计。他的好友辅公祏多次偷盗姑家的牧羊送给他,官府缉捕很急,二人因此一起逃亡江湖,聚众起义。 答:________________________________________________________________________ 答案“聚众起义”错,原文是说他“亡命为盗”。 参考译文 杜伏威,是齐州章丘人。年轻时强横放荡,不治生计,与同乡人辅公祏结成生死之交。辅公祏多次盗窃姑母家牧养的羊赠送给杜伏威,县里跟踪追捕紧急,于是杜伏威同公祏一道逃亡做了强盗,当时十六岁。

写作范文与指导:信息检索及信息处理方面

信息检索及信息处理方面 信息检索及处理方面: 统一检索架构设计 采用新的系统架构,即ORACLE+TRIP组合方式,由TRIP 专门负责检索,可以大大提高检索的性能和稳定性;同时,增加词表系统,实现多种辅助检索方式。 整合NSTL等第三方开放检索接口,使检索时用户可以一站式检索多个数据库资源。 专题(虚拟库)定制与推送 定题服务,又称SDI服务,根据用户需求,一次性或定期不断地将符合需求的最新信息传送给用户的服务模式。又指信息机构根据用户需求,通过对信息的收集、筛选、整理并定期或不定期地提供给用户,直至协助课题完成的一种连续性的服务。它是情报检索的引伸,是一种特殊形式的检索服务。 为便于用户随时跟踪本研究领域或本行业的最新发展动态,节省用户查询、检索所需文献信息的时间,九瑞公司根据用户的实际科研情况和需要,依托于强大的文献资源、电子网络资源等为用户提供定题服务,为用户定期或不定期对某一特定主题进行跟踪检索,把经过筛选的最新检索结果,以书目、索引、全文方式提供给用户,也能通过打包专

题数据库传送给相关需求用户。 文本挖掘与智能分析系统 文本挖掘智能分析系统为用户提供方便快捷的高级信息如自动分类自动聚类热点发现语义搜索等服务,以及各种形式的资源分析途径和工具,包括对文本型资源和非结构化数据的挖掘和分析,同时系统要对若干主题的网络网站进行监控,建立起对一些重点领域问题的预报机制。 智能分析系统对海量文本信息进行智能分析和挖掘,并且除了提供资源之间的定性分析,系统还提供定量的多维分析工具,能够帮助研究所研究人员理顺资源之间的关系和热点之间的联系,更全面和客观地把握问题的本质,协助研究人员高效率的利用互联网知识资源进行深入研究。 二、交互等个性化服务方面: 智能参考咨询系统(智能问答) 智能参考咨询系统能够让读者在登录本系统之后可以进行在线提问,通过咨询知识库可以进行自动的24小时在线智能解答,并且可与馆内的图书馆馆员或聘请的学科专家进行直接交流。

摄影图片分析例文

这是一张儿童摄影的照片,摄影师通过小女孩露的四分之一脸面,主要突出小女孩那天真无邪、精灵而又羞涩的眼神,微微上翘的嘴角,让读者深深的陷入照片之中,有想身聆其 境的冲动。人们仿佛回到了自己的童年,看见了什么东西把自己吸引。童年的天真、好奇在 每个人的童年时代表现的最为直接、真实,有谁能让他们随着时间的流逝、年龄的增长而不 使他们黯然那?摄影师把小女孩的眼神、表情、动作以及特殊的取景方式向人们展示着童年 的情趣,使读者在现实与中看到自己的童年,回到天真活泼自由自在的日子,告诉人们要保 留天性,释放天性! 摄影师使用比较小的景深,虚化了前景和背景,使主人公小女孩在画面当中是实体的存在,直接突出了画面的视觉中心,使读者一眼明了摄影师要表达的主体。照片的开放式构图,更适合现在人们的思维方式,看画面不只是看表面的东西,而是被他的眼神所吸引,思维发 展了出去。远距离的拍摄,使用长焦镜头压缩了空间距离感,前景和背景得到一定的虚化, 使画面显得干净不杂乱。平拍,画面没有太大的视觉冲击力,但是画面更显得平易近人,更 能接近现代生活,告诉我们好的题材就发生在我们身边。好奇、天真的眼神,把童年的天性 充分的表现出来,他在看什么,什么东西吸引住了她,使他不好意思,羞涩的躲在竹子后面 目不转睛地望着,读者在看他的同时也被他所看的东西所吸引听,使人充满想象。 在本图片中,摄影师采用自然光,画面显得十分自然、舒适。整体的暖色调使画面显得温暖,童年里的东西是美好的回忆,应该把它装饰成温暖的味道。 摄影师通过小女孩的童年,向我们展示;童年,是一首婉转悠扬的短笛,奏出了我多少纯洁美好的幻想,它让我们充满好奇心去看这个缤纷的世界,保持好童年的天性,去释放天 性。

行文(论证)思路分析概括

概括论证思路 【命题说明】 文章的结构,实际是文章段落之间和段落内部的组合关系。分析文章的结构,实际是要求分析文章各部分之间的组合关系,并进行合理的归纳整理。不过,文章的结构和作者的写作思路是密不可分的,所以在阅读能力的要求上往往是两者并提的,这就是“分析文章的结构,把握文章的思路”。 文章的结构包含两层意思:一是指文章的体式和章节结构,如体裁形式、顺序线索、开头结尾、章节段落、过渡衔接、伏笔照应等;二是指文章的内在联系和组织,如观点和材料、整体和部分、部分和部分等。 把握文章的思路、结构,还需要依据不同文章文体的差异,关注以下四个方面的问题: 1.理清文章的线索。 叙述类作品需要梳理情节发展中的脉络,即线索。散文也有线索,散文的线索更多指作者在行文中的情感线索。 2.分析文章的层次结构,理清说理的逻辑。 3.理解文章的安排顺序。 说明性文章,应当言之有序,条理清楚。常见的顺序有时间顺序、空间顺序和事理顺序。 4.把握材料详略处理的意图。 概括论证思路,顾名思义,是概括(议论文)对论点的论证过程和方法。论证思路作为高考阅读分析能力考察的基本题型,解答这一题型要求考生熟悉论证过程的基本环节(引论、本论、结论)和常规的论证方法(例证法、引证法、喻证法、对比论证法等)。把握思路不是阅读的最终目的,而是为了更深入地理解文章的内容,提高阅读效率。为此目的,分析结构和把握思路,不能满足于辨别文章结构的形式和把握思路的走向,还要探究这样安排的原因或作者的意图。 【方法点拨】 论证思路包含两个方面,一方面是作者的构思,这一点在答题时常常被忽视。作者的构思主要包括论证方法的选择(答题时根据实际一般只强点比较显性的论证方法,如对比论证,比喻论证等,例证和引证一般不需特别强调);论证角度的选择(注意论点提出的角度,分析论证的切入点等等)。对论证思路的研究需要关注作者如何提出论题;作者如何呈现观点;作者如何界定概念的内涵;作者如何辨析概念;作者如何处理论据;作者分哪几步展开论证的;作者如何将论证引向深入等等方面。作答时,可以有选择地将上述内容加以强调,以体现作者的论证思路设计的巧妙。对论证思路的评价也可以简单提及,比如逻辑严谨,思路缜密,层次清晰等等。还有必要指出,文本的特殊性也要考虑,学术性文本论证思路上往往更重视论证背后的学理性、逻辑性,而一般性的杂文在论证思路上往往比较关注通俗性、形象性。 另一方面是论证的过程,这一点相对比较容易。答题时需要把握文本的大致结构,并将文本的结构框架呈现出来即可,因此,作答时必须使用诸如“首先”“接下来”“最后”等词语,将作者的论证过程分析清楚。还有一点需要提醒,单纯地交代论证过程并不能真正体现论证思路。最好能够强调,文本各个论证环节之间的关系。比如,“引出后文的议论对象”“为后文对┄┄的论述做铺垫”“使读者对相应概念有了初步的认识”“增强了论证的现实针对性”等等。 最后,还要特别强调对于过程、方法、路径的分析,绝不能取代对于文本内容的关注,

信息储存与检索考点归纳

1. 信息检索的原理: 从下图可以看出,信息存储和信息检索有两个交汇处:一个是直接的,即表达信息主题内容的词语与表达需求主题内容的词语之间进行对比的交汇;另一个是间接的,即通过检索语言进行沟通,确保把存储用词和检索用词都统一到同一个检索语言体系中(对于自然语言检索系统来说,不存在存储与检索的间接交汇处)。 2.信息检索系统的物理结构一般包括硬件 软件 数据库3个部分。 信息检索系统的逻辑结构 3.信息检索的研究内容包括以下几个方面:(1)信息检索理论研究(2)信息检索方法研究 (3)信息检索技术研究(4)信息检索语言研究(5)信息检索系统研究 (6)信息检索服务研究(7)信息检索评价研究。 4. 任何检索策略都包括3 个部分:文档表示 查询表示 匹配函数。 5..信息检索模型到底是什么?其描述如下: 信息检索模型是一个四元组/D ,Q ,F ,R(qi, dj)/: (1)D 是文档集中的一组文档逻辑视图(表示),称为文档的表示; (2)Q 是一组用户信息需求的逻辑视图(表示),这种视图(表示)称之为查询; 信息资源信息搜集需求分析信息需求信 息用户信息分析信息表达词语 转 换需求表达词语转换数据库 检索结检 索语言 信息存储过 信息检索过 图1-1 广义信息检索的基本 词语子系统 匹配子系统 采选子系统 标引子系统 交互子系统 数据库 用户群 信息源 查询子系统 图1-9 信息检索系统逻辑结构

(3)F 是一种机制,用于构建文档表示,查询及它们之间关系的模型; (4)R(qi, dj)是排序函数,该函数输出一个与查询qi ∈Q 和文档表示dj ∈D 有关的实数,这样就在文档之间根据查询qi 定义了一个顺序。 6经典模型: 布尔模型 向量模型 概率模型。 7对于布尔模型而言,标引词权值变量都是二值的,即wi,j ∈{0, 1},查询q 是一个常规的布尔表达式。用qdnf 表示查询q 的析取范式,qcc 表示qdnf 的任意合取分量。文档dj 和查询q 的相似度可以定义为: . 8.布尔模型优缺点:优点: 一是实现起来比较容易,速度快,计算的代价相对较少; 二是查询语言表达简单,用户可以使用任意复杂的查询表达式,故得到广泛的应用. 缺点;1布尔逻辑式的构造不易全面反映用户的需求。 2匹配标准存在某些不合理的地方。 3检索结果不能按照用户定义的重要性排序输出。 9.( t1 and t2) or ( t3 not t4) 或者qj = ( t1 ∧ t2) ∨ ( t3 t4)。 10.计算机信息检索的基本原理仍是“匹配运算”,但是却不同于手工检索的“匹配运算”方式。 计算机匹配过程中,需要将检索提问式转化成计算机可以识别的形式,并且要使用系统中特定的检索指令、检索词和检索策略,由计算机自动对数据库中各文档记录进行查找。当检索标示、检索策略与数据库中的信息标示关系一致时,即为命中,将结果输出给用户。 11.逻辑提问式即为Q=A*B*C*D. 表展开法是将每个逻辑提问式转换成一个展开表, 如果有N 个提问式就可做N 个展开表。每个检索词对应表中的一行。其一般格式如下: 展开表的生成,根据算法描述的顺序方向划分为两大部分:前处理部分和后处理部分。 前处理部分,也叫正向扫描处理部分。按照逻辑提问式各项因子出现的先后顺序从左到右依次处理。 前处理算法描述: 地址是指该行所在展开表中的地址; 匹配成功时转向地址AFD ,给出一旦在检索词与文献记录中标引词匹配成功时,下一步应该处理的提问检索词在提问表中的地址; 匹配不成功时转向NFD 地址,给出一旦检索词与标引词匹配失败时应该转向展开表中的地址; “层级值” 栏表示当前检索词在提问式中的层次级别;

相关主题
文本预览
相关文档 最新文档