当前位置:文档之家› 第二语言词汇习得的语料库研究方法

第二语言词汇习得的语料库研究方法

第二语言词汇习得的语料库研究方法
第二语言词汇习得的语料库研究方法

第二语言词汇习得的语料库研究方法

①邢红兵

(北京语言大学汉语水平考试中心,北京100083)

[摘要]本文首先分析了目前词汇习得研究中存在的对频率、偏误、习得过程、句法语义关

系、目的语和母语的关系等方面认识的局限,提出建立用于二语词汇习得研究的词汇知识库,并在

此基础上进行词汇知识习得研究。我们建议第二语言词汇习得应该围绕词汇知识系统性、发展性

的原则,采用因素分析思路进行对比分析。

[关键词]第二语言;词汇知识;词汇习得;语料库

[中图分类号]H195.1[文献标识码]A [文章编号]

1003-7365(2012)02-0077-09零、引言

随着第二语言习得研究的逐步深入,语料库资源在第二语言习得研究中占据越来越重要的地位。究其原因,可以概括如下:(1)语料库资源建设的逐步丰富和发展。由于语料库技术的发展,用于语言习得研究的目的语和中介语语料库资源也越来越丰富,使用也越来越容易,相关的研究成果也越来越丰富。根据顾晓波(2010)对2009年以前的9年间国内研究者研究方法所做的统计,基于语料库的中介语研究成果大幅度上升,但是受语料库的限制,历时研究较少,共时研

究比较多;从研究方法上看,

实证研究占绝对优势;从发展趋势上看,国内基于语料库的中介语研究已经由理论方法引介及单纯的错误分析转向中介语对比分析的研究。(2)语言学习理论的发展。比如联结主义理论的建立,对语言习得研究产生了重要的影响。作为联结主义的核心的浮现特征揭示了语言知识的获得和语言材料之间的本质联系,浮现特征的核心原则是语言规则不是先天固有的,而是在语言获得过程中表现出自然浮现特征,这种浮现过程可以基于对大量输入语料的统计学习而获得。(Rumelhart &McClelland 1986;Bates et al 1998;MacWhinney 1999)联结主义理论认为语言习得的过程实际上是学习者通过真实语言材料获取语言知识并储存于心理词典中的过程。(3)语言对比在外语教学研究中的作用。随着语料库资源的进一步丰富,语言对

比研究也逐渐深入。从上个世纪九十年代开始,

随着中介语语料库的建设及其加工过程的深入,中介语对比方法使二语习得的对比研究能够深入到中介语系统中。(4)词汇习得研究越来越受到重视。文秋芳、王立非(2004)认为上个世纪80年代末90年代初,人们开始重视词汇的习得,成果逐渐增多,主要的研究领域包括二语作文中词汇知识的变化、词汇丰富性的研究、被动词汇和积极词汇之间的关系、阅读中词汇知识的广度与深度的关系的研究等。这些研究在方法上深受认知心理学的影响,大多数研究采用量化法。

·

77·2012年04月

第2期汉语学习Chinese Language Learning Apr.,2012No.2

①[

基金项目]本研究得到教育部人文社会科学重点研究基地重大项目“留学生汉语词汇习得的计算机模拟研究”(项目编号:08JJD740063)和教育部人文社会科学研究一般项目“面向对外汉语教学的语言知识表达系统研究”(项目编号:09YJAZH013)的资助。

由此可见,利用语料库资源,对二语词汇知识习得进行对比研究是目前研究的发展方向。但是如何利用语料库资源进行二语习得研究,特别是如何在理论上取得突破,还需要进一步探讨。从目前的研究现状来看,基于中介语语料库的汉语作为第二语言习得的研究主要还是从偏误分析的角度来进行的,尽管偏误分析能够在一定程度上了解留学生习得目标语的一些特

点,

但是,仅仅从偏误分析的角度出发,我们无法对中介语系统中知识的存储和加工过程等方面的整体情况进行深入的了解。

一、中介语语料库词汇习得研究的误区

至今,我们利用中介语语料库进行习得研究主要是采用偏误分析方法,因此,我们也把留学生错误的数量作为衡量二语习得状况的重要指标。但是就目前利用语料库进行词语习得研

究的状况来看,

在认识上和方法上还存在一定的问题。其研究误区可概括为以下六个方面。1.1使用频率和习得效果呈正相关

一般认为,词语在中介语语料库中使用次数越高,该词语的习得就越好。在中介语语料库中,我们能够准确地统计出二语学习者使用某个词语的频率。因此,我们常常使用中介语的频率来解释习得情况。但是,是不是使用越多就学得越好呢?这其中存在一个泛化和简单化的问题。

比如,“们”在汉语中除了出现在“我们”、“你们”、“他们”等词语中构词以外,其他情况下使用很

少。但是在“中介语语料库”中,“们”除了同样出现在“他们”等代词中以外,还大量被使用,使用

次数达到725次,

频率是1677.6815(频率的基数是一百万,下同),而“现代汉语语料库”中的频率是1.6298,

差别非常大。实际上,这些例句中的“们”很多是多余的。例如:①现在,我的同学们都在北京,我在日本。②所以他常常出去找这些孩子们和年青人跟他们说话。

再比如虚词“的话”,在中介语语料库中使用了338次,频率是768.2624,而这个词语在

“现代汉语语料库”中的频率是38.2997,差别非常明显,但是从我们的分析来看,很多例句中的“的话”显得多余,更多的例句中,“的话”的语体色彩不合适。例如:③你们要是去中国旅游的话,肯定能看见这样情况。④如果有个同学生病了的话,他很关心照顾病人。

值得注意的是,常用词使用泛化和非常用词使用贫乏的情况。在中介语中某个词语的使用次数高,并不能完全代表对该词语的运用就很好。中介语语料库中词语的使用频率应该参照母语语料库的情况,使用过多可能表明出现了一定的泛化情况。在中介语语料库中存在常用词使用频率明显比现代汉语高的情况,而且还比较普遍。

1.2正确率是衡量习得效果的直接指标

目前我们对于中介语语料库中词语使用情况的衡量标准就是错误率,一般的认识是:错误率越高,习得越差;正确率越高,习得越好;错误率应该随着学习者水平的提高而逐渐下降。如果我们采用心理学的实验设计研究方法来研究某个项目的习得,错误率是衡量习得过程的重

要指标,

这是因为实验的项目(称之为“因素”)以及各个项目的不同特征(称之为“因素的水平”)是经过设计的,实验是在匹配各种条件的情况下进行的。因此,实验结果中的错误率和习得情况直接相关。但是在语料库研究中,学习者的条件、使用环境、使用次数、搭配类型等因素都会影响错误率,不能简单地将中介语语料库中的错误率和习得直接联系起来。

·

87·2012年04月

第2期第二语言词汇习得的语料库研究方法Apr.,2012

No.2

因此,我们要将错误率和相关的因素结合起来进行具体分析。这些因素可以从两个层面来认识:(1)词语的使用情况。使用的类型越丰富,出现的错误可能越多,随之也会出现较高的错误率。(2)错误的类型。在二语习得过程中,词语的使用可能会出现不同类型的错误,每种错误在每个阶段的错误率可能会不一样,因此,错误率要相对于不同的错误类型。如许尔茜(2011)对留

学生“V 着”的习得进行了研究,译文按照“V 着”的结果体、进行体和未完成体进行分析,发现错

误率分别是25.90%、40.39%和26.47%。按照这个结果,我们一般认为进行体最难,未完成体较

容易,但是对比现代汉语的使用情况,译文发现未完成体的比例在现代汉语中(16.53%)和在中介语中(2.83%)的比例相差很大,这表明学生在中介语语料库中使用上有明显的欠缺,因此仅仅凭借错误率来断定未完成体习得好这样的结论是不准确的。

1.3词汇习得过程主要是词语意义的习得过程

长期以来,我们注重词义系统的教学,主张词义是词汇教学的核心,比如教学过程中注重同义词辨析的问题,相关的研究也是注重词义系统的对比和分析。虽然现有的研究已经注意

到将同义词的习得范围拓展到易混淆词范围之内来进行分析,

也将词汇习得研究的视角扩大到一组词,而不是传统意义的同义词范围,比如动词“看”和“检查、见、见到、看到、看见、了解、

欣赏、游览、展示、观、见、看见、瞧、上、斜视”等词语都可能混用,(蔡北国2010)但是,即便如

此,我们还必须意识到,二语词汇习得过程中更重要的影响因素远不局限于此。我们认为,母语相关词汇及其使用情况、目的语目标词与其相关词汇的关系、目的语与母语词语等的对应关系、各类词语在目的语的搭配词语及搭配频率等因素都会影响词汇的习得过程,而且是第二语言词汇习得的关键因素。因此,可以说,第二语言词汇习得实际上是一个从意义到用法的实现过程,其学习的难点在于意义到用法的转变。

1.4二语词语习得是一个渐进的过程

从目前的研究来看,虽然有些研究者提出了二语词汇习得的阶段性(Jiang 2000;邢红兵2009),也有人提出了关于理解性词汇(receptive vocabulary )和产出性词汇(productive vocabu-lary )的区分,如Nation (1991)就曾提出了一个明确的定义,严格区分了这两类词汇的内涵,但实质上这两类词汇知识习得的本质的区分在于词语词汇知识的获得和运用。严格来说,中介

语语料库中出现的词汇尽管都是产出性词汇,

但是,并不能说明能够产出一个词就意味已经习得这个词了,因为词汇知识的获得是动态发展的过程,词汇知识需要在二语的使用中逐渐去丰富,并逐渐接近母语者的词汇知识水平。一个词在二语学习者习得的各个阶段中,可能出现不同的正确率,这正是词汇知识不断获得并调整的动态过程。

因此,词汇习得不仅仅是一个简单的会与不会的过程,而是一个词汇知识逐渐丰富的过程,也是一个逐渐接近目的语词汇知识的过程,这个过程是漫长的,需要长时间的积累。

1.5词语使用中句法、语义和功能是各自独立的过程

对外汉语教学研究重视语法教学,词汇教学及其相关研究相对薄弱,形成了语法规则为主导的教学模式,淡化了词汇知识的获得,特别是词汇知识系统的认识及其教学应用。而词汇知识本

身包含词语的句法信息和语义信息,

并且两种信息并不是截然分开的。比如,在中介语语料库中,留学生在使用“高兴”的时候,常常会出现诸如“这事儿真高兴”和“高兴的心里”这样的错误

搭配,其原因在于留学生学习了“高兴的事儿”和“心里高兴”这样的搭配关系以后依据语义关系

而进行了句法功能类推。张银丹(2011)发现,留学生在习得汉语形容词的时候,存在句法功能和

·

97·2012年04月

第2期汉语学习Chinese Language Learning Apr.,2012No.2

语义关系相互作用的情况,学习者掌握好句法、语义关系需要一个很长的过程。这表明词汇习得实际上是句法、语义知识共同作用而又相互影响的过程。因此,从词汇知识角度来看,词汇知识是句法关系和语义关系相互作用而形成的一个复杂的知识体系。

1.6母语词汇和目标语词汇存在对应关系

在我们使用的汉语教材中,词语的对应翻译方式在词汇教学中占有很重要的地位,表现为对课文中新出现的词语,采用英语或者学习者母语进行翻译,这种翻译方法为二语学习者提供了方便,但同时也导致了一些问题。周琳(2007)曾对教材中的同译词语在中介语语料库中的使用情况进行了调查,发现同译词语的注释方式增加了留学生出现偏误的可能,特别是意义关

系较远的同译词语更容易出错。究其原因,

主要是学习者在获得意义的同时,也将母语相关的使用知识直接迁移到二语词汇中。众所周知,不同语言的词汇,尽管我们认为是对译关系,但是用法上的差异要远远大于意义上的差异。汪慧慧(2010)考察发现,汉语和英语常用动词所带的宾语及其频率上,两种语言的对应动词的宾语搭配很少有完全对应的,也很少有完全不对

应的,

更多的情况是一种不完全对应的关系。请见下图:图1汉语动词和英语动词带宾语对比示意图(引自汪慧慧2010)

从这个结果来看,第二语言学习者需要在区分两种语言之间关系的基础上建立自己的双语词汇表征体系,学习的过程实际上更是建立两个心理词典并形成各自的表征,以及建立两个

词典之间的各种关系的过程。因此,

学习者母语词汇知识和目的语词汇知识关系的建立,在二语词汇习得研究中就显得至关重要,二语词汇知识习得实际上就是摆脱母语对应词用法对目的语词汇用法知识的影响过程。

二、用于对比的词汇知识库建设

2.1中介语系统与中介语语料库

王建勤(2010)认为,早期的中介语理论是在Selinker 、

Corder 和Nemser 三位学者所提出的理论主张的基础上形成的。早期的中介语系统具有如下特点:(1)中介语具有独立性;(2)中介语是可以观察到的语言系统;(3)中介语具有系统性;(4)中介语具有动态发展特征。我们认为中介语系统从中介语理论产生伊始,就具备了这样的特征。中介语语料库是在中介语理

论基础上建立的,

是二语学习者产出的书面语或者口语语言的集合,是了解二语学习者学习过程和特点的重要途径。

作为观察中介语系统的依据,中介语语料库除了具备中介语的特点以外,还要能够体现二语词汇知识体系。因此,还应该具备如下特点:(1)发展性。中介语语料库最重要的特点就是要体现学习者目的语词汇知识的不同发展过程。二语学习者在习得过程中,由于目的语知识水平的不同,表现出明显的阶段性特点,中介语语料库应该比较全面地涵盖二语学习者学习目的语的词汇知识发展的不同阶段。因此,一个理想的中介语语料库系统,应该均衡收录处在不同水平的二·

08·2012年04月

第2期第二语言词汇习得的语料库研究方法Apr.,2012

No.2

语学习者的语言表现,能够准确反映二语学习者词汇运用的真实情况。(2)分布性。中介语语料库也应该在充分考虑学习者母语背景基础上,形成代表不同母语背景学习者的语言特性。由于中介语是介于目的语和母语之间的中间状态,因此,中介语语言系统受到母语和目的语的共同影响。不同母语背景的二语学习者产生的语言的集合,代表该语言学习者的词汇习得的特点。(3)系统性。中介语语料库基本代表了中介语系统,因此具有系统性的特点。和目的语相比,中介语系统典型的表现就是正确和错误、地道和生硬、泛化和缺失、单纯和丰富并存,同时也在不断发展这样的变化过程。词汇是语料库的构成基础,通过对中介语语料库中词汇的观察,可以发展中介语语料库词汇知识。

2.2第二语言学习者的目的语词汇知识体系

邢红兵(2009)将二语词汇知识的获得过程分为三个阶段,其中最重要的阶段就是二语学习者词汇知识从意义到用法的转变,因为二语词汇习得的关键是从意义层面向用法层面转变,而中介语语料库更多体现的是词语的实际用法,因此,基于语料库的词汇习得研究就更应该通过用法来了解学习者对词汇知识的掌握情况。而第二语言词汇知识的习得最终要达到接近目的语词语的用法的目标,就应该建立一套用于二语词汇习得的目的语词汇知识体系。下面我

们以形容词“简单”为例,来分析词汇知识的构成情况。请见下图

图2“简单”的搭配知识体系示意图

从图2可见,形容词“简单”与相关的词语建立了联系,并形成了关联性的词语关系体系,

包括句法搭配关系、语义关系、题元关系、聚类关系、频率知识等,这些都是词汇知识的具体表现。因此,这套词汇知识体系应该包括以下两个方面:(1)词语使用知识,即词语在真实语言中的使用情况。就目前的语料库研究成果来看,我们可以提取到词语在实际语言中的使用次数、词语的句法属性、词语之间的搭配关系、词语的语义搭配类型、词语的搭配范围等。这些属性共同构成了词汇知识的主体部分。(2)词语关系知识。比如,根据语义形成的同类词语、搭配关系形成的搭配词语、修饰关系词语等。图2中每个圆圈中的词语实际上已经形成了聚类

关系,

比如“简单”的全部状语形成了状语聚类关系,而“很”、“非常”、“最”等表示程度的状语又形成了一个句法语义聚类。同时,“简单”的同类词语“容易”也会有一个和“简单”具有一定

共性和差异的知识体系,这两个知识体系重合部分又会使“简单”和“容易”形成了近义关系,这也属于我们所讨论的词语关系知识。

·

18·2012年04月

第2期汉语学习Chinese Language Learning Apr.,2012No.2

三、利用语料库进行第二语言词汇习得研究的原则

根据前面的分析,我们认为利用语料库资源进行第二语言词汇知识习得研究需要遵循以下几个方面的原则。

3.1系统化原则

词汇知识在语料库中表现出系统性,体现在以下两个方面:(1)每个词语在目的语母语者语料库中实际使用所形成的词汇知识本身就是一个系统,目的语词汇知识系统实际上就是二语学习者词汇发展的目标。因此,二语词汇知识获得的研究首先要从词汇知识系统本身出发,考察二语词语习得情况的重要指标就是目的语词汇知识系统,单纯的使用错误率或者搭配错

误率并不能全面衡量二语词汇习得的过程。(2)每个词语在词汇系统中,

并不是独立存在的,而是按照各种关系聚集在一起,形成诸如反义关系、同义关系、动宾搭配、主谓搭配等关系。我们对中介语语料库的研究必须将具有各类关系的词语看成是一个个系统,词汇习得的过程就是一组关系词语的选择以及使用过程。从系统化的角度进行研究,就可以避免单纯的频率因

素在二语习得研究中的局限,

也可以丰富偏误分析的结果。3.2发展性原则

二语学习者的词汇知识是一个逐渐丰富的过程,在这个过程中,会受到目的语词汇知识和母语词汇知识的共同影响,在中介语语料库中表现为介于母语和目的语中间的状态。随着目的语水平的提高,学习者的词汇知识体系逐渐接近目的语。前面我们以形容词“简单”为例,

分析了“简单”在目的语中的搭配关系及其频率构成的词汇知识体系。我们按照同样的思路对中介语语料库中的搭配知识进行了提取,以“简单”充当谓语时的主语的搭配词语为例,并根据是否重叠,形成如下图所示的交叉关系(其中实线的椭圆内为目的语的搭配词语,虚线的椭圆内为中介语的搭配词语)

图3中介语和目的语词汇搭配知识对比示意图

在二语词汇知识获得过程中,可以从以下几个方面来观察学习者词汇知识的变化过程:(1)使用度。从中介语语料库词语的使用来看,随着学习者目的语水平的逐步提高,词语的使用从出

现泛化和欠缺逐渐转换到均衡。比如

“事情”、“头脑”和“简单”形成了主谓关系,在现代汉语语料库中使用了4次,而“事情”在中介语语料库中只用了1次,“头脑”没有使用。这表明两个词语

在中介语语料库中主语搭配上的使用度偏低,

而上文提到的“们”、“的话”和目的语比较,明显使用度偏高。(2)丰富性。二语学习者目的语词汇知识的获得是一个从简单到丰富的渐变过程,表现在搭配关系由简单到逐渐丰富,因此丰富性是我们衡量二语学习者词汇知识的重要指标。比

如在现代汉语语料库中,“简单”的主语成分有48个词语,而在中介语语料库中出现的是23个,

·

28·2012年04月

第2期第二语言词汇习得的语料库研究方法Apr.,2012

No.2

而且数量是随着学习者汉语水平的提高逐步增加的。因此,我们认为中介语语料库中“简单”的

主语搭配词语的丰富性还不够,

和目的语还有一定的差距。(3)匹配度。匹配度是指中介语语料库中词语的使用情况和目的语使用情况的重合情况。比如上文图3中现代汉语和中介语中和“简单”搭配的主语成分中,两个语料库中的搭配并不完全匹配,只有

“问题”“事情”、“内容”、“生活”和“手续”5个词语是两个语料库中共有的搭配,因此,我们认为,中介语语料库中“简单”充当谓语时主语成分的分布情况和现代汉语主语成分的匹配情况并不十分理想,学习者还需要进一步学习,获得更多的搭配知识,进而获得更高的匹配度。

3.3对比分析原则

对比分析理论和语料库语言学在第二语言习得研究方面的结合,产生了利用语料库资源对比

中介语和目的语等的对比研究方法,

其中Granger (1996/1998/2002)提出的中介语对比方法最具代表性。Granger (2002)认为,基于学习者语料库的研究方法包括两个方面:(1)中介语对比方法(CIA ,Contrastive Interlanguage Analysis ),这种方法是对母语者(NS ,

Native Speaker )和二语者(NNS ,Non-n-ative Speaker )之间的语言进行定量和定性的研究;(2)计算机辅助错误分析(CEA ,

Computer-aided Error Analysis ),这种方法是利用计算机对中介语中的错误进行标注、检索和分析。就目前的研究来

看,

如何将基于语料库的对比分析真正应用到词汇知识的获得研究中,还缺少较为系统的考察,研究的角度也需要进一步扩展。

我们认为,应该将中介语对比研究与语料库研究结合起来,克服第二语言词汇习得研究的误区,建立起词汇知识体系,按照一定的原则进行二语习得词汇知识获得过程的研究。这可从对比的

范围和内容上来分析:(1)对比的范围。参照Granger (1996/1998/2002)的设想,

基于语料库的中介语词汇习得研究的范围可以概括为以下几个方面:(a )中介语(IL )和目的语(TL )的对比研究;(b )中介语(IL )和母语(NL )的对比研究;(c )母语(NL )和目的语(TL )的对比研究;(d )中介语系统自身体系中不同阶段、不同母语背景等属性的对比研究。这方面的对比研究应该包括中介语系统发展的不同阶段和不同母语背景的学习者,中介语体系的对比研究等方面。(2)对比的内容。对比分析

的内容主要是以目的语词汇知识为目标,

以母语的词汇知识作为参照,对中介语系统中各个母语背景、

各个阶段的属性进行对照分析。对比分析要抓住使用度、丰富性和匹配度等重要环节来进行。3.4多因素分析原则

实验设计(experimental design )是心理学研究的最重要手段,而在实验研究中,变量的设立控制也是实验研究的关键。通过多因素的实验设计,可以分析变量的不同水平以及不同变量之间的关系。我们以舒华(1994)的研究为例,来说明因素分析的重要性(见表1)。

表1教学手段和不同学习能力学生学习成绩表(引自舒华1994)b1

b2∑a1

807879a2

926478

∑8666假定有两种教学方法,

a1表示正常讲授教学,a2表示独立学习和讨论的教学方法;有两组学生,

b1是学习能力强的学生,b2是学习能力弱的学生。这里面已经涉及到了两个因素。如果不考虑学生的学习能力,那么结果就是两种教学方法没有差异,但是如果考虑学生的学习能力,就发现第二种教学方法对学习能力强的学生有提高,但是对学习能力差的学生来说,学习

·

38·2012年04月

第2期汉语学习Chinese Language Learning Apr.,2012No.2

效果比正常讲授还要差。这就是多因素分析及因素之间交互作用的典型例证。

词汇知识是一个复杂的知识系统,因此,词汇知识的相关研究就会涉及到很多不同的因素。从目前基于语料库的词汇知识体系的研究来看,有几个因素是习得研究的关键因素,主要包含以下几个方面:(1)语言材料的自身特征;(2)二语学习者的母语背景;(3)二语学习者的目的语水平。其中语言材料的自身属性最为复杂,需要我们进行认真细致的分析。从词汇习得角度来看,应该对词汇本身的属性进行细化。比如可以从动词类型和母语背景两个因素来分析词语习得过程,也可以选取心理动词和动作动词作为动词类型因素,同时选择日语、韩语和英语背景的留学生的习得情况来进行分析,这样我们就可以看到不同语言背景的学习者在习得这两类动词上是否存在差别。

四、结论

总的来说,我们认为基于语料库的词语知识体系建设及其相关研究在第二语言习得中应该得到重视。第二语言习得过程是语言知识体系不断完善并最终形成系统的过程,目标语语

料库的属性是二语习得研究的目标参照体系,

母语词汇知识对二语词汇习得有一定的影响,二语词汇习得研究的语料库方法中需要重视对比方法的运用,语言习得研究要重视语言知识体系中多种相关因素的相互作用。利用语料库进行第二语言词汇习得研究,要在对比分析的基础上,将词汇知识习得研究的视野由单纯的词汇意义扩展到词语的用法层面,研究中要将词汇知识看成是一套完整的系统,学习词汇的过程就是词汇系统中词汇知识的建立及词语关系建立的过程。每个词所具有的词汇知识就是一个系统,词汇的习得过程就是词汇系统的发展过

程。要对目的语、

母语和中介语系统进行词汇知识的对比,并且将学习者的阶段性、学习者自身的学习特点等反映在对比分析中。词汇习得过程涉及到很多因素,因此,进行词汇习得研究就必须要采用多因素实验设计分析的方法和思路,重视各种因素之间的相互关系。

中介语语料库系统较好地反映了二语学习者的语言产出情况,但并不能完全代表二语学习者的心理过程,这主要体现在:(1)语料库偏重于语言产出,对语言理解的观察有限;(2)对二语学习者的心理机制的了解不全面,因为仅从语言输出结果并不能直接观察到学习者的词汇知识体系的特点。因此,我们还要采用实验的方法更直接地了解二语学习者词汇知识建立的心理过程及其变化情况。

参考文献:

[1]蔡北国.中介语动作动词混用的调查与分析[

J ].世界汉语教学,2010,(3).[2]顾晓波.基于语料库的中介语研究述评[

J ].辽宁中医药大学学报,2010,(3).[3]舒华.心理与教育研究中的多因素实验设计[

M ].北京:北京师范大学出版社,1994.[4]汪慧慧.基于英汉动宾搭配对比的留学生词汇习得研究[

D ].北京语言大学硕士学位论文,2010.[5]王建勤.第二语言习得研究[

M ].北京:商务印书馆,2010.[6]文秋芳,王立非.二语习得研究方法35年:回顾与思考[

J ].外国语,2004,(4).[7]邢红兵.基于联结主义理论的第二语言词汇习得研究框架[

J ].语言教学与研究,2009,(5).[8]许尔茜.留学生“V 着(zhe )”的习得研究[

A ].汉语作为第二语言习得的认知探索(邢红兵主编)[C ].北京:世界图书出版公司,

2011.[9]张银丹.留学生形名搭配句法与语义关系习得的实验研究[

A ].汉语作为第二语言习得的认知探索(邢红·

48·2012年04月

第2期第二语言词汇习得的语料库研究方法Apr.,2012

No.2

兵主编)[

C ].北京:世界图书出版公司,2011.[10]周琳.对外汉语教材同译词语及英语背景留学生使用偏误研究

[D ].北京语言大学硕士学位论文,2007.[11]Bates ,E.,Elman ,J.,Johnson ,M.,Karmiloff-Smith ,A.,Parisi ,D.,Plunkett ,K.Innateness and emergentism

[C ].In :Bechtel ,W.,Graham ,G.(Eds.),A Companion to Cognitive Science.Blackwell ,Oxford ,1998.

[12]Granger ,S.From CA to CIA and back :An integrated approach to omputerized bilingual and learner corpora [C ].

In :Aijmer K.,Altenberg B.and Johansson M.(eds )Languages in Contrast.Text -based cross -linguistic stud-

ies.Lund Studies in English 88.Lund :Lund University Press ,

1996.[13]Granger ,S.The computer learner corpus :A versatile new source of data for SLA research [C ].In :Granger ,S.

(Ed.),Learner English on computer.London :Longman ,1998.

[14]Granger ,S.A bird ’s-eye view of learner corpus research [C ].In :Granger et al.(eds.)Computer Learner Corpo-

ra ,Second Language Acquisition ,and Foreign Language Teaching.John Benjamins ,2002.

[15]Jiang ,N.Lexical Representation and Development in a Second Language [J ].Applied Linguistics ,2000,(21).[16]MacWhinney ,B.The emergence of language [M ].Mahwah ,NJ :Lawrence Erlbaum ,1999.

[17]Nation ,I.S.P.Teaching and Learning Vocabulary [M ].New York :Heinle andHeinle ,1990.

[18]Rumelhart ,D.,&McClelland ,J.On learning the past tenses of English verbs [C ].In :James ,L.,McClelland ,J.,

David ,E.,Rumelhart ,D.and the PDP Research Group (eds.),Parallel Distributed Processing :Explorations in the Microstructures of Cognition :Psychological and Biological Models.Cambridge ,MA :MIT Press ,1986.

A Corpus-based Approach to Second Language Lexical Acquisition

XING Honɡ-binɡ

(Beijing Language and Culture University ,Beijing 100083)

Abstract :This paper analyzes the limitations of current studies ,such as in frequency effect ,error an-

alyzes ,

lexical awareness ,syntactic and semantic relations ,target language and native language rela-tions.We should establish a corpus-based lexical knowledge database for the research of second lan-guage vocabulary learning.We recommend that the second language acquisition research should be organized around the principle of lexical knowledge is systematic ,developmental ,and research data should be analyzed using factor analysis method.

Key words :second language ;lexical knowledge ;lexical acquisition ;corpus

·58·2012年04月

第2期汉语学习Chinese Language Learning Apr.,2012No.2

语料库研究的优势及问题的理论解析

语料库语言学的理论解析 摘要:本文试图剖析有关语料库语言学的几个理论问题,以期揭示语料库语言学的本质。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 关键词:语料库语言学;基于语料库的研究方法;理论架构;语料库数据;发展前景 Abstract: This paper attempts to answer some theoretical questions of corpus-based language studies. Three theoretical considerations are addressed to capture the nature of corpus linguistics. 1) Is Corpus Linguistics an independent branch under the umbrella of linguistics? 2) What can corpus data offer to linguists? and 3) What kind of research that Corpus Linguistics should be? Answers to the three theoretical questions will conduce to a fuller understanding of the nature of corpus-based language studies and their development. Key words: Corpus linguistics; corpus-based approach; theoretical construct; corpus data; future directions 1.0 导言 目前利用语料库从事研究的学者主要有两类。一类是计算语言学家。他们主要从事自然语言处理(NLP)的研究,诸如语音合成、语音识别和机器翻译等等。他们的终极目标并非要揭示语言的本质,而是注重技术层面的研究,比方如何改进算法,如何完善词库的建设以实现技术上的突破。另一类就是语言学家,他们则希望借助这一强大的工具去揭示语言的本质这一学科目标,这正是本文所要关注的。 本文缘起于语言研究者中的一种争论,即“语料库语言学”是否配得上这个名称,它是一种新兴的理论视角还是“暴发户造谱牒”?而本文要探讨的正是有关于语料库语言学研究的理论意义。或者说,语言学家从语料库所提供的信息中到底可以获得什么?这是本文试图解决的核心问题。语料库建设、开发和利用在国内外语言学界日渐兴起,在国内也有相当数量介绍性和综述性文献涌现,为语料库语言学在我国的发展奠定了一定的理论基础。此外,一些语言学者和语言教师(包括外语教师和对外汉语教师)也设计、建立了一些自己的语料库以服务于教学科研。 然而真正对语料库的理论问题进行深入探讨的著述却为数不多。本文将试图剖析语料库语言学的几个理论问题,以期对语料库语言学的优势和不足有进一步的认识。第一:语料库语言学是不是独立的新兴学科?第二:语料库提供的数据到底可以给语言学家带来什么?第三:语料库语言学的真正任务是什么,它应该成为怎样一项研究?回答好这几个问题实际上也就回答了语料库语言学的性质和理论地位,以及这项研究向何处去的问题。这将有助于我们更好地从事基于语料库的语言研究和实践。 2.0 语料库语言学是不是独立的新兴学科? 2.1 语料库语言学是一种理论架构 完全赞成语料库语言学是一种理论架构的几乎没有。只是某些学者比较强调语料库语言学的理论意义。比如,Halliday(1991;1992;1993)指出,语料库语言学作为一种理论架构(theoretical construct),将语料收集和理论概括统一了起来,从而使我们对语言的理解产生一种质变。这种新的理论架构有助于考察同时作为系统和实例(instance)的语言的本质。因为在Halliday的语言学思想当中,实际话语是语言系统的实例再现(instantiation)。而语言系统,或者说是语法体系是一种统计概率上(probabilistic)的自然结果。这一思想与所谓

语料库辅助的大学英语词汇教学初探

语料库辅助的大学英语词汇教学初探 发表时间:2012-08-30T09:32:30.327Z 来源:《时代报告》2012年第6期作者:毛晓迎[导读] 因此,教师在语言教学中应该推广并充分利用网络中的可用语料库资源。 毛晓迎(武汉科技大学外国语学院,湖北武汉 430065) 中图分类号:H319.3 文献标识码:A 文章编号:1033-2738(2012)06-0063-01 摘要:分析了语料库的辅助大学英语词汇教学的的必要性和可行性,认为本族语语料库和学习者语料库相结合,可以促进学习者词汇搭配、词义以及词汇语义韵等方面的学习,满足教师课堂词汇教学的需要,提高学习者的词汇能力,提高大学英语词汇教学和学习的效率。关键词:语料库;英语词汇教学;词汇能力 一、引入 词汇是标志外语学习者语言能力的核心成分之一,语言的习得和运用离不开词汇的积累和灵活掌握。学习者只有掌握了足够的词汇量才能理解他人的话语或文章,才能通过口头或书面等方式表达自己的所思和所想。反之,则会影响正常的语言交际。由此可见,词汇教学是外语教学中的一个必不可少的重要环节,起着举足轻重的作用。 二、关于语料库 根据欧洲语料库语言学的开拓者辛克莱尔( J. Sinclair)的定义,语料库( Corpus) 是指为研究语言,用计算机处理和储存的书面和口头的语言材料(吴耀武, 2009)[2] 。语料库作为一种辅助性工具应用于语言教学中,还属一个新兴领域。随着计算机辅助语言教学( Computer AssistedLanguage Learning) 的不断发展,语料库的使用正渐渐普及,以计算机为基础的语料库的产品越来越丰富,为语言教学提供大量鲜活、客观的教学资源,尤其为词汇教学提供了直观、科学的教学依据,能够快捷、准确地提供与某一关键词有关的大量真实语料,以全新的方式促进了外语教学与研究的发展,使人们更加认识到语料库在现代外语教学中正发挥着越来越重要的作用。因此,教师在语言教学中应该推广并充分利用网络中的可用语料库资源。 三、语料库在英语词汇教学中的应用 一般来说,传统的高职英语词汇教学是泛讲,往往脱离一定的上下文语境而孤立的谈某些词汇现象,不是选择对有代表性的词汇进行详细讲解。以往对某一单词进行讲解,所涉及到的主要内容大多是词典里面对该单词解释的繁杂罗列,包括单词的发音、拼写、词性、固定搭配、例句等基本信息。毫无疑问,这些信息是学习一门语言必须要掌握的基础知识,具有重要意义。 四、BNC和CLEC辅助词汇学习的必要性和可行性 BNC中的1亿词汇基本涵盖了人物、文学、体育、科学、军事、经济、政治、艺术、航天以及其他学科领域的高频词汇。学习者可以检索并在同一个语义场丰富的语料输入中学习与目标词(target word)相关的搭配、文体和语用等知识。可以充分缓解教学内容繁多与课时不足的矛盾,提供给学生大量的语言事实并营造真实的语言环境,弥补教师凭借自己直觉经验来讲解词汇的不足,从而减少学习者的语言失误;同时更重要的是BNC中大量真实的语言有利于培养学习者的预感。 五、CLEC和BNC辅助英语词汇学习 众所周知,教师经常在课堂上能否为学生举出比较适合英语习惯的、鲜活的英语例句而发愁。另外,一个主要的问题是:仅仅用课堂上有限的例句来让学习者全面掌握词的不同词义、搭配等知识可能性不大。因此,在课堂的英语词汇教学中,教师很有必要采取“预防”措施,即从CLEC中检索出已经标注好的语料分析归纳不同水平英语学习者(如大学英语四、六级以及英语专业)经常犯的词汇拼写和搭配错误,对这些高频语言错误反复强调和训练,然后,通过检索BNC归纳要学的目标词搭配和语义韵等知识,通过大量的例子让学习者逐渐学习不同词汇的各种知识。 (一)词汇搭配的学习。 词汇搭配是大学英语学习的重点和难点之一,在这方面,CLEC和BNC语料库为我们提供了有效探索词汇教学的途径。例如,在词序方面,这样的词序往往困扰一些学生,“such+a/an+形容词+名词”与“so+形容词+a/an+名词”,运用这两种语料库我们可以轻而易举地解决这个问题,只要在BNC或CLEC的查询框中键入“such(a/an)”或so,我们可以得到大量的包含这一结构的样句。表 BNC中检索出的部分语料 (二)语义韵的学习。 语义韵(semantic prosody)是Sinclair借用Firth的“音韵”(prosody)一词而新创的一个专为语料库语言学研究使用的术语。Firth 首先使用prosody这个词来表示跨音段语音色彩。而“语义韵”则表示超越词界的联想色彩。跨越词界的联想色彩主要是指词义的感情色彩。感情意义指词语的褒贬色彩,如statesman(政治家)和politician(政客);修辞意义指的是词语的委婉、夸张、讽刺、戏谑等色彩,如die (死亡)可以说成是pass away(逝世)或go to the west(上西天)等,one's wife(妻子)可以戏谑地说是one's better half(较好的那一半);动词cause(导致,造成)搭配使用的词群,发现该词染有较强的“贬韵”,充当其宾语的往往是accident,concern,trouble,damage,death之类的词。但是好多中国英语学习者经常把cause和表示褒义的词联用,例如,cause my sensation,cause a good result 等。通过分析CLEC中的有关cause的语料就可以知道学习者对该词语义韵的掌握情况,然后教师通过检索BNC中相关的搭配,分析并且归纳常出现在cause之后的名词,让学习者知道cause后面经常接表示“后果”而非“结果”的名词。 语料库辅助的英语教学为教师课堂词汇教学提供了丰富、真实的语料,教师可以通过这些语料归纳总结,和学习者语料库中的语料进行对比,找到学习者经常出现错误的原因,进行对症的单词教学。而且语料库使用比较方便,学生在课后可以直接在线检索并接触语料库,直接接触现代真实的语言信息,学生会感到事业宽阔,有如在外语海洋里畅游。

基于COCA语料库和CCL语料库的翻译教学探索

基于COCA语料库和CCL语料库的翻译教学探索 南京大学 常熟理工学院 朱晓敏 提 要:从上世纪80年代起,作为一种研究语言现象和语言本质的新模式,语料库语言学取得了令人鼓舞的成就。语料库已经渗透到语言研究的各个领域。翻译研究领域里使用的语料库多为双语平行语料库和翻译语料库。单语语料库与翻译研究相结合,尤其是与翻译教学相结合,是一个鲜有人探索的未知领域。在课堂上使用可以免费获取的美国杨百翰大学的英语单语语料库(CO CA语料库)和北京大学汉语语言学研究中心的汉语单语语料库(CCL语料库)能改变传统翻译教学模式,为翻译教学的改革提供借鉴。 关键词:语料库,COCA,CCL,翻译教学 一、引言 作为一个新的研究领域,一种全新的探究语言现象和语言本质的方法,语料库语言学在上世纪80年代得到了蓬勃的发展。韩礼德(1993:24)曾指出: 语料库语言学将数据收集与理论论述有机地结合在一起,使我们对语言的理解发生了质的变化(转引自王克非,2004:4)。 根据收集语料的语言种类,语料库可分为单语语料库(monolingual corpus)和双语/多语语料库(bilingual/multilingual corpora)。前者仅采用一种语言的语料,通过大量收集本族语者的语言实例而建成;而后者是由两种或两种以上的语言文本构成的语料库,它可以有对应/平行的、类比的和翻译的三种形式。 单语语料库的研发历史要追溯到上世纪50年代末,由夸克等人在伦敦大学率先建立起现代意义上的语料库,即 英语用法调查(Survey of English Usage)。到目前为止,比较大型的英语单语语料库有BNC英国国家语料库,CBECobuild 英语库,Brow n布朗语料库,美国杨百翰大学M ark Davis教授主持的美国当代英语语料库(Corpus of Contemporary American English,简称COCA语料库),汉语的有北京大学汉语语言学研究中心的CCL汉语语料库等。国际上双语/多语语料库在近十几年得到了长足的发展,比较早的双语语料库有20世纪90年代早期建立的英语-挪威语双语平行语料库和英语-意大利语双语平行语料库,以及后来建立的英语和德语,英语和法语等双语语料库。国内目前规模最大的汉英双语语料库是北京外国语大学中国外语教育研究中心近年建成的达3000万字词的通用汉英语料库。国际上多语语料库有T he ECI M ultilingual Corpus多语种语料库(The ECI M ultilingual Corpus,简称IECI/M CI),近1亿字,包含了欧洲主要的语言及土耳其语、日语,俄语、汉语和马来语。而国内目前多语语料库的研究开发还是空白。 二、传统翻译教学面临的挑战与改革的出路 我国传统的翻译教学模式,即 理论讲解!举例验证!结论巩固,曾经为我国培养了一批优秀的翻译人才,他们中的很多人仍然是现在翻译行业的主力军。他们拥有扎实的中、英文功底和孜孜不倦的翻译探索精神。进入21世纪以来,信息技术迅猛发展,知识更新速度加快,传统的翻译教学难以适应新的挑战。从学生对课堂教学的反馈和专业八级考试中翻译部分的得分来看,传统翻译教学存在以下三个方面的问题:首先,翻译教学观念比较陈旧,课堂教学以教师讲述为主,学生听记为辅。学生只记得了抽象的翻译技巧,其实际的翻译能力并没有得到发展。其次,讲授的内容受教材限制,例句少且多为人造语境,学生感觉枯燥,难以提高学生的翻译能力。最后,课堂信息输入量小。 粉笔+黑板+教材+课后翻译练习的单一的教学方法导致课堂容量小,节奏缓慢。要改变以上现状,就要 实现翻译课程结构的科学化,扩大课堂教学的信息输入量,让学生在教师提 本文是南京大学2009年博士研究生科研创新基金课题 基于网络的英汉/汉英平行语料对自动获取(项目编号2010CW02)的前期研究成果。感谢匿名评审人员的宝贵意见。文责自负。

语料库辅助的词汇教学

语料库辅助的词汇教学 《普通高中英语课程标准(2003)》提倡词汇教学应为学生创设一些运用的语境,并提供语言支持,使学生在运用中加深理解,学会运用。语料库特有的语境共现界面能够批量地呈现目标词的使用语境,由此带出由目标词与周围的词共建短语词块的词汇搭配范式、语法范式、语义功能以及语用功能等,使词汇教学落实到深层知识的理解和应用。 高三学生在每次月考中反映困难最大的就是词汇问题:生词太多或者对熟悉的词的新含义不了解。针对这一现象,研究者从2012年9月高三开学起,手工加工学生正在学习的模块10的语料库,在学生学习每个单元的前后利用课文语料库使目标词汇在学生眼前多次重现,达到对词汇深层理解。具体做法如下(以模块10第一单元Reading为例): 1)要求学生上新课前预习Reading部分的生词和课文。 2)把Reading部分语料库中的所有生词用“________”代替,并打印出来,在上新课前让学生用5-8分钟练习。下面举其中的第一段为例: Teach a man to fish In 1985, there was little 1____________ in Ethiopia, which led to poor harvests and the death of many of the country’s cattle. The 2____________ of the situation shocked Bob Geldof, an Irish musician, so he organized a charity concert called Live Aid to raise money for victims of hunger in 3_____________. The concert took place on 13 July 1985 in two places---LondonandPhiladelphia---and included the biggest stars of the time. Geldof intended the concert to raise money for hunger relief and to make the public more aware of the problem. In the end, $100 million was raised, which was used to buy food and to provide help with development projects inEthiopia. The concert also made the 4____________ around the world, and 5_____________________ 6______________ and 7_____________ to do something about the problem of world hunger. 说明:如果学生在没有任何提示的情况下完成该练习有困难,可以把所有生词打乱顺序摆在练习的最上端供学生选择。 3)学习完该单元后,再针对学生在学习过程中的遇到的重点和难点词汇、短语,重新设置“________”进行练习,达到词汇在正确的使用语境中重复练习的目的。 三、结语 由于研究者经验不足和能力有限,《牛津高中英语》教材语料库的建设和应用还存在以下问题:

国内语料库翻译学20年述评_1993_2012_宋庆伟(DOC)

上海翻译Shanghai Journal of Translators2013 No. 2 国内语料库翻译学20年述评( 1993—2012) 宋庆伟匡华吴建平( 厦门大学外文学院,福建厦门 361005;济南大学外国语学院,山东济南 250022) ( 山东大学外国语学院,山东济南250061) ( 厦门大学外文学院,福建厦门361005) [摘要]本文以中国知网( CNKI) 1993-2012年外语核心期刊中关于语料库翻译学的学术论文为样本,从翻译语言特征、译者风格和应用研究等六个方面对国内近20年语料库翻译学的发展历史进行钩沉,梳理其主要研究脉络和现状,总结语料库翻译学研究的成就、问题与趋势,以期能为该领域研究提供全景式的概况。作者认为,当前研究还存在诸如研究内容与视角比较狭窄,跨学科性研究不足,定量研究层次不高和语料库( 特别是口译语料库) 建设和研究相对滞后等问 题,亟待有针对性的改进与完善。 [关键词]语料库翻译学; 翻译共性; 译者风格; 口译 [中图分类号]H059 [文献标识码] A [文章编号]1672-9358( 2013) 02-0025-06 1 引言到翻译研究当中,使语料库翻译研究迅速发展,逐步 近几年,语料库翻译学随着语料库语言学和描成为描述翻译研究中的一种新范式( Laviosa,1998: 写翻译理论的发展和融合迅速成长起来。从发展历474; 2002: 22)。基于语料库的研究为翻译学提供程来看,她还非常年轻,从1993年Mona Baker发表了新的方法和思路,现在学界形成的共识是利用语语料库翻译学的开山之作《语料库语言学与翻译研料库进行翻译研究是一种不可或缺且可靠的手段。究: 启示和应用》至2012年,刚刚走过了短短的20 从一定程度上来讲,语料库翻译学即语料库语言学年。国内语料库翻译研究几乎与国外同步,肇始于和描写性翻译研究的相加,二者的结合可以说是相1993 年,代表作为杨惠中《语料库语言学与机器翻得益彰,在当今翻译研究注重描写和实证的趋势下,译》一文。如今,国内语料库翻译研究已初具规模,语料库翻译学应运而生。语料库翻译学以翻译本体在翻译共性、译者风格和语料库建设等诸方面都取为研究对象,从大规模翻译文本或翻译语言整体入得了可喜的进步,Tymoczko( 1998: 652) 曾大胆预言手,采用语内对比与语际对比相结合的模式,对翻译基于语料库的翻译研究将是翻译研究的重中之重。现象进行描写和解释,探索翻译的本质。( 王克非、近20年,特别是近几年涌现出一大批语料库翻译学黄立波,2008: 9-14) 的专著和论文,国家社科基金和教育部人文社科基 金对该领域的研究也进行了倾斜。鉴于此,笔者认 3 数据采集 为极有必要对其发展脉络进行梳理和分析,以期为近几年,国内基于语料库的翻译研究发展迅速,今后的研究提供借鉴和参考。本文以中国知网研究的深度和广度也不断拓展,发表文章数量逐年( CNKI) 近20年来外语核心期刊中收录的有关语料增加。为了更好地说明这种趋势,笔者统计了近20 库翻译学的学术论文为基础,借以梳理其研究现状、年( 1993-2012) 中国知网收录的外语核心期刊中关分析成就和问题并展望发展趋势。于语料库翻译学的文章,该统计涉及2012-2013年 版CSSCI外语类来源期刊( 包括扩展版) 共15种,2 语料库翻译学基本原理收集有关文章共97篇,具体数据如下表所示: Mona Baker( 1993)开创性地把语料库方法应用 [基金项目]本文是上海市科委课题“英汉双语平行句对应语料库建设”( 编号: 08dz1501100) 的阶段性成果。论文在写作过程中,得到秦洪武 教授的悉心指点,谨致谢忱! [收稿日期]2013-02-20 [作者简介]宋庆伟,厦门大学博士生,济南大学外国语学院讲师,研究方向: 语料库翻译学、双语词典编纂与翻译; 匡华,山东大学外 国语学院讲师,研究方向: 语料库语言学与英语教学; 吴建平,厦门大学外文学院教授,博士生导师,研究方向: 翻译学与双语词典学。

语料库研究与综述.

语料库研究与应用综述 一概述 语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。 语料库有多种类型,确定类型的主要依据是它的研究目的和用途,这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型:(1)异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;(2)同质的(Homogeneous):只收集同一类内容的语料;(3)系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;(4)专用的(Specialized):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库,前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域,后者将表述同样内容的不同语言文本收集到一起,多用于语言对比研究。 语料库建设中涉及的主要问题包括: (1)设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。 (2)语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。 (3)语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。 (4)语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。 (5)语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和软件工具。 我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。 语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符

基于语料库语学的英语词汇教学.doc

基于语料库语言学的英语词汇教学- 传统的语言学把词汇分成可以借助语法规则进行自由组合的单词和不能用语法规则解释的固定短语,因此传统上的词汇教学即指单词教学(蒋利,2003)。我国传统的词汇教学主要以词义驱动为主,学生往往只通过机械记忆单词或短语的形式及与其对应的中文意思来扩大词汇量(刁琳琳,2004)。教师在备课及授课过程中也很少涉及词块、搭配、语用规则和语义韵等较深层次的内容。而当把学生已机械记忆的单词放进具体语篇时,学生在理解和应用上都会出现问题。因此,在教学实践中,如果将语料库方法引入词汇教学,有助于区分词汇学习的不同层面及意义类型,并能切实改进词汇教学效果。 一、用语料库方法教授词汇的搭配、类联结与语义韵 卫乃兴(2001:100)将词汇的搭配定义为:在文本中实现一定的非成语意义并以一定的语法形式因循组合使用的一个词语序列,构成该序列的词语相互预期,以大于偶然的几率共现。词汇学习不是简单地记忆单词的读音与拼写,不了解词汇的搭配范围就很难真正习得了这些词汇,因此,词语搭配是词汇学习及研究的重点。类联结是发生于词语搭配中的语法结构和框架,因此它较之词汇搭配更抽象一些。甄凤超(2005:19-28)指出通过建立类联结,我们可以发现词汇的语法模式,并且词汇与语法密不可分。语法形式和词汇行为相关,并和意义发生联系。关于语义韵,卫乃兴(2002)指出词项的搭配行为显示一定的语义趋向即一定的词项会习惯性地吸引某一类具有相似语义特点的词项,构成搭配。由于这些具有相同语义特点的词项及其搭配在文本中高频共现,整个语境就弥漫了某种语义氛围,这种氛围被称

作语义韵。语义韵概念的引入对于区分同义词或近义词能起到很好的解释作用。由于受篇幅限制,本文主要探讨基于语料库语言学的词汇搭配教学。 二、语料库在词汇搭配教学中的应用 近年来语料库语言学发展迅速,基于语料库的搭配研究越来越被重视,逐步成为语言研究与教学的重要领域。在语言教学中引入索引工具,让学习者从大量的地道真实的语料中考察词语的搭配模式,有利于提高学习者的搭配水平、语言使用能力和自主学习能力。现以make和have为例讨论学习者通过接触真实语料,可以分析不同搭配在文体以及句法等方面存在的差异。首先使用AntConc检索工具从COCA和BNC中搜集部分与make和have搭配的常见词。如表2.1所示: 英语动词make的核心含义为制造,然而事实证明只了解单词的汉语意义显然不够,对以它们为中心词的各种搭配进行分析能促进学生更好地掌握其语义及使用差异。根据表格我们可以观察到如make后常跟change / corrections / comment / contribution / decision / effort / excuse / friend等。动词have的核心含义之一为经历,与其搭配频率较高的名词有accident / argument / break / conversation / difficulty / dream / experience / good time / problem 等。词汇教学中引入语料库方法,可以有效帮助学生掌握词汇的不同搭配更好地理解词之间的语义差异。学会并灵活使用大量的搭配词语有助于全面提高语言学习效率及应用能力。 三、结语 利用语料库工具辅助英语词汇教学具有重要意义。首先,提供给学生大量真实语料,营造真实语言环境,能够保证学生语言输入的质量;其次,用语料库检索工具使关键词在其索引行中

语料库语言学的发展及研究现状

当代语言学(试刊)1998年第1期4-12页,北京 语料库语言学的发展及研究现状 丁信善 1.0引言 语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域,它正在对语言研究的许多领域产生愈来愈大的影响。 这是J.Thomas等人1996年为祝贺语料库语言学的主要奠基人和倡导者G.Leech六十诞辰而出的语料库语言学研究论集的开场白。近年来,对语料库语言学类似的评说频频见于导论和方法论的书及教科书中,它不仅仅是语料库语言学家们的自誉,而正在成为整个语言学界的共识。 2.0语料库语言学的定义 关于语料库语言学的定义,现引述三例: a. 根据篇章材料对语言的研究称为语料库语言学。 (K.Aijmer&B.Aitenberg,1991,p.1) b. 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学。 (T.M c Enery&A. Wilson,1996,p.1) c. 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。 (D. Crystal,1991,p.86) 由上述几个定义可见,语料库语言学不是研究语言自身某个方面,而是一种以语料库为基础的语言研究方法。它实际上包括两个方面:一是对自然语料进行标注,二是对已经标注的语料的研究和利用的方法。从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域。 3.0语料库语言学的历史发展 语料库语言学作为一种研究语言的方法,可以追溯到上个世纪,甚至更为久远。现在一般以乔姆斯基转换生成语法的兴衰时间为参照,将其发展大致分为以下几个阶段: 3.1语料库语言学的早期发展 早期的语料库语言学指的是本世纪五十年代中期以前,即乔姆斯基提出转换生成语法理论之前的所有基于语言材料的语言研究。此类研究主要集中在以下几个方面: (1)语言习得是应用语料研究方法较早且较普遍的领域。19世纪70年代在欧洲兴起了儿童语言习得研究的第一个热潮,当时的许多研究就是基于父母详细记载其子女话语发展的大量日记的。据悉,这些日记作为原始材料,不仅是当时W.Preyer和W.Stern等人的理论假说的依据,而且时至今日仍是许多学者的研究语料之一。自本世纪30年代以来,语言学家和心理语言学家提出了众多关于儿童在不同年龄段的语言发展模式。这些模式大都是建立在对儿童自然话语大量材料的研究分析上的。 (2)利用自然语料开展音系研究,在西方当首推美国早期的结构主义语言学家,如F.Boas和 E.Sapir等人。他们注重 野外工作 ,强调语料获取的自然性和语料分析的客观性。这些都为后来的语料语言学所继承和发展。 本文承蒙哥本哈根大学翻译与词典学研究中心主任C.Dollerup博士提供有关欧洲语料库网络的材料,特此致谢。

浅析语料库对于翻译研究的意义

浅析语料库对于翻译研究的意义 【摘要】基于语料库的翻译研究在当今已进入一个全新模式,多种语料库被开发应用在人工翻译和机器翻译等实践领域当中。本文对语料库的概念以及某些种类语料库在翻译活动中具体实用情况做出分析,揭示语料库对于翻译研究的意义。 【关键词】语料库;翻译;双语语料库;平行/对应语料库 An Analysis on the Significance of Corpus to Translating Research CHEN Dan (Eastern Liaoning University,Dandong Liaoning 118000,China) 【Abstract】Translating research based on corpus has stepped into a new mode today,and many kinds of corpora are developed and applied in practical fields of manual translation and machine translation. The thesis analyzes the concept corpus and the application of some corpora in translating,which exemplify the significance of corpus to translating research. 【Key words】Corpus;Translating;bilingual corpus;Parallel corpus “语料库”的英语单词corpus来源于拉丁语,意思是body,有“全集”的含义,即“语料的集合”。有的学者认为语料库是基于形式和目的的存储于电子数据库中的文本集合,是描述自然发生语言的集合;也有人认为它是按照明确的语言学标准选择并排序的语言运用材料的汇集,旨在用作语言的样本。国内语料库学者杨惠中对语料库的定义做了较为详细的界定。他指出,“语料库是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段而建成的具有一定容量的大型电子文库”。 语料库所收集的语料是真实、自然的语言。不同于普通的文本数据库,它的设计和建设是以系统的理论语言学原则为依据,并且具有明确的目的性。语料库的结构严格依照既定程序设定,以一定研究目的为基础,按学科或语篇类型分类存储。语料库中的语料必须符合科学的语言研究,语料可以随机抽取或按统计学方法采集。 语料库的类型和分类标准很多。按用途分,语料库可分为通用语料库(general corpus)和专用语料库(specialized corpus);按语料选取时间,语料库可分为历时语料库(diachronic corpus)和共时语料库(synchronic corpus);按不同结构,语料库可分为平衡语料库(balanced corpus)和自然随机结构语料库(random structure corpus);按语料库的性质,语料库可分为原始语料库(raw corpus)和标注语料库(annotated corpus);按语言种类,语料库可分为单语语料库

基于双语平行语料库的翻译教学

基于双语平行语料库的翻译教学 翻译是英语专业高年级学生一门非常重要的课程。传统的翻译教学以教师讲解为中心,以翻译教材为学习载体,学生在上完课之后很难具备一定水平的翻译能力。针对于此,我们把双语平行语料库及相应的检索功能引入到翻译教学当中,以提高翻译教学质量,提升学生的翻译能力。 标签:双语平行语料库;翻译;教学 双语平行语料库是指使用两种语言撰写相互间具有翻译关系的文本的集合平台,与普通的词典相比,这种翻译方法更加准确、便利、快捷,更新速度快,可以提供大量真实的双语对译语料以供学习者查询。 何安平指出,将语料库引入翻译教学,会改变传统的翻译教学模式,使学生可以开展各种学习活动,比如互动式学习、开放式学习和分析归类型学习,这一系列学习可以激发学生的好奇心、求知欲,帮助学生塑造的批判精神和反思精神,为培养学生的创新思维提供了条件。 本文例句所使用的双语平行语料库是指北京外国语大学通用双语平行语料库。 1.基于双语平行语料库的词汇翻译 曾有人提出,平行语料库最典型的应用范围之一是双语词汇教学。无论是英译汉还是汉译英,在很多时候英汉两种语言不存在一一对应的词汇,一词多义的现象很普遍,这就意味着这个词有多种译文;而且,在某些特定的语境中,有的词被赋予固定的意思,这又是新的译文。北京外国语大学王克非教授以汉语“克服”一词为例,在北京外国语大学通用汉语双语平行语料库中检索,发现24处“克服”一词中,有15处翻译为overcome。在学生学习完这24个例子后,他们就会明白,在以后的翻译中,不是所有的“克服”都用overcome翻译,在其他情况下使用cope with,fight down,get rid of 等会更加贴切。 学习者可以借助双语平行语料库的真实语境平台,找到单词在不同语境下的地道翻译,既丰富了词汇量,快速准确地译出对应语,同时可增强语感,提升双语翻译能力。 2.基于双语平行语料库的句式翻译 有时候,学生会感觉无论是英语还是汉语,其中一些句式很难理解,至于翻译更是无从下手。在这种情况下,双语平行语料库为学生们提供了大量的特殊句式翻译例句。我们以英文中“it is said that”为例。这是英语中常用的句式,很多学生张口就翻译为“据说”,好像也没有人怀疑过;包括我本人在接触双语平行语料库之前,见到it is said that也随口就翻译为“据说”。但是,笔者通过双语平行语

《双语平行语料库在翻译教学上的用途》评述

攻读博士、硕士学位研究生试卷(作业)封面(2016 至2017 学年度第一学期) 学号 姓名 题目《双语平行语料库在翻译教学上的用途》评述 课程名称语料库语言学 专业英语语言文学 入学年月2016年9月 培养方式 全日制□非全日制

题目:双语平行语料库在翻译教学上的用途。 作者:王克非,曾任北京外国语大学外国语言研究所副所长、中国外语教育研究中心常务副主任,现任《外语教学与研究》杂志主编,博士生导师,研究方向为语言学和翻译研究。 研究问题:本文以北京外国语大学建成的通用汉英平行语料库为例,探讨如何在翻译教学中运用双语平行语料库、如何处理翻译教学与双语平行语料库的关系、双语平行语料库对译者有何帮助、以及译者如何在翻译教学中运用双语对译检索(词语的对译检索、结构的对译检索和语句语篇的对译检索)时找到合适的对译,提高他们的英语语感,掌握正确的翻译方法。 研究方法: 本文根据北京外国语大学中国外语教育研究中心建成的通用汉英平行语料库(3000万字词)为例,探讨它在翻译教学上的用途。首先,本文作者采用了随机抽取的方法对克服(overcome)和找(find)进行了检索,找到了他们不同的翻译方法和用法;然后作者通过举例说明汉语中把字句结构的三种形式如何在英语中翻译;最后作者从台湾大学高建明所建的英汉平行语料库中,以“他心情很低落”为例,从语料库中找到相近的中英文短句、句子,找到了表示“心情低落”的各种不同词汇和方法。 结论:在翻译的教学和实践中,双语平行语料库和检索工具的运用不仅给译者提供了方便,而且使他们掌握了一种科学、多样的翻译方法。同时也能激发学生的兴趣,让学生在不同版本的对译中互相学习。这表明双语平行语料库是翻译教学中的一种重要的学习资源,应当引起

方案-基于语料库语言学的英语词汇教学

基于语料库语言学的英语词汇教学 '基于语料库 学的 词汇教学 传统的语言学把词汇分成可以借助语法规则进行自由组合的单词和不能用语法规则解释的固定短语,因此传统上的词汇教学即指单词教学(蒋利,2003)。我国传统的词汇教学主要以“词义驱动”为主,学生往往只通过 记忆单词或短语的形式及与其对应的中文意思来扩大词汇量(刁琳琳,2004)。教师在备课及授课过程中也很少涉及词块、搭配、语用规则和语义韵等较深层次的内容。而当把学生已机械记忆的单词放进具体语篇时,学生在理解和 上都会出现问题。因此,在教学 中,如果将语本文由 联盟 收集整理料库方法引入词汇教学,有助于区分词汇学习的不同层面及意义类型,并能切实改进词汇教学效果。 一、用语料库方法教授词汇的搭配、类联结与语义韵 卫乃兴(2001:100)将词汇的搭配定义为:“在文本中实现一定的非成语意义并以一定的语法形式因循组合使用的一个词语序列,构成该序列的词语相互预期,以大于偶然的几率共现。”词汇学习不是简单地记忆单词的读音与拼写,不了解词汇的搭配范围就很难真正习得了这些词汇,因此,词语搭配是词汇学习及研究的重点。类联结是发生于词语搭配中的语法结构和框架,因此它较之词汇搭配更抽象一些。甄凤超(2005:19-28)指出“通过建立类联结,我们可以发现词汇的语法模式,并且词汇与语法密不可分。语法形式和词汇行为相关,并和意义发生 。”关于语义韵,卫乃兴(2002)指出词项的搭配行为显示一定的语义趋向即一定的词项会习惯性地吸引某一类具有相似语义特点的词项,构成搭配。由于这些具有相同语义特点的词项及其搭配在文本中高频共现,整个语境就弥漫了某种语义氛围,这种氛围被称作语义韵。语义韵概念的引入对于区分同义词或近义词能起到很好的解释作用。由于受篇幅限制,本文主要探讨基于语料库语言学的词汇搭配教学。 二、语料库在词汇搭配教学中的应用 近年来语料库语言学 迅速,基于语料库的搭配研究越来越被重视,逐步成为语言研究与教学的重要领域。在语言教学中引入索引工具,让学习者从大量的地道真实的语料中考察词语的搭配模式,有利于提高学习者的搭配水平、语言使用能力和自主学习能力。现以make和have为例讨论学习者通过接触真实语料,可以分析不同搭配在文体以及句法等方面存在的差异。首先使用AntConc检索工具从COCA和BNC中搜集部分与“make”和“have”搭配的常见词。如表2.1所示: 英语动词“make”的核心含义为“制造”,然而事实证明只了解单词的汉语意义显然不够,对以它们为中心词的各种搭配进行分析能促进学生更好地掌握其语义及使用差异。根据表格我们可以观察到如“make”后常跟“change / corrections / comment / contribution / decision / effort / excuse / friend”等。动词“have”的核心含义之一为“经历”,与其搭配频率较高的名词有“accident / argument / break / conversation / difficulty / dream / experience / good time / problem”等。词汇教学中引入语料库方法,可以有效帮助学生掌握词汇的不同搭配更好地理解词之间的语义差异。学会并灵活使用大量的搭配词语有助于全面提高语言学习效率及应用能力。

语料库整理要求及方法

一、需整理的多是ppt语料,也有些word文档的语料(见Boston Consulting-需做库-12.10文件夹)。整理要求如下: 1、利用Align Assist工具将ppt中原文译文提取出来,并根据中英文内容一句句对齐。如图: 2、利用Align Assist工具对ppt中的内容进行提取时,软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。 3、对齐完成后,将对齐结果分别保存为tmx格式及aares格式,tmx为最终需要的语料格式,但无法修改且预览不便。aares为临时语料文件,可修改,可即时预览。因此,请大家对齐时两种格式都保存下来。保存方法见第二部分。 二、整理方法: 1、安装Align Assist语料对齐工具(安装程序见AlignAssist_Setup_1.5.1文件夹)。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。

2、双击运行。将要对齐的原文文件和译文文件分别添加进去。

注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文,何为译文。 例:project1-中到英,则中文文件为source file,英文文件为target file。 源文本和译文本添加完成后,点击Align。进入如下界面。 3、注意split、merge、delete、swap的用法。 (1)split:将一句话断开为两句

随意举例:将第六句原文“当前全球经济正经历深度调整,各国需联手培育新的经济增长点和竞争优势。”断为:“当前全球经济正经历深度调整,”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文,边框变黑。 单击上方菜单split。 进入下图界面。将第二小句内容剪切粘贴到cell 2部分,然后单击ok。 即分句完成。

相关主题
文本预览
相关文档 最新文档