当前位置:文档之家› 语料库索引在外语教学中的应用_李文中

语料库索引在外语教学中的应用_李文中

语料库索引在外语教学中的应用_李文中
语料库索引在外语教学中的应用_李文中

语料库索引在外语教学中的应用

3

李文中1,濮建忠2

(1.河南师范大学外国语学院,河南新乡453002; 2.解放军外国语学院三系河南洛阳471003)

摘 要:索引在外语教学中的应用包括:(1)基于索引行的数据驱动学习,能帮助学习者对真实使用中的目的语进行探索并做出自己的发现;(2)超文本格式的索引,为教学研究者提供可靠的素材和真实的实例;(3)在线索引,使学习者和教师获取用于外语学习和教学的语料库。读者可以通过李文中网页了解有关的索引工具及其功能。

关键词:索引;文本;数据驱动学习

中图分类号:H0 文献标识码:A 文章编号:10022722X (2001)022*******

The Use of Concordancing in EFL T eaching

L I Wen 2zhong 1,PU Jian 2zhong 2

(1.Faculty of Foreign Languages ,Henan Normal University ,Xinxiang ,Henan Prov.,453002,China ;2.Department Three ,PLA University of Foreign Languages ,Luoyang ,Henan Prov.,471003,China )

Abstract :The use of concordancing in EFL teaching include (1)data 2driven learning based on the concordance lines ,which helps the learner explore the target language in real use and make their own discoveries ,(2)the concordancing made in the hyper 2text format ,which provides reliable data and genuine instances for the teacher researcher ,and (3)on 2line concordancing ,which makes the corpora accessible to both learners and teachers for their EFL learning and teaching.The readers who are interested may look at Li Wen 2zhong πs home page (http ://https://www.doczj.com/doc/34903290.html,/liwenzhong )for more information.

K ey Words :concordancing ;text ;DDL

1.索引与索引的应用

在语料库研究中,对某一搜索词的语法关系、

用法、以及搭配的分析是通过语境(context )进行的。语料库索引利用计算机技术和专用软件,通过在语料库电子文本中进行关键词搜索,把检索结果以关键词为中心、以该词所在行为语境,按预定跨距在屏幕上显示出来。语料库索引提供的语境可分为以下几种:(1)指定跨距,即使用者指定以搜索词为中心左右相邻的词数;(2)意元语境,即以某一意义单元结束为一微型语境,在语料库索引中,意元是以意义结束标识如“,”、“;”等来确定;(3)句子语境,即以句子终结符号如“.”、“!”等为标识;(4)可扩展语境,即对搜索词所在语境可

无限扩展。这对研究词汇的语法关系、词汇用法、词汇搭配、词丛(word cluster )、词汇在连续语篇中呈现的范型(pattern )以及主题词之间的意义关系提供了可靠的捷径。语料库索引在外语教学中的应用主要有以下几个方面:(1)提供“数据驱动学习”(DDL ,Data 2driven Learning ),作为语言学习的辅助手段和工具;(2)鼓励学生从索引中发现规则和运用语境;(3)满足学生个人不同的学习需求和意愿;(4)提供开放的、未经改编的语言素材以鼓励学习者在语言学习中的探索和发现(Pennington ,1996:102)。

索引在语法和词汇教学中的应用有以下几个方面:(1)通过对语法结构、时态、功能词等检索,

可以即时验证各种语法结构的典型用法。这种语法学习把要学习的语法特征在真实的语境中呈现出

来,强化学习者的自我发现和语法意识培养,比传统的孤立的语法讲解和脱离语境的语法练习具有多

收稿日期:2000-12-05

作者简介:李文中(1963-),男,河南省开封市人,河南师范大学副教授,博士,主要从事语料库语言学研究;濮建忠(1968-),男,浙江省德清人,解放军外国语学院讲师,博士,主要从事语料库语言学和应用语言学研究。

第24卷 第2期 2001年3月解放军外国语学院学报

Journal of PLA University of Foreign Languages Vol.24 No.2 Mar.2001

方面的优越性。另外,索引可以提供有关词汇用法和意义的真实信息,并以此检验词典或教科书中提供的解释和说明。通过索引,学习者可以体验词汇或词组在不同语境中的确切用法,以增加感性认识。(2)同义词比较。索引可对同义词群提供丰富的用法和语境,使学习者能够比较和掌握同义词之间细微的语义语用差异。(3)词语搭配。语料库索引提供词汇搭配的频率信息和用法,平时靠教师语言直觉无法确定的问题可迎刃而解。(4)编制即时课堂练习。多数索引软件提供搜索词遮蔽(ZAP2 PIN G)功能,使教师能够利用索引行轻松地编制填空练习。

2.索引工具及其基本功能

应用语料库索引软件可以从以下几个方面考虑:(1)易操作性,包括用户界面是否友好,运行环境是否是常用的平台,指令是否复杂,以及是否提供实时帮助等。目前网上可下载的索引软件各有不同的操作系统,如DOS(如MicroConcord, TACT,Lexa等)、WINDOWS(如Wordsmith Tools及Concordance等)、SOLARIS(如X2tract)和UN IX等。(2)文本预处理要求,即语料库文本在进入索引程序前是否需要生成特定的格式或标码。如TACT索引软件在处理文本前要求将文本生成一个标注文件(Mark2up file),而标注文件中的信息需要使用者自己填写。这种软件对自己动手建立语料库很有用处。(3)展示检索结果的直观性以及是否允许在屏编辑。通过在屏编辑,教师可迅速提取所需信息,减少中间环节。(4)功能丰富性。一般来说,功能的丰富与易操作是一对矛盾。对于外语教学来说,易操作是更重要的。(5)开放性,即每次处理语料量是否有限制。例如,一个100万词语料库如果必须分4次才能检索完,对其结果还要进行再次人工统计,使用者就会不胜其烦。(6)自由软件与技术支持,即该软件是否能免费获得,以及不断得到升级支持。索引软件一般分为以下几种:(1)自由软件。自由软件可以从网上免费下载,个别软件要求注册或给作者发一封电子邮件,如MicroConcord、Tact、X2tract、Paracorp等。(2)演示版。索引软件的演示版本身包含完整的程序和功能,但需要购买注册后解密才能使用。否则,该软件各种功能的使用非常有限,如Wordsmith Tools。(3)限期使用的软件。这种软件从网上下载后可获得一个注册号,该注册号在使用一定次数后即失效,如BNC的Sara。(4)商业软件。需要购买才能使用,如Wordsmith Tools。有关信息可浏览李文中主页https://www.doczj.com/doc/34903290.html,/liwenzhong。

索引工具的基本功能包括词表生成、语篇统计、“带语境的关键词”(KWIC)索引、排序、搭配词统计、词语范型统计、主题词提取、词丛统计、联想词统计和重组以及词图统计。

211 词表与语篇统计

在对语料库文本进行统计分析中,词表功能和语篇统计功能把语料库中出现的所有“类符”统计列表。通常,词表提供以下几种信息:(1)类符(即词形)总数。词表中每个类符按字母顺序和频数顺序排列,可以进行顺序和逆序转换。(2)每个类符的频数。类符的频数即该类符的“形符”(to2 ken)总量。通过观察形符的分布,可以得到某一类语篇中词汇的基本分布信息,并可通过编辑,提取常用词汇;(3)每个类符的频率。由于不同语料库或文本的大小存在差异,不能简单地进行词汇频数比较。比如,“like”这个类符在BROWN语料库中出现的频数是1319次,而在JDEST语料库中出现了1852次,不能据此就认为该类符在JDEST中比在BROWN语料库中更为常用。某个类符的频数由于语料库的大小不同,所代表的意义也不同。所以,在统计中还要计算类符的频数与语料库总量的比率,即该类符的频率:

词形频率=

词形观察频数

语料库形符总量

上述例词“like”在BROWN语料库中的频率为0111,而在JDEST中则只有0105,所以,该词在BROWN语料库中更常用;(4)类符/形符比率。通过类符/形符比率统计,可以观察某篇文本或某个语料库的词汇密度(lexical density);(5)平均句长与段落长度;(6)单词长度统计。词长即每个词的字母数量,工具软件统计出从单字母词到多字母词各自的频数,如下图是对英国著名作家奥斯卡?王尔德(Os2 car Wilde)作品的平均词长所作的统计

:

图1 词长统计样例(Oscar Wilde作品语料库,李文中,2000)词表与语篇统计为研究语料库或某个语篇的词语分布和词汇密度提供可靠依据。有些软件如

?

1

2

?

第2期李文中,濮建忠 语料库索引在外语教学中的应用

Wordsmith Tools ,还可以对词表中各个词形的屈折

形式进行归类统计(lemmatization ),如把

“works ”、“worked ”、“working ”归类为“work ”。在进行归类统计时,需要另外制作一个归类词表文件,使用时调入该文件即可。

另外,词表还可以用来与其它语料库或文本进行对比,提取技术词汇或主题词。在外语教学中,语料库词表可为确定教学大纲中的词汇范围以及选取标准提供客观依据。

212 带语境的搜索词索引(KWIC )

语料库最基本的分析手段是通过全文检索和索引(concordance )来实现的。索引的基本意义是把搜索词或词组按字母或频率顺序排列并与其所在语境一同展示。索引最常见的形式称作KWIC (K ey Words in Context ),即“语境中的关键词”。“带语境的关键词搜索”(KWIC )技术为每一个搜索到的关键词提供所在行固定数量的语境词,并以该关键词为中心在屏幕上显示出来。索引软件在文学和语言学中的应用包括搭配分析、主题分析以及用于词典编纂的针对某一个词的例句援引、语音分析、词素分析、词汇语义研究和话语分析等。

关键词在不同的索引分析或软件中的其它名称有:搜索词(Search Word ,简称SW ),如Micro Concord 、Wordsmith Tools 等;节点词(Node Word )。(Sinclair ,1996)为便于区分,在索引中用户

键入的词统称为“搜索词”。以搜索词为中心左右显示的词数构成了该搜索词的“跨距”(Word Span

)。“跨距”中的词构成了搜索词的微型语境,或“同现语篇”(co 2text )。该语篇是连续的文本,在索引中可以围绕任何搜索词,从搜索词所在行、段落以至整篇无限扩充显示。这种方法对单个的搜索词不仅提供短语和句子层面的使用语境,还可提供整个语篇。213 搭配词统计在文本分析中,凡是处于跨距范围内的词都被看作是搜索词的搭配词(collocates ),这些词与搜索词具有一定频率的同现。根据搭配词与搜索词的距离又分为邻近搭配和非邻近搭配。通常意义上的搭配是指具有一定句法关系的搭配,如“strong tea ”、“bread and butter ”等,在这种搭配中,某一个成分的出现往往预示另外一个成分的存在。当然,仅凭搭配词的频数并不能确定该搭配词是否与搜索词具有真正意义上的搭配关系。一些高频搭配词的出现可能是由于该词本身在语料库中频率就很高;另外一些搭配词的出现很可能纯属偶然。在语料库统计

中有两种方法计算某一搭配词与搜索词的搭配强度

或搭配力(strength of collocability )。一种是通过计

算Z 值或T 值(也有一些语料库语言学家用mutual information 来计算搭配强度,此处不详述)表示搭

配的强度,Z 值越高,搭配强度越大。另一种是通过计算在跨距内每个词位的频数分布,根据峰值的显著性来确定搭配强度。如大学英语学习者语料库(CL EC )①中“knowledge ”一词的搭配词与搜索词

的搭配强度可以用以上两种方法统计出来。在表1中,每个搭配词与搜索词的搭配的强度用Z 值表示,并从高到低排序。

表1 大学英语学习者语料库中“knowledge ”的搭配词搭配词

Z 值learn 371776learned 191395books 181256enrich 161070enwide 151225enlarge 141489broaden 131560acquire 111494specialized

111354

一般来说,通过Z 值计算出的搭配强度信息更为准确。但是,通过词位分布统计可以更直观地观

察各个词位上某一搭配词是否显著。如表1通过Z 值排序,统计出学习者语料库中与“knowledge ”搭配强度最高的词依次为:“learn ”、“learned ”、

“books ”等。而在词位分布统计中,只有搭配强度最高的词“learn ”排在第四位;其它词都排在前十

个以后。由此可见,词位分布统计虽然提供有关搭配词的位置信息,但同时也包含大量“噪杂”信息(noisy information ),不能直接用作搭配研究的依据。词语搭配分析对研究词语行为具有重要的意义。词语与词语搭配不仅对确立句法结构关系起着

决定性作用,而且是意义呈现以及消除歧义的基本依据。其一,“词语像人类一样喜欢聚集”,一个词的出现往往预示或决定其它词的出现。其二,词意是通过同现词语的组合关系凸现出来的。脱离语境与搭配的孤立词语意义不明确,词语只有在运用中以及在与其它词语的搭配关系中才获得确切的意义。其三,任何语言的基本构成成分都是词语,而不是别的什么。所以,研究词语与词语搭配在句法学、语义学以及语用学研究中具有重要价值。在外语学习中,学习者并不是孤立地学习单个的词汇,而是成组成块地学习和运用。

214 词语范型(pattern )统计

?22? 解放军外国语学院学报2001年

词语范型统计即根据索引中所规定的跨距,计算在跨距内每一个词位上每个词语出现的频数,并按频数降序排序。词语范型统计直观展示某一搜索词前后各个词位的词语分布情况。根据词语范型统计,可以观察词语搭配关系以及围绕某一搜索词不同的聚集词群。这种方法与上述的词语搭配统计互为参照。下表显示的是大学英语学习者语料库中搜索词“knowledge ”的词语范型统计。从表中可以看出,左一词位上(L1)频数从高到低依次排列的词大多是限定词,其中“many ”一词是不正确的搭配。根据该线索,再以“knowledge ”为搜索词进行索引,以“many ”为语境词(context word ),限定

跨距为左一词位,进一步观察这一错误搭配的具体语境。左二词位上的词大多是与搜索词搭配的动词,如:“learn ”、“get ”、“use ”、“know ”、“have ”、“improve ”、“master ”、“study ”、“enrich ”等。靠近搜索词的词位上的词可能与搜索词有明确的语法搭配关系。比如左五词位“think ”可能在其它统计中也会列入搭配词表中,但由于其位置太远,基本上可以排除它与搜索词的语法搭配关系,即动名搭配结构的“think knowledge ”。从表中可以看出,学习者使用的与“knowledge ”搭配的动词属于随意性词语组合,其中很多搭配并不符合英语本族人的语言习惯。

表2 搜索词“knowledge ”的词语范型统计

N L5 L4 L3 L2 L1 R1 R2 R3 R4 R51

The they can learn the and the the the 2Can learn and lot more from books learn 3And the only get our and can they 4They can learn the new that for books and 5S ociety you should use much which

skill from but 6That campus the know some well practice but from 7because want will have learn what but society learned practice 8For and know improve their out can

experience and can 9Only society more master many just

you

can πt that 10Our hard society with knowledge will will 11Think not have study and you have

you world 12

practice

but

also

enrich

English

what

world

not

词语范型统计对研究某一搜索词在一定跨距内的词语搭配和用词格局具有重要意义,不仅为说明词语用法和比较同义词群提供必要的统计信息,而且还能提示围绕某一词语在各个词位上的词语聚合关系。

215 词丛统计(word cluster )

词丛统计对预定长度的词语组合在语料库中全程查找,并计算其复现频数,统计结果便是各种长度的词丛表。在索引软件Wordsmith Tools 中,词丛统计既可以针对语料库本身进行也可以围绕搜索词查找预定长度的词丛并计算复现频率。如搜索词“experience ”在BROWN 语料库中的频率最高的三词词丛有“the experience of ”、“experience in the ”、“expesience of the ”和“of the experience ”。在TACT 中,词丛统计的方法是对语料库全程一次性计算,把所有预定长度范围内各种长度的词丛统计出来。如使用者可以预定长度从两词到六词的范围,TACT 通过计算,生成一个从两词到六词的词丛总表,等长词丛表内的词丛以字母或频率高低排列。词丛统计可以验证词组、短语以及搭配在某一语料库中的分布和典型特征。216 主题词提取(key word list )与词图

(plot )

主题词提取和词图功能是Wordsmith Tools 所独有的。上述的各种功能都是围绕单一词语(搜索词)在短语和句子层面的用法分析,但无法观察和分析整个语篇中的词语关系。在不同的语篇中,词

语的选择和分布存在差异。不同主题的文本可通过词语的选择体现出来。另外,正如句子或短语中的词语具有搭配和语法关系一样,语篇中的词语也具有同现关系。通过提取和分析语篇中具有超常频率的词以及具有同现关系的词语或词群,可以确定语篇的主题和表达该主题的词集,进而研究作者对某一主题的心理词符和知识表达问题。就学习者语料库而言,通过主题词研究,可以观察学习者对某一主题所使用的词语以及词语之间的关系。主题词提取的方法首先是对比某一完整连续文本和一个更大的参照语料库(reference corpus ),把语篇中差异显著的词语提取出来,生成为一个主题词表。差异的显著性通过卡方(Χ2)检验分别得出卡方值和p 值。词图统计是根据主题词表,计算出各个主题词在语篇中的位置分布。词图的意义主要在于对某一

?

32? 第2期李文中,濮建忠 语料库索引在外语教学中的应用

连续文本的词语分布进行统计和计算。像JDEST 、BROWN 、LOB 或CL EC 这样的综合类语料,尽管Wordsmith Tools 也能统计出单个词的词图,但由于缺乏相对应的文本信息作为参照,其价值有限。另外,单个词图只有同其它词图放在一起进行比较,

才能显示其真正意义。对搜索词逐一进行词图统计,前提必须是所索引的文本是一连续的整体,如一篇小说或论文。通过词图统计,可以观察主题词在语篇中出现的先后顺序和分布密度,直观地分析该语篇的主题或情节发展与词语的关系。如利用该方法对奥斯卡?王尔德的The Self ish Giant (《自私

的巨人》

)进行分析,提取出主题词并列表(参照李文中开发的奥斯卡?王尔德的20篇作品语料库)。从表3可以看出,排在前几个的主题词依次为“gi 2ant ”、“garden ”、“children ”、“spring ”、“tree ”、

“selfish ”、“boy ”、“trees ”、“winter ”、“blossom ”

等。这些词反映了这一作品的主要主题信息:主要人物为giant 、children 、boy ;时间为spring 、win 2ter ;背景是garden 、grass 、frost ;关键描述信息为selfish 、blossom 。

表3 The Selfish G iant 的主题词表(部分)

N Word Freq.Oscar71txt (%)

Freq.Oscar 1txt (%)

K eyness p Value 1G iant 26115655010511813010000002G arden 25115010001098718010000003Children 2011209201096516010000004Spring 801482801032918010000005Tree 1001606601062617010000006Selfish 601361401012613010000007Boy 901546401062219010000028Trees 701423601032116010000039Winter 6013628010319150100001010Blossoms 50130170102

18190100001411G iant πs 40124818150100001712Hail 40124818150100001713Grass 6013636010317100100003814North 4012411010116150100004915

Frost

4

0124

13

0101

1514

01

000088

图2 The Self ish Giant 主题词词图统计

再通过图2观察主题词在文本中的位置分布。主角“giant ”一词在全篇都得到使用,故事的情节基本都是围绕他展开的;但在故事的后半部分,该

词的使用密度突然增大,显示冲突发展到了高潮。自私的巨人把孩子们从花园赶跑,春光明媚的花园突然转为凛冽的寒冬,故事线索集中在“giant ”一人身上。与之相对应的是,另外的主角“children ”一词在故事的开始部分分布均匀,而在故事中部出现空白,在故事结尾处出现密集分布。这表明了孩子们被巨人赶出花园后,重新回到花园玩耍的情节

发展。“boy ”一词稍后出现,显示了冲突解决在文本中出现的位置。表示象征意义的词“blossom ”只在故事开头和结尾处出现,显示了故事优美的开始和完满的结局。

3.小结

语料库索引在外语教学和学习中的应用及意义包括以下几个方面:(1)基于语料库索引的DDL (数据驱动学习)。目前可以通过三种基本手段实

现:其一是开发独立的DDL 软件,把语料库索引行以及词汇练习一同打包。使用者通过程序界面选

择调用要进行练习的项目。比较成功的DDL 软件

如蒂姆?约翰斯(Tim Johns )开发的Xcontext 。其

二是与其它学习材料结合起来,针对语篇中词汇和

搭配制作基于语料库索引的交互式练习,再结合动态超文本(DHTML )格式转换为可在网上传递的课件,供远程课堂或局域网网络教室使用。这种方法的优点在于充分利用网络优势,集成超媒体技术手段,实现各种媒体在单一平台播放;课件内容可

以随时更新和修改,并与互联网资源动态连接。索引练习具有交互性,可提供即时反馈。其三是利用索引进行课堂实时演示,通过教师的参与和指导进

?42? 解放军外国语学院学报2001年

行语言学习。这种方法的特点是灵活开放,探索性强。但要求具备可用语料库以及索引软件,还需要对操作者进行必要的培训。(2)利用语料库索引开发网页索引。这种技术把单个语料库所有词语索引转换为超文本格式的框架网页。使用者可通过字母或词表索引观察索引行和语境信息,如李文中利用Webconcordance制作的“大学英语学习者语料库在线索引”。这种方法可以实现语料库资源共享,使那些不具备语料库及工具的远程用户或局域网教室使用,操作简单方便,不需要特殊培训。(3)语料库在线索引。通过前端语料库索引插件与放置在服务器上的数据库相连,实现网络用户对语料库的直接访问和索引。如TACTWEB允许用户制作自己的语料库数据库文件,并使用TACT插件实现语料库资源共享。

把语料库索引与多媒体课件开发有机地结合起来,能够充分发挥DDL的探索性和课堂教学的针对性。语料库资源的共享为开展交际教学和个人化学习,以及解决教学材料的真实性问题,弥补我国外语教师语用知识和语言直觉欠缺这一缺陷,提供了一个新的手段。同时,语料库的应用对外语教学思想和方法的革新和转变也提出了新的要求。

3本文承严辰松教授仔细阅读初稿,并提出详尽修改意见,在此表示衷心感谢。

注释:

①CL EC是1999年建成的国内首个学习者语料库,容词100万个,本文作者在杨惠中教授指导下负责完成子语料库“大学英语学习者语料库”。

参考文献:

[1]李文中.语料库与学习者语料库[A].语料库语言学导

论[C].上海外语教育出版社,2000.

[2]李文中.语料库、学习者语料库与外语教学[J].外语

界,1999,(1).

[3]李文中.语料库应用分析方法与工具[A].语料库语言

学导论[C].上海外语教育出版社,2000.

[4]Higgins,John.Which Concordancer?A comparative review

of MS2DOS software[J].System1911&2(1991):91 -100.

[5]Johns,Tim.Microconcord:a language2learnerπs research

tool[J].System1412(1986):151-162.

[6]Leech,G eoffrey.General int roduction in T HE COM PU2

TA TIONAL A NAL YS IS O F EN GL IS H—a corpus2based approach[M].Eds.Roger G arside et al.Harlow:Long2 man Group Limited,1987.

[7]Murison2Bowie,Simon.MicroConcord M anual:A n Int ro2

duction to the Practices and Principles of Concordancing in L anguage Teaching[M].Oxford:OU P,1993.

[8]Pennington,Martha C.The Power of CAL L[M].(Press

Unknown)1996.97-113.

[9]Scott,Michael R.WordS mith Tools M anual[M].Ox2

ford:OU P,1998.

[10]Scott,Michael R.PC Analysis of K ey Words—and K ey

K ey Words.System2512(1997):233-245.

[11]Scott,Michael R.The Right Word in the Right Place:

K ey Word Associates in Two Languages,AAA—Arbeiten aus Anglistik und Amerikanistik.B and22(1997),Heft2 Gunter Narr Vertag Tübingen.

[12]Sinclair,John McH.and Antoinette Renouf.A lexical syl2

labus for language learning[A].V ocabulary and language teaching[C].Eds.Carter&McCarthy.London:Long2 man,1998.

[13]Sinclair,John.Corpus,Concordance,Collocation[M].

Oxford:Oxford University Press,1991.

(责任编辑 严辰松)

?

5

2

?

第2期李文中,濮建忠 语料库索引在外语教学中的应用

BCC语料库使用指南

1 、字处理(包括标点符号) [C]:错字标记,用于标示考生写的不成字的字。用[C]代表错字,在[C]前填写正确的字。 例如:地球[C](“球”是错字)、这[C]。 [B]:别字标记,用于标示把甲字写成乙字的情况。别字包括同音的、不同音而只是形似的、既不同音也不形似但成字的等等。把别字移至[B]中B的后面,并在[B]前填写正确的字。 例如:提[B题]高、考虑[B虎]。 [L]:漏字标记,用于标示作文中应有而没有的字。用[L]表示漏掉的字,并在[L]前填写所漏掉的字。 例如: 后悔[L],表示“悔”在原文中是漏掉的字。 农[L]药,表示“农”在原文中是漏掉的字。 [D]:多字标记,用于标示作文中不应出现而出现的字。把多余的字移至[D]中D的后面。 例如:我的[D的],表示括号中的“的”是多余的字(原文中写了两个“的”)。[F]:繁体字标记,用于标示繁体字。把繁体字移至[F]中F的后面,并在[F]前填写简体字。 例如:记忆[F憶]、单{F單}纯、养{F養}分{F份}。 注意: 1)繁体字标记标示的是使用正确的繁体字,如果该繁体字同时又是别字,则先标繁体字标记,再标别字标记。

例如:俭朴[F樸[B僕]]。 2)繁体字写错了,标为:后[F後[C]]。 [Y]:异体字标记,用于标示异体字。把异体字移至[Y]中Y的后面,并在[Y]前填写简体字。 例如:偏[Y徧]、沉[Y沈]。 [P]:拼音字标记,用于标示以汉语拼音代替汉字的情况。把拼音字移至[P]中P的后面,并在[P]前填写简体字。 例如:缘[Pyúan]分、保护[Phù]。 [#]:无法识别的字的标记,用于标示无法识别的字。每个不可识别的字用一个[#]表示。例如:更[#][#]保存自己的生命,…… [BC]:错误标点标记,用于标示使用错误的标点符号。把错误标点移至[BC]中BC的后面,并在[BC]前填写正确的标点符号。 例如:勤奋、[BC,]刻苦的精神。 [BQ]:空缺标点标记,用于标示应用标点符号而未用的情况。把[BQ]插入空缺标点之处,并在[BQ]中BQ的后面填写所缺的标点符号。 例如:周围的环境很安静[BQ,]生活也非常平凡。 [BD]:多余标点标记,用于标示不应用标点符号而用了的情况。把多余的标点移至[BD]中BD的后面。 例如:我家周围的[BD,]美丽风景。 2、词处理:(包括成语) {CC}:错词标记,用于标示错误的词和成语。包括4种情况: 1)把词的构成成分写错顺序的。

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

语料库检索分析在高级英语语篇教学中的应用_语料库检索

语料库检索分析在高级英语语篇教学中的应用_ 语料库检索 语料库检索分析在高级英语语篇教学中的应用_语料库检索摘要语料库语言学通过对自然文本的检索、统计,实现文本的语篇结构、文体风格、语言特征等的量化分析。语料库软件工具如Wordsmith、Concordancer软件等为语篇教学提供了量化分析手段。本文依据语料库语言学的研究方法,主要运用Wordsmith、Antconc软件,以课文"Blackmail"为小型教学语料库,探索高级英语语篇教学的新途径。 关键词语料库检索分析;高级英语;语篇教学1.引言高级英语是英语专业高年级阶段的一门主干课程,其教学目标是"通过阅读和分析内容广泛的材料,扩大学生知识面,加深学生对社会和人生的理解,培养学生对名篇的分析和欣赏能力、逻辑思维与独立思考的能力,巩固和提高学生英语语言技能"1。鉴于此,围绕高级英语课程的教学研究与改革长期以来备受专家、学者和广大师生的关注,如朱传枝2、杨志亭3、刘采敏和楚向群4、李洁平5、黄文英6等。十多年来,随着语言教学理论研究的深入以及计算机网络和多媒体技术的快速发展,高级英语课程改革成绩斐然,教学效果显著提高。然而,在语篇教学中不难发现,由于缺乏科学的文本分析手段和工具,学生对语篇的分析和欣赏"多来自

教师在反复阅读全文的基础上根据某种理论框架或自身独特的理解能力及审美取向所做的解释"7,或者依赖于教学参考书籍上的注解,学习效果大打折扣,成为了困扰教师的一大教学瓶颈。语料库语言学的出现为高级英语语篇教学提供了有力的理论和技术支持,对于解决教学中存在的难题有着重大的启示和意义。 2.语料库与语料库检索分析软件的应用20世纪90年代以来,语料库语言学的迅速发展"给语言研究以及语言应用研究带来了一场革命性的变化"8,而"基于语料库的研究方法已经逐渐扩展到语言教学、话语分析、翻译研究、词典编纂和自然语言处理等多个领域"9。语料库语言学以真实的语言数据为研究对象,通过对大量语言事实进行分析,寻找语言应用的规律和模式。由于语料库研究中的统计数据以实际使用中语言现象的出现概率为依据,且基于语料库而得到的数据避免了偶然性,从而提升了分析结果的可信度。 因此,语料库语言学为语言研究和教学提供了一种全新的模式。 随着计算机信息技术的日新月异,语料库为语言研究提供了空前广泛的语言资料。目前,国际上影响较大的语料库有英国COBUILD语料库(CollinsBirminghamUniversityInternationalLanguageDatabas e)、BNC英语国家语料库(TheBritishNationalCorpus)、CIC 语料库CambridgeInternationalCorpus、ICE语料库

多语种在线语料库检索平台使用简明手册.pdf

多语种在线语料库检索平台使用简明手册 许家金 中国外语与教育研究中心 、访问及登录 访问(用户名:和密码:),可点击使用相应的语料库。目前平台上已安装英语、汉语、德语、日语、俄语、阿拉伯语、冰岛语等数十个语料库。 图:主界面 、功能概要 按()对语料库分析工具的时代划分,属于第四代语料库工具,即在线语料库分析工具。四代工具的突出代表是美国杨百翰()大学教授创建的系列语料库检索界面()。类似的在线语料库检索系统还有、、、等。而当前主流的语料库工具属于第三代,其中以、和等为代表。 第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。在线语料库工具通常将语料库文本按特定格式建成索引(),存储在服务器上。用户检索响应速度要远高于三代软件在本地电脑上的检索速度。其操作也较三代语料库软件简便得多。 四代语料库工具可完成三代语料库几乎所有的功能,其中又以所能实现的功能最多最全。更重的是,是开源软件。概括说来,可以实现以下功能。 ()在线生成语料库的词频表(); ()查询()字词、语言结构等,以获取大量语言实例或相应结构的出现频次(),并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询结果; ()计算特定词语在语料库中的典型搭配(); ()计算语料库中的核心关键词(),等。

、使用实例 标准查询模式 在简单查询模式()下,可输入单词、短语等进行检索。 图:语料库查询界面 图:查询结果界面

点击查询结果页面右上角下拉菜单,显示(新查询)时,按键,即可重新回到语料库检索界面。相当于返回按钮。 新查询,返回语料库检索首页 查询结果随机抽样 频数分解、分解频数 查询结果的分布展示 查询结果排序设定 搭配计算 下载保存查询结果 (随机取样),比如,可从万行结果中,随机抽取行。 (频数分解)表示在进行复杂查询时,对命中的不同词项分别计算频数。比如,查询时,会按这个词项分别报告命中频数和频率。 图:动词查询(频数分解)结果示例 :按语体、年代、章节、学生语言水平、写作题材等分别呈现查询结果 图:语料库中"lov.*"的分布情况()

语料库与语料库建设

语料库与语料库建设 语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是 指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 口前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的儿种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设讣是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。语料库不同于电子文档,语料库的建设有特定的研究LI 的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档U标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设讣与建设有系统的语言学理论指导,语料库的开发具有明确而乂具体的U的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行

研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。 2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,山此保证基于语料库的语言研究的科学性、客观性。 3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。 4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过讣算机处理的,具有资源优势和处理速度优势。5>基于语料库的研究以量化研究为基石,以概率统汁为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,乂代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪 50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛圉无疑促进了对语料的重视。1939年夸克(R. Quirk)等人着手进行的“英语用法调查” (Survey of English Usage)通过系统的调查建立了笫一个现代英语语料库,在此基础上完成的《现代英语语法》(A Grammar of Contemporary English )和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。 20世纪六十年代后,语言学研究主流从经验主义转向理性主义,乔姆斯基的语言能力说被广泛接受,转换生成语法学派批评语料库研究方法,认为,1、基于语料库的方法有误。乔姆斯基等认为语言学应当以人脑的语言机制即语言能力为研究对象,语料库收集的只是人们的语言运用,语言运用会因超语言因素的影响而发生变化,它并

语料库常用统计方法

3.5语料库常用统计方法 第3章前几节对语料库应用中的几种主要技术做了介绍。通过语料检索、词表和主题词表的生成,可以得到一定数量的句子、词汇或结构。为能更好说明所得到的结果的真正意义,常常需要对它们加以统计学分析。本章主要介绍语料分析中的一些常用统计方法。 3.5.1 语料库与统计方法 介绍相关统计方法之前,首先需要了解为什么语料库应用中需要运用统计方法。在2.1节讲到文本采集时,我们知道文本或会话构成了最终的语料库样本。这些样本是通过一定的抽样方法获得的。研究中,我们需要描述这些样本的出现和分布情况。此外,我们还经常需要观察不同语言项目之间在一定语境中共同出现(简称共现)的概率;以及观察某个(些)语言项目在不同文本之间出现多少的差异性。这些需要借助统计学知识来加以描写和分析。 理论上说,几乎所有统计方法都可以用于语料库分析。本章只择其中一些常用方法做一介绍。我们更注重相关统计方法的实际应用,不过多探讨其统计学原理。这一章我们主要介绍语料分析中的频数标准化(normalization )、频数差异检验和搭配强度的计算方法。 3.5.2 频数标准化 基本原理 通常语料检索、词表生成结果中都会报告频数(frequency, freq 或raw frequency )。那么某词(如many )在某语料库中出现频数为100次说明什么呢?这个词在另一个语料库中出现频数为105次,是否可以说many 在第二个语料库中更常用呢?显然,不能因为105大于100,就认定many 在第二个语料库中更常用。这里大家很容易想到,两个语料库的大小未必相同。按照通常的思维,我们可以算出many 在两个语料库中的出现百分比,这样就可比了。这种情况下,我们是将many 在两个语料库中的出现频数归到一个共同基数100之上,即每100词中出现多少个many 。这里通过百分比得到的频率即是一种标准化频率。有些文献中标准化频率也称归一频率或标称频率,即基于一个统一基准得出的频率。 实例及操作 频数标准化,首先需要用某个(些)检索项的实际观察频数(原始频数,raw frequency )除以总体频数(通常为文本或语料库的总词数),这样得到每一个单词里会出现该检索项多少次。在频数标准化操作中,我们通常会在此基础上乘以1千(1万、1百万)得到平均每千(万、百万)词的出现频率。即: 1000?=总体频数 观测频数标准化频率(每千词) (注:观测频数即检索词项实际出现的次数;总体频数即语料库的大小或总形符数。) 例如,more 在中国学生的作文里出现251次,在英语母语者语料中出现475次。两个语料库的大小分别为37,655词次和174,676词次。我们可以根据上面的公式很容易计算出251和475对应的标准化频率。另外,我们还可以利用Excel 或SPSS 等工具来计算标准化频率。比如,可以将实际观察频数和语料库大小如图3.5.1输入相应的单元格,然后在C1单元格里输入=(A1/B1)*1000即可得到中国学生每千词使用more 约为6.67次。要得到母语

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统 (如果时间紧张,可直接跳到最后的举例部分!) 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括8个: | $ # + - ~ ! : 这些符号分为四组: Operator1: | Operator2: $ # + - ~ Operaotr3: !

Delimiter: : 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number (4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number (5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。 (6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。 (三)Operator3:Operator3是一元操作符。 (7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。 注意: Operator2后面的Number是必须的,不能省略。Number=0表示相 邻,Number=1表示间隔1个单位,其余依此类推。 (四)Delimiter:西文冒号 : 是分隔符 (8) : 跟在 path,author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”(见下面2.5) 注意:上述特殊字符不能作为基本项在语料库中进行检索。path,author等关键字可以作为基本项进行检索。 2.2 基本项 指不包含特殊符号和空格的连续字符串

基于语料库的海明威作品《雨中的猫》分析

基于语料库的海明威作品《雨中的猫》分析 ——以写作风格和小说主题为例 王树振 (天津师范大学外国语学院,天津, 300387) 【摘要】美国著名作家厄内斯特·海明威的短篇小说《雨中的猫》(1922),自发表以 来便引起文学评论界的极大关注。在作品中,通过对一个日常生活片段的叙述,作者 揭示了女性生存困境的主题。而基于语料库的文学研究,则是通过利用语料库检索软 件来考察作者的写作风格、解读作品的主题。在前人研究的基础之上,笔者拟运用语 料库语言学的方法对这部小说进行更深入的研究。通过使用Wordsmith和AntConc等 语料库检索软件,笔者拟对《雨中的猫》进行词语、句子及篇章结构进行统计分析, 最后不仅能够分析得出海明威用词简单、句子简短的写作风格,还能利用关键词检索 和自动生成的语境,来了解小说的主要内容和人物形象的塑造,这为解读小说的主题 提供了新的研究方法和途径。 【关键词】语料库检索;写作风格;主题 近年来, 国内外不少学者将语料库研究方法应用到文学领域,利用语料库检索软件对文本进行分析, 如Sinclair(1991)、Biber(2000)、张厚振(2004)、肖普勤(2005)等。他们的研究大胆创新,为后来的文学研究者带来很大的启示。正如Sinclair(1991: 36)所论述的那样,“(语料库检索)最激动人心的方面不是对描述进行直观的分类,而是为找到新的方法、新的证据以及新的描述提供可能。在这里,计算机技术的客观性和表面的正当性变成了一种优势,而不是没有放弃直觉前提下的一种责任。当然,我们要尽力找到符合证据的解释,而不是为了迎合现有的解释而去修改我们的证据。” 《雨中的猫》是美国著名小说家海明威的著名短篇,故事情节主要围绕一只雨中的猫展开,叙述了旅居意大利的一对美国夫妻的一段生活场景。本文用Wordsmith及AntConc的Wordlist、Concordance和Keyword对《雨中的猫》的文本特征、主要内容、人物形象和文本主题进行分析,以展示语料库检索软件在文学分析方面的强大功能。 一、基于词表的文本总体特征分析 基于语料库的语言研究一般采取定性与定量相结合的研究方法,要进行定量研究就要涉及文本检索和数据统计。Wordsmith软件中的Wordlist工具可以对文本的基本信息进行统计,自动生成词表(图1)。它可以提供文本中的简略统计数据,从而有助于分析文本的总体统计特征和基本情况。

语料库的应用(最终)

语料库的应用 语料库方法广泛应用于语言学理论研究、军事等领域。当代语料库语言学(以语料库方法为取向的研究语言的分支就被称为语料库语言学)已是高歌猛进,日新月异,新的语料库更是层出不穷,经过科学选材和标注,具有适当规模的语料库能够反映和记录语言的实际使用情况,人们通过语料库观察和把握语言事实,分析和研究语言系统的规律,极大地方便了语言研究者。 军事语料库对信息化条件下的军事斗争具备潜在价值,积极开展军事语料库的研究和建设实践活动,并把研究成果转化到实战之中。和平时期对信息化高科技武器的建设不可小视,对战场态势的综合信息捕捉、把握和利用的能力建设至关重要,但对身边已有的各类信息的综合收集和利用也同样不可忽视。军事语料库的建设正是针对实现信息化战争中争夺与占有信息资源、获取不对称的战争中的信息掌握和信息利用的不对称优势。 【一】、语料库成为语言学理论研究的基础资源 语料库是计算语言学的基础。语料库对应的英文是corpus,复数形式为corpora。这个词既可以指语料也可以表示语料库。英国语言学专家戴维?克里斯特尔认为,语料库“指收集的一批语言学数据,或为书面文本或为言语录音的转写,可用作语言学描写的出发点,也

可作为验证语言假说的手段。计算机语料库是一大批机器可读文本的结集。各种为不同目的而建立的语料库可以应用在词汇、语法、语义、语用、语体研究,社会语言学研究,口语研究,词典编纂,语言教学以及自然语言处理、人工智能、机器翻译、言语识别与合成等领域。 起初语料库主要用于语言学研究,而且建成的语料库多为通用语料库,服务的研究领域主要集中于词典编纂、词语搭配与结构、基于平行语料库的英汉互译、文学作品和作家语言风格的研究以及基于语料库的外语教学研究等。随着研究的不断深入,各种专业领域语料库也相继建立,语料库的应用研究逐渐扩大到其他学科。 我国在语料库的应用上还处于起步阶段,在计算语言学和语言信息处理领域,语料库主要用来为统计语言模型提供语言特征信息和概率数据,在语言研究的其他领域,多使用语料的检索和频率统计结果。 目前国外已建成且较有影响的主要为以下的语料库:美国:布朗大学的今日美国英语标准语料库(The Brown University Standard Corpusof Present Day American English)、兰卡斯特一奥斯陆/卑尔根语料库(The Lancast-er-Oslo/Bergen (LOB) Corpus)、英语语库(TheBank of English)、英国国家语料库(The BritishNational Corpus(BNC、伦敦一隆德语料库(Lon-don -Lund Corpus(LLC》、美国传统中介语料(American Heritage Intermediate(AHI) Corpus)以及英语国际语料库(The Intemational Corpus ofEnglish(ICE》等。

语料库常用术语

语料库常用术语 Type 类符 Tokens 形符 例如“I see a cat and a dog”类符6个,形符7个 Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR会越低。因此用TTR衡量词汇密度不合理,于是,出现了标准化类符/形符比,即STTR。例如,计算每个文本1000词的TTR,均值处理,得出STTR。Frequency(频率) 例如每百万词、十万词中,某单词出现次数。常常将某个单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。 Wordlist词表 根据单词或词组在语篇中出现的频率大小而排列形成的列表。 Ranks Lemma词目,词元 比如go是lemma,对应各种屈折变化形式(inflections),go,goes,went,going,gone共5种屈折变化形式。在分析语言时,需要将它们全部归到go名下,这个过程叫词形还原。Keywords关键词、主题词positive keywords 正关键词negative keywords 负关键词 Concordance 索引(KWIC 语境中的关键词key words in context) 运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation词汇搭配”“colligation 类连接、语法搭配”“semantic preference语义倾向”“semantic prosody语义韵”Collocation词汇搭配 搭配强度MI,T-score ,Z-score Colligation类连接、语法搭配 semantic prosody语义韵 词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。 POS tagging 词性赋码 Regular expression regex 正则表达式

国外个主流语料库使用

1. The Complete Lexical Tutor http://www.lextutor.ca/ 参考期刊网上刘玉山,胡志军的介绍。 是一个语料库中心词索引软件(concordancer),加拿大魁北克大学Tom Cobb the University of Quebec at Montreal (UQAM), 开发 三部分:learners, researchers, teachers自我学习,研究,教师命题。 特别是concordance中有13个语料库为检索对象。还可以用来对学生作文中的用词分析。http://www.lextutor.ca/concordancers/concord_e.html 可以同时提供多个语料库的在线搜索,但缺点是每次只能对一个文本加工。 2.BNC 2014年开始,免费获得,通过BYU的申请。 British National Corpus 一亿词,书面语90%,口语10%,共4124篇文本,从1980到1993年的语料 英国牛津出版社﹑朗文出版公司﹑钱伯斯—哈洛普出版公司﹑牛津大学计算机服务中心、兰卡斯特大学英语计算机中心以及大英图书馆等联合开发建立的大型语料库 共有七类 口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic 还有COCA分类中没有的两类non-academic, miscellaneous second edition BNC World (2001) third edition BNC XML Edition (2007) extracts from regional and national newspapers, specialist periodicals and journals for all ages and interests, academic books and popular fiction, published and unpublished letters and memoranda, school and university essays, among many other kinds of text 通常可进入的那个链接是BYU, 美国杨百翰大学提供的 BYU大学在2012年对语料库经行了重新附码,用的CLAWS 7 3. COCA: the corpus of contemporary American English Brigham Young University 美国犹他州杨百翰大学 Doctor Mark Davies 3.6亿,1990-2007年间,美国国内各种语料 口语spoken,小说fiction,流行杂志magazine,报纸newspaper和学术期刊academic共五类语料来源 且持续更新中,每年以2000万词递增,目前到1990-2012,共4.5亿词 Display:显示方式,compare选项可以用来比较两个词的搭配区别,排列方式选择relevance 相关度 标记了语料的时间,便于研究语言历时与共时的变化 教学中相关用法 查找同义词,如[=scold].[V*]表示查找所有scold的同义词

北京语料库检索使用说明

北京语料库检索使用说明 首页 一关于CCL语料库及其检索系统 二关于查询表达式 2.1 特殊符号 2.2 基本项 2.3 简单项 2.4 复杂项 2.5 过滤项 2.6 子句 2.7 查询表达式 三关于查询结果 四在结果中查找 五举例 一关于CCL语料库及其检索系统 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式

1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括7个: | $ # + - ~ ! 这些符号分为三组: Operator1: | Operator2: $ # + - ~ Operaotr3: ! 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number

语料库整理要求及方法

一、需整理的多是ppt语料,也有些word文档的语料(见Boston Consulting-需做库-12.10文件夹)。整理要求如下: 1、利用Align Assist工具将ppt中原文译文提取出来,并根据中英文内容一句句对齐。如图: 2、利用Align Assist工具对ppt中的内容进行提取时,软件会遗漏部分内容。因此需要在对齐之后将软件自动提取后遗漏的句对逐句复制补充进去。 3、对齐完成后,将对齐结果分别保存为tmx格式及aares格式,tmx为最终需要的语料格式,但无法修改且预览不便。aares为临时语料文件,可修改,可即时预览。因此,请大家对齐时两种格式都保存下来。保存方法见第二部分。 二、整理方法: 1、安装Align Assist语料对齐工具(安装程序见AlignAssist_Setup_1.5.1文件夹)。双击AlignAssist_Setup_1.5.1.exe的程序进行安装。语言选择为english。

2、双击运行。将要对齐的原文文件和译文文件分别添加进去。

注意原文和译文语言方向。根据文件夹要求确定英文、中文何为原文,何为译文。 例:project1-中到英,则中文文件为source file,英文文件为target file。 源文本和译文本添加完成后,点击Align。进入如下界面。 3、注意split、merge、delete、swap的用法。 (1)split:将一句话断开为两句

随意举例:将第六句原文“当前全球经济正经历深度调整,各国需联手培育新的经济增长点和竞争优势。”断为:“当前全球经济正经历深度调整,”及“各国需联手培育新的经济增长点和竞争优势。”选中第六句原文,边框变黑。 单击上方菜单split。 进入下图界面。将第二小句内容剪切粘贴到cell 2部分,然后单击ok。 即分句完成。

如何利用语料库辅助语言教学与研究(BNC)

如何利用语料库辅助语言教学与研究(BNC) 一、绪言 语料库是专门用于语言材料检索和统计的工具,包括为某一目的而收集的大量电子文本(加标注或未加标注)和专门的语料检索和管理程序。其最大的特点是能快速提供大量真实的语言材料并进行相关统计(如词频和搭配词等),已广泛运用于词典、教材、语法书和词汇表等的编纂及语言研究中。然而,语料库在日常外语课堂教学和学生自主学习中并没有得到广泛运用,至少在中国是如此。这一方面是由于对语料库在教学中的运用缺乏有力推广,加价格、市场等因素使得购买商用语料库有难度,自己建设语料库又需花费较大精力,另一方面人们对如何获取网上免费语料库资源缺乏了解。 语料库在日常英语课堂教学和学生自主学习中能够起到多种作用。作为一种高效的语言检索工具,它所提供的大量真实语言实例能提示从构词、词短语到句法结构乃至语篇几乎所有语言单位的语言生态(language ecology),包括语境、搭配规律、使用频率、语义和语用等。语料库的获得和个人建设虽然面临诸多困难,但幸运的是,开放的互联网为广大英语教师和英语学习者提供了接触和使用语料库的机会。 二、网络语料库的运用 1.英语单语语料库 目前,语料库运用于日常英语课堂教学的主要还是英语单语语料库,互联网上的情况也是如此。网上有许多大型通用语料库(单语)提供在线检索,其免费服务虽功能有所限制,但已能满足中学英语教学和学生自主学习的需求。如1亿词次的英语国家语料库(BNC)()和5600万词次的柯林斯在线词库(Collins Wordbanks Online)(www. Collins. https://www.doczj.com/doc/34903290.html,/corpus/CorpusSearch.aspx)。二者均是当今较权威的英语语料库,其语料语域广泛,有较好代表性,且均做了词性赋码(Part-of-speech tags)。这些在线检索提供通配符功能(wildcard)、连续和非连续的词组或搭配检索功能(word combination),并能指定检索词词性,功能强大,检索方便,可在日常中学英语教学中加以运用。

AntConc的详细使用说明

AntConc3.2.0的使用说明1 1.提取语境共现 1.1设置检索项 (1)单项检索 a)点击file下拉菜单中的“open files”,选择要打开的语料(如果想打开整个文件 夹,可以选择open directory); b)在“Search Term”一栏键入要检索的词项,如go; c)在“Search Window Size”一栏设置每一共现行出现的词数; d)点击,开始检索。 检索结果如图 1.1所示: 图1.1单项检索结果 (2)多项检索 设置多项检索 除了检索单个词项以外,AntConc还具有检索多个词项的功能,检索方法为在检索项间键入“|”符号。 例:要检索动词go的各种时态形式,可在“Search Term”中输入go|went|gone|goes 1此说明书由华南师范大学外文学院2007研究生张杏娟编写,导师何安平订正和补充。 其中限定范围的检索方法由香港城市大学 D.Lee博士提供,仅此致谢。

设置语境词检索 为了限制语境共现的检索,可以设定一个语境词在检索项周边一定的 语境范围内出现。 例:如要研究 a … of 这一类词组,可通过AntConc提取所有的词项, 检索方法如下: a)在“Search Term”一栏键入a; b)点击“Search Term”旁的,进入“Advanced Search”界面, 如图1.2所示。点击“Use context words and horizons”,然后在“Context Words” 一栏键入of,点击。如要重新设置语境词,可先点击清除原来语境词, 后重复以上操作。另外,还需设定语境词距离检索项的位置,如本研究中,of在a的右 图1.2 Advanced Search界面二位置,所以“Content Horizon”确定为,最后点击; c)回到语境共现的界面后,点击,开始检索。结果可提取 a lot of, a bit of 等词块。 设置多字语检索 在研究中,如需检索多个词项,除了使用“|”以外,也可使用以下方法,尤其适 合检索项数目较多的情况。 例:研究感官动词watch, sound, feel, hear, smell a)在TXT文本中键入所有要检索的词项,可多达250个词。然后为该文本起名保存。 需注意:键入的词项需以列的形式排列。如: feel

国内语料库建设一览表

国内语料库建设一览表 类型语料库名称及大小建设单位 英语学习者语料库(书面语及 口语) 中国学习者语料库CLEC(100万)广外、上海交大大学英语学习者口语语料库COLSEC (5万) 上海交大香港科技大学学习者语料库HKUST Learner Corpus 香港科技大学中国英语专业语料库CEME (148万) 南京大学中国英语学习者口语语料库SECCL (100万) 南京大学 国际外语学习者英语口语语料库中国部分LINSEI-China (10万) 华南师大硕士写作语料库MWC (12万) 华中科技大学 平行语料库 汉英平行语料库PCCE 北外 南大-国关平行语料库南京大学 英汉文学作品语料库; 外研社冯友兰《中国哲学史》汉英对照语料库 李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库 计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研 究所柏拉图(Plato)哲学名著《理想国》的双语语料库 英汉双语语料库(15万对) 中科院软件所

英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语 料31万句子对 中国科学院自动化研究所英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学 英汉双语语料库(40-50万句子对) 哈尔滨工业大学 双语语料库(5万多对) 北京大学计算语言学研究所对比语料库LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾 特殊英语语料 库 中国英语(China English)语料库河南师范大学军事英语语料库(Corpus of Military Texts) 解放军外语学院新视野大学英语教材语料库上海交通大学 汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学现代汉语语料库(1983年,2000万字) 北京航空航天大学 中学语文教材语料库(1983年,106万8000字) 北京师范大学 现代汉语词频统计语料库(1983年,182万字) 北京语言学院国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会《人民日报》语料库(2700万字) 北京大学计算机语言学研究所大型中文语料库(5亿字,10分库) 北京语言文化大学

基于语料库1

基于语料库的《麦田的守望者》检索分析 20 世纪80 年代以来,随着计算机的广泛应用,语料库语言学得到了蓬勃的发展。它为语言学研究提供了一套全新的研究思路和方法,广泛应用于语言研究的各个层面。由于计算机技术和因特网络的普及和发展,人们开始使用各种各样的语料库索引软件来作词汇搭配、翻译以及中介语的描述和分析。文本索引作为一种强有力的文本分析工具,不仅被广泛地应用在应用语言学的领域中,而且近年来在文学作品的研究中也开始发挥它们的独特作用。由于不少索引软件开发的最初目的是用来进行文学作品分析的(如Wordsmith Tools、TACT、Concordance 等) ,因此,在文学作品研究中,我们可以对某个作家的一部或多部作品进行分析和对比研究,这种分析对研究作家某种语体风格的形成或主题的表达提供了可靠的量化依据[1 ]165 。本文通过使用Wordsmith Tools 语料库索引软件对艾米莉·勃朗特的代表作《呼啸山庄》进行文本主旨、人物塑造与剧情发展等方面的分析 一、文本的总体统计特征及分析 基于语料库的语言研究一般采取定性与定量相结合的研究方法。要进行定量研究就要涉及文把《麦田的守望者》的文本用Wordsmith Tools 软件的wordlist 功能进行统计。它提供了有关这个文本的一些简略统计数字,如:字节数(bytes) 、形符数( tokens ,指文本一共有多少个词) 、类符数(types ,指文本一共有多少个不同的词形) 、类符形符比( type/ token ratio ,指形符与类符的比率, 即用词的变化性) 、标准化类符形符比( Standardised Type/ Token) 、平均词长、句子数等[1 ]153 。如表1 所示在这个文本中,从其字节数、形符数和句子数可以推断出这是一个较长的文本。因为单纯的形符数和类符数不能反映语篇的本质特征,如本文的类符形符比只有 3.39,但按一定的长度分批计算文本的类符形符比求平均值就可以得出标准类符形符比。它在一定程度上反映了语篇的某种本质特征,即用词的变化性。通过观察本文的标准类符形符比数35.18,可以推断此文本的词汇变化量为中低等程度。整个文章的句长为11.68,与平均句长14. 44 相比,意味着它比一些简易文本的句子要短。

相关主题
文本预览
相关文档 最新文档