当前位置:文档之家› 国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探
国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探*

王立非1,刘斌2

(1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京

210039)

摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一,

对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库

的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建

立和研究具有借鉴作用和启示意义。

关键词:国际儿童口语语料库;英语口语语料;语料库语言学

中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT Tool

WANG Lifei1, LIU Bin2

(1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China)

Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China.

Key words: CHILDES;English spoken corpus;corpus linguistics

1.引言

新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.doczj.com/doc/97980270.html,/CHA T.html)语料。CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。

2.录写赋码系统的途径与原则

研究口语必须将视频和音频语料转换为文本语料进行分析和研究,录写费时费力,(温志军、胡瑰玲,2001)而CHAT录写系统提供了一整套赋码符号系统,经过赋码的口语语料运用计算机可以自动处理和分析。

CHAT (codes for the human analysis of transcripts)的全称是“人工录写文本分析赋码系统”,它是一套复杂但又十分灵活的多级赋码方案,专为计算机录写自然话语而设计。该系统提供了一整套用计算机记录人类交际会话的标准形式。这些交际话语涵盖了日常会话的所有种类。赋码内容包括基本的话语文本类型、详尽的发音信息和话语的句法分析信息。CHILDES语料库中的全部文稿为CHAT格式,运用CLAN程序可以对CHAT文本进行自动分析。

2.1 CHAT系统的赋码方式

CHAT对口语语料的赋码采取四种方式。第一,使用标准美式音标作为统一的格式记录会话中的词素。可以将“mightuv”记录为/maituv/。第二,CHAT允许在文稿中使用标准国际音标符和变音符。第三,CLAN编辑器可将会话交谈的声音用数码形式记录下来,并直接通过ViaVoice语音识别软件自动转为文本格式。这套系统称为“语音CHAT”。人们可通过安装在计算机上的语音CHAT识别文本语料,听到所录制的声音。第四,如果不希望使用上述方式,CHAT还可识别非标准词汇形式,如“might(h)ave”,并将它以“might have”的缩写形式进行处理。

2.2 CHAT对文本与音频语料的赋码原则

CHAT文稿赋码分为三个层级:初级、中级和高级。初级与普通儿童话语分析采用的文稿赋码系统一样。初级CHAT赋码系统的要求包括文档格式、发音形式、文件书写格式和ASCII格式等。初级CHAT文档的形式有一定的标准。这些标准必须符合CLAN分析程序指令的要求,否则,CHAT文档不能顺利运行。正确的CHAT文本格式如下:

1)用英语进行正常赋码时,文档中的每个符号都必须是ASCII符号。

2)每行必须以硬回车结束。

3)每行的开头必须是@Begin。

4)每行的结束必须是@End。

5)必须有@Participants行。内容为代表参加者的三字码,如:参加者的名字、参加者的角色。此行必须紧跟@Begin行。

6)以*号开始的行表明实际说过的话。这些被称为主行。每一个主行都只能记录一句话语。当说话者一次说几句话时,必须分行记录。

7)在主行的*号之后的三个字母必须大写。然后是冒号和说话内容。

8)以%符号开始的行表示录写者或研究者对背景的注释。通常这些行包括赋码和注释,称为“附属”行。

9)以%符号开始的附属行后是三个下标字母。如“phonology”中的“pho”,一个冒号和注释。

10)摘要行后接主行和附属行。

3.CHAT赋码的操作步骤

CHAT文稿的赋码主要分为固定行、主行和可变行三部分。

3.1 固定行赋码

CHAT赋码文稿总是以固定行开始,提供录写日期、参加者姓名、年龄、交谈背景等信息。这些信息出现在文本的最开始处,具体格式如下:

(XXX表示某某人,凡是有名字的行都用破折号,其它说明行均无破折号,

以示区别。遗漏的冒号已加上,全部要对齐。)

×××姓名行——@Name of ×××

×××年龄行——@Age of ×××

×××生日行——@Birth of ×××

赋码者行 @Coder:

附属行 @Dependent:

×××教育行——@Education of ×××:

文件名行 @Filename:

字体行 @Font:

×××组行——@Group of ×××

语种行 @Language:

×××语言行——@Language of ×××

×××状况行——@SES of ×××

×××性别行——@Sex of ×××

原因行 @Stim:

录写者行 @Transcriber:

警告行 @Warning:

有关参加者和背景信息的所有固定行都须以“@”符号开始。一些行只要求有@符号和行的名称。例如“@Begin”或“@New Episode”。但是大部分行后须有内容。有内容的行还必须有一个冒号,然后是1-2个注释。冒号后必须空出8个字符的间隔,然后输入注释。注释是为了增加文档行信息的可读性。冒号前的材料称为“行名”,如:“@Age of CHI:”和“@Date:”都是行名。行名之后的文本被称为“行内容”,如:“@Age of CHI: 2; 6.4”、“@Date: 25-JAN-1983”。“2;

6.14”和“25-JAN-1983”都是行内容,统称为“行”。行末不能有标点符号。在CHAT中,只有主体确实发出的声音才能用标点符号。

这些固定行说明说话者年龄、社会经济地位或出生日期等不变的信息,如:中产阶级家庭、男性、2岁等。这些信息有助于更有效地研究语料。固定行按字母顺序排列,排列顺序如下:

(1)姓名行@Name of ×××:

此行说明参加者的名字。

(2)年龄行@Age of ×××:

此行是说话者年龄,×××表示用三个字母说明说话者的名字。CHAT中的年龄信息精确到日。这里的年龄指的是被采集语料的儿童及其兄弟姐妹的年龄,也可用于其他说话者。@Age行的顺序为年、月、日。如2;11.7,指的是2岁,11个月零7天,与一般日期表示方法不同。

(3)生日行@Birth of ×××:

此行说明了说话者的出生日期。此行的内容是日-月-年。注意日在前,月排在第二位。因此1973年1月23日应写为23-JAN-1973。在所有日期中,月份应大写,缩写,如:JAN,FEB类推。例如:@Birth of SAR: 23-JUL-1961 (4)赋码者行@Coder:

此行说明文件赋码人身份。以备查验,同时也是对赋码者劳动的一种承认。

(5)附属行@Dependent:

此行用于列出附属信息。可插入%Spa等类指令,供编辑器阅读。

(6)教育行@Education of ×××:

此行说明说话者的最高教育水平,用0-20的整数表示。12以后的数字表明大学教育。如说话者受教育程度是大学三年级,就应以“15”来表示。例如:

@Education of MOT: 15。

(7)文件名行@Filename:

此行是计算机文件的文件名,为了防止文件重名。如果已经有了一个@ID行,就无需再加上此行,因为@ID赋码包括了文件名。

(8)字体行@Font:

此行用于定义文件的预设字体。在CLAN编辑器中,对WINDOWS系统而言,预设字体为Win95:Courier New:-13。

(9)小组行@Group of ×××:

此行说明了一组研究对象中以谁为主体,其他人则不重要。

(10)语种行@Language:

此行说明记录数据的语种。

(11)语言行@Language of ×××:

此行说明参加者使用的语言。为了能说明交际的基本语言,最好使用能适用GEM软件(对某段录写语料标记进行深入分析的软件)的@bg和@eg标记。如果语言转换频繁,有必要在每句话前使用%语种,如:%lan:附属行,表明所使用的语言。

(12)状况行@SES of ×××:

此行说明了该儿童家庭的社会经济状况。请用标准形容词说明家庭的社会经济状况,如:贫困、下层、工薪、中产、上层。例:@SES of SAR: working (13)性别行@Sex of ×××:

此行说明说话者的性别。

(14)原因行@Stim:

此行说明了引起说话的原因。

(15)录写者行@Transcriber:

此行说明录写者的姓名。

(16)警告行@Warning :

此行就文稿收集和记录中的某些错误向研究者提出警告。如:1)语料记录不精确,无法在分析中使用。2)语料包含的信息与文本无关,不适用于分析。3)语料未准确记录重复和停顿现象。4)所记录语料未进行双重检查。5)文件末成功运行CHECK命令。

3.2必要行赋码

CHAT必要行指令只有4个,没有这些行首,CLAN就无法正确运行。格式如下:

开始行 @Begin

参加者行 @Participants

身份行 @ID:

结束行 @End

(1)开始行@Begin

此行置于文件头,旨在确保材料的完整性。此行无其它内容,不使用冒号。

(2)参加者行@Participants:

此行位于文件第二行,说明文件中的所有参加者,参加者行须包括三个要素:说话者身份、姓名和角色,例如:@Participants: SAR Sue_Day Target_Child, CAR Carol Mother。

1)说话者身份

说话者身份通常由三个字母或二个字母加一个数字等组成。可用参加者姓

名,如*ROS或*BIL;或身份如*CHI或*MOT。不同的孩子可以用*CH1,*CH2,*CH3指代。说话者身份必须保证不重复,计算机将以此辨认文稿主体和其他说话者。三个字母有时难以区分所有的说话者。例如,儿童名为Mark(MAR),他母亲名为Mary(MAR),这时身份就无法判断,必须换身份代码。如:Mary的说话者身份可以改为MOT(母亲),也可将Mark的身份改为CHI,最好是这样使用MAR和MOT:@Participants: MAR Mark Target_Child, MOT Mary Mother。

三个字母赋码的组合可以指说话者和听众。如*CHI-MOT或*CHI-FAT儿童在对母亲或对父亲说话。

2)姓名

说话者的姓名可以忽略。如果CLAN程序对身份和角色自动识别。也可以使用假名。为了让CLAN正确分析参加者行,像“Sue Day”这样的多个单词姓名须以“Sue_Day”的形式出现。

3)角色

身份和姓名之后输入角色。CHECK命令可以提供一些固定的角色,如:研究对象儿童、父母亲、兄弟姐妹、祖父母、阿姨叔叔、小伙伴、客人、学生、老师、调查者、检查者、观察者、摄像者、医生、护士、办事员、主人、身份不明者、成人、年轻人、非人类和叙述者。如果在这些标准角色中找不到,角色的性质可放在姓名所处的位置。例如:

@Participants: TBO Toll_Booth_Operator Adult,

AIR Airport_Attendant Adult,

NON Computer_Talk Non_Human

(3)身份行@ID:

此行旨在标明确认文件系统中的某一个文件。此行的基本形式如下:

@ID:language/corpus/speaker/age/sex/group/SES/ rote/situation

例如:@ID:eng/ne20/chi20/lj10.4/m//middle/target_child/ situation。这里“group”栏的信息被忽略,因此第5和第6斜杠标记中没有内容。

(4)结束行@End

和开始行@Begin一样,此行无需冒号,没有内容,此固定行位于文件末尾,表示语料内容的完整性。此行可保证复制时文件的开始内容不会被抹掉。

CHAT赋码系统对发音和单词也有一系列标注规则:

1)发音应以发音结束符号结束。

2)尽量少用逗号。

3)专有名词用大写,句子开头不用大写。

4)发音模糊的单词应被记录为xxx(小写符号)。

5)记录不完整或不规范的语音段,用&标明,如:&guga。

6)不完整单词中的不完整部分可用括号表示,如:(be)cause,(a)bout。

以下为一段经过必要行赋码后的语料,语法正确,选自McWhinney (1995)。

@Begin

@Participants: Ros Ross Child,

BRI Brian Father

*ROS: W hy isn’t Mommy coming?

%com: Mother usually picks Ross

up around 4 PM.

*BRI: don't worry.

*BRI: she’ll be here soon.

*ROS: good.

@End

3.3可变行赋码

在CHAT录写系统中,可变行可与固定行同时出现在文件开始处,也可以位于文件各部分。可变行包括在文件中可以改变的信息。文件如果只记录了一天的会话内容,@Date行只能出现在文件开头,但如果包含以后几天的内容,@Date 行可以再次出现,说明记录的时间。可变行的格式如下:

活动行 @Activities

Gem开始行 @Bg and @Bg

背景行 @Bck

注释行 @Comment

日期行 @Date

Gem结束行 @Eg and @Eg

Gem行 @g

地点行 @Location

新事件行 @New Episode

房间布局行 @Room Layout

情景行 @Situation

磁带地点行 @Tape Location

时间长度行 @Time Duration

时间开始行 @Time Start

(1)活动行@Activities:

此行说明在某个情景中发生的活动,列出活动内容。如:如果在@Situation 行说的是“准备出去”,那么@Activities行就列出一系列行为,如穿外套、整理课本、说再见。

(2)Gem开始行@Bg and @Bg:

此行说明开始用GEM进行分析。如果有一个冒号,后面必须跟一个注释,然后再跟其它语码。

(3)背景行@Bck:

CHAT录写说话前的说明或背景信息时,将信息输入在背景行@Bck行中,如:@Bck: Rachel was fussing and pointing toward the cabinet where the cookies are stored.

*BAC: cookie [/] cookie

(4)注释行@Comment

此行可输入任何注释。当对某一种发音注释时,请使用%com行。如果对一般材料进行注释,请使用@Comment行。如果该注释适用于整个文件,请将@Comment 行放在第一次发音的固定行前。不要为专门的信息设立新赋码名,如”@Gestation Age”, 最好用@Comment行表示。如:@comment: Gestational Age of MAR is 7 months;@comment: Birth weight of MAR is 6 1bs. 4oz.。

(5)日期行@Date:

此行说明会话时间。形式为日-月-年。日期缩写形式同@Birth行。例:@Date: 1-JUL-1995。

(6)Gem结束行@Eg and @Eg:

此行表明GEM分析命令结束。如果有冒号,其后必须有标签,以及1个或更多赋码。

(7)Gem行@g

此行为联接GEM软件的命令行。Gem指的是以@g开始,以另一个@g结束的语料。这些标记称为gem的缩写标记,比@bg和@eg更易使用,但须使用GEM中的+n转换符。

(8)地点行@Location:

此行包括交际话语发生的城市、州或省和国家。例如:@Location: Boston, MA, USA。

(9)新事件行@New Episode:

此行说明了打断记录的事件以及发生的新片段。因为没有内容,此行无需冒号。插入事件结束无须标明,因为@New Episode行包含了一件事的结束和另一件事的开始。

(10)房间布局行@Room Layout:

此行对房间和家具布局进行说明。这对了解实验背景非常有用。例如:@Room Layout: Kitchen; Table in center of room with window on west wall, door to outside on north wall.

(11)情景行@Situation:

此行说明了会话发生的一般情景。放在另一个@Situation行前,对情景进行标准描述。如:早餐、外出、洗澡、工作、访友、上学、准备出门。例如:@Situation: Tim and Bill are playing with toys in the hallway. 研究者应尽可能地提供有关信息:参加人、房间布局、社会角色、活动、性质、时间、地点等。相关的文化信息也很重要。

(12)磁带位置行@Tape Location:

此行说明磁带的特点,A、B面和长度。如:@Tape Location : tape 74, side a, 104。

(13)时间长度行@Time Duration:

指出录音开始时间和录音时间的长短。如:@Time Duration: 12:30---13:30。此行说明了录音确切时间,各个相关事件发生的时间比较重要。记录在%tim附属行中,接着是@Time Start行。

(14)开始时间行@Time Start:

如果想知道%tim行中遗漏的时间,@Time Start行可表示绝对时间。如果记录中出现新的@Time行,时钟会重新计时。例如:@Time Start: 12:30。

从儿童口语语料库录写系统的赋码可以看出,口语语料的赋码比书面语料复杂,主要因为涉及声音的处理。然而CHILDES的CHAT赋码原则十分全面,可以对任何口语语料进行有效录写赋码,值得我们在建设英语口语语料库时借鉴。

参考文献:

[1] Edwards, J. 1992. Computer methods in child language research: four

principles for the use of archived data [J]. Journal of Child Language.

19, 435-458.

[2] Gibbon, D., Moor, R., & Winski, R. (Eds.). 1997. Handbook of standards

and resources for spoken language systems [C]. Berlin: Mouton de Gruyter.

[3] LIPPS Group. 2000. The LIDES Coding Manual: A document for preparing

and analyzing language interaction data [J]. Journal of Bilingualism, 4, whole no. 2.

[4] MacWhinney, B. 1995. The CHILDES Project: Tools for Analyzing Talk

[M]. 2nd Edition. Mahwah, NJ: Lawrence Erlbaum Associates.

[5] Oshima-Takane, Y., & Mac Whinney, B. 1995. Japanese CHAT manual [M].

Tokyo: Tokyo University Press.

[6] 温志军,胡瑰玲. 开发利用世界上最大的儿童语料库--CHILDES [J]外语教学与研究,2001,(5):374-377

*作者感谢美国B. MacWhinney教授访问南京大学期间的直接指导,感谢文秋芳教授和南京大学英语口语研究所以及南京师范大学教育系提供有关资料。

作者简介:1.王立非(1962-) 男,南京人,解放军国际关系学院教授,南京大学博士生,研究方向为应用语言学;2.刘斌(1978-)女,南京人,解放军国际关系学院研究生,研究方向为应用语言学。

托福口语话题语料库:学校

托福口语话题语料库:学校 为了帮助大家积累更多的优秀素材,为大家带来托福口语话题语料库:学校,希望能够帮助大家更好的备考托福口语,一起来看看吧! 托福口语话题语料库 学校的硬件设施: gym : 活动类型: 哑铃do some dumbbell, 室内跑道run on the indoor track, 在场地上打球play some sport on the court, 水上运动do some aquatic activities, 邮箱运动如瑜伽、游泳、在跑步机上跑步aerobics like yoga, swimming, running on a treadmill 体育馆是个休闲娱乐的地方,是打发时间的首选;在这里可以做各种各样的运动(举以上的例子)。

A gym is the place where students can have fun and relax themselves, for many students it can be the first choices when it comes to how to spend their spare time. There are lots of fun activities you can do in the gym like, play some sports on the court, do some aerobics like yoga, swimming, and running on a treadmill,and stuff like that. 作用:保持体型Keep fit, 有趣have fun,放松relax,引导学生健康、活跃的生活方式lead a healthy and active lifestyle 总之,很有必要建设一个体育馆。 In a nutshell, it is really important for a university to own a nice recreation center(gym 的同义词),for it helps to promote a healthy, active lifestyle. 实验室laboratory : 做实验conduct research, 把理论应用于实际apply theory in practice, 直观的理解概念understand concepts intuitively(直观的),培养学生的创造力develop students' creativity; 实验室是好学校的重要组成部分,然后展开实验室的作用(即以上内容)。

外教一对一英语口语

外教一对一英语口语的重要性 随着2008北京奥运、2010上海世博会,中国与国际融合的脚步加快,而英语作为搭建国际化沟通的重要桥梁,受到中国社会各界尤其是企业界的追捧。从长远来看,双语人才,尤其是英语人才,不论在企业国际化人才架构中,还是在中国国际化和平崛起的进程中,都是不可或缺的“基础设施”。外教1对1的培训能很快的提高口语水平,加速双语人才进程。 正是在这样一个国际化浪潮汹涌澎湃的背景下,外教1对1培训的重要性和紧迫性再次被突显,而英语培训过程中经常出现的“缺乏方向”、“缺乏标准”和“缺乏绩效考核”成为企业挥之不去的心病。正是因为这样,我们就不难理解为何“让英语培训机构按企业特定岗位的语言需求培养人才,真正实现企业英语培训与岗位语言胜任能力的无缝对接”、“如何借助第三方语言测评机构的专业力量完善企业英语培训外包机制”、“如何更有效地向英语培训机构下订单”等话题会被企业HR们所关心和热议。 在很多有经验的HR看来,外教英语1对1培训更多是源于改善或提高员工岗位语言胜任能力的直接需求,而企业只有将培训需求和考核标准量化后,才能精准地向英语培训机构提出“订制人才”的标准和要求,这也就是我们常听到的“订单式培训”。在企业内部英语培训的外包操作上,记者最近也注意到越来越多涉外企业的HR们倾向采用“第三方语言测评机构+英语培训机构”的二元培训模式。

那么,HR们又是如何借助英语外教1对1推进企业英语培训的需求下单、绩效考核及效果评估的?首先,企业借助第三方测评机构的专业化力量和专家资源,例如北京的速恩英语,先设计好公司各部门相应的岗位英语胜任标准,然后在培训之前组织相关岗位员工通过相应的英语考试测评,将考试测评的成绩与既定的岗位英语胜任标准进行比照,找出能力与胜任之间的差距,并以此量化成培训需求和向英语培训机构下培训订单的考核标准;其次,英语培训机构根据企业培训订单的培训需求和考核标准,量身定做相应的培训方案,对参训人员进行培训;最后,在培训结束时,再次组织参训人员参与英语测评考试,通过培训前、培训后两次成绩对照以检验“本次英语培训的是否达到既定的预期”、“员工的英语胜任能力通过培训是否得到改善或提高”,做到企业内部英语培训可量化考核和整体绩效评估,避免主观判断。

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.doczj.com/doc/97980270.html,.au/~dlee/CBLLinks.htm (https://www.doczj.com/doc/97980270.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.doczj.com/doc/97980270.html,/corpus/ 互动平台 https://www.doczj.com/doc/97980270.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

托福独立口语高频题语料素材汇总分享:internetoracademicbooks

托福独立口语高频题语料素材汇总分享:internetoracademicbooks 今天给大家带来了托福独立口语高频题语料素材汇总分享:internet or academic books,希望能够帮助到大家在托福口语中拿高分,下面就和大家分享,来欣赏一下吧。 托福独立口语高频题语料素材汇总分享:internet or academic books 托福独立口语高频话题解读:internet or academic books Which one do you think is better to help do research, internet or academic books? Explain why. 高频话题语料补充 有害健康 pose a threat to your health, hurt your eyesight, get dizzy, backache, neck problems, obesity 出版商审查并且批准一些信息 publisher checks and approves the information 作者都是权威

authors are authorities in a certain field 因特网的信息不准确 source might be unreliable 托福独立口语高频话题范文分享 Well, personally I would like to use paper books to do research. Sitting in front of the computer poses a threat to your health, like staring at the screening for a long time hurt your eyesight, you get dizzy, and there are other problems like backache, neck problems, and even obesity. Also, the information in books is reliable, the publisher checks and approves the information and the authors are authorities in a certain field. However, the information on the internet is not reliable since everyone can post information. 托福口语备考的七大技巧 扩充词汇 托福口语考试,讲究的不是词汇的多少,掌握2500个左右常用词就足够了。托福口语考试的关键,是要熟练掌握和运用一些转折连词、动词,以及美国口语的惯用方法。这样可以让你在口语考试中,表现的更加精彩。 题海战术

语料库与语料库建设

语料库和语料库建设 一、什么叫语料库 1、定义 语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的 语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。 目前,语言学家对于语料库的定义不尽相同,如辛克莱(Sinclair)认为语料库是“按照明确的语言学标准选择并排序的语言运用材料汇集,旨在用作语言的样本”。阿特金斯等(Atkins & Clear)认为语料库是“按照明确的设计标准,为某一具体目的而集成的大型文本库”。赫努(Renouf)认为语料库是“由大量收集的书面语或口头语构成,并通过计算机储存和处理,用于语言学研究的文本库”。我们看到,以上关于语料库的几种定义相同之处在于都谈到语料库是语言材料的汇集;不同之处在于前两个定义指出语料库的设计是有明确的设计标准的,赫努的定义明确指出语料库“通过计算机储存和处理”这一特点。 语料库不同于电子文档,语料库的建设有特定的研究目的和具体用途,因此在语料抽样范围和文类覆盖方面都力求取得平衡,在收集语料时需要考虑到每一文类、体裁、语域、主题类型等的抽样比例。而大型文档目标在于搜集任何可获得的语言材料或所限定的数种文类语料,其语言材料之间的关系较为松散。 语料库具有以下特征:1、语料库的设计与建设有系统的语言学理论指导,语料库的开发具有明确而又具体的目的;如,布朗语料库用于对20世纪60年代的美国英语的研究,LOB是与布朗语料库对齐的同时期的英国英语语料库,可用以对英国英语进行研究,也可与布朗语料库加以对比进行美国英语和英国英语的对比研究。2、语料库的语料是按照明确的语言学原则采用随机抽样的方法得到的语言运用的自然语料,不是随意的语言材料的堆积,更不是由某个个人杜撰出来的。语料库的容量和语料采用随机抽样方式都保证了语料具有代表性,由此保证基于语料库的语言研究的科学性、客观性。3、语料文本是连续的文本或话语片断,而不是孤立的句子或词汇,可以借以获得语法关系、用法、词语搭配以及语篇信息。4、语料库以当代先进的计算机技术为技术手段,语料库语料通过电子文本形式储存并且是通过计算机处理的,具有资源优势和处理速度优势。5、基于语料库的研究以量化研究为基石,以概率统计为手段,以数据驱动为基本理念。6、语料库既是一种研究方法,又代表着一种新的研究思维。 二、语料库产生的背景及发展历史 对真实语言材料的搜集与研究是语言学研究的优秀传统。尤其是在20世纪50年代中期, 在语言研究中占主导地位的是重语言材料的经验主义。这种学术氛围无疑促进了对语料的重视。1959年夸克(R.Quirk)等人着手进行的“英语用法调查”(Survey of English Usage)通过系统的调查建立了第一个现代英语语料库,在此基础上完成的《现代英语语法》( A Grammar of Contemporary English)和《英语语法大全》(A Comprehensive Grammar of the English Language)对现代英语进行了系统全面的描写,在英语语言学界产生了广泛的影响。但在当时这项浩大的工程是通过手工的方式完成的。

日常英语口语900句

免费外教在线一对一英语口语课程,太平洋英语,三个月与老外畅谈无阻!https://www.doczj.com/doc/97980270.html, 第1册A版 一、Greetings 问候语 1. Hello! / Hi! 你好! 2. Good morning / afternoon / evening! 早晨(下午/晚上)好! 3. I'm Kathy King. 我是凯西·金。 4. Are you Peter Smith? 你是彼得·史密斯吗? 5. Yes, I am. / No, I'm not. 是,我是。/ 不,我不是。 6. How are you? 你好吗? 7. Fine, thanks. And you? 很好,谢谢,你呢? 8. I'm fine, too. 我也很好。 9. How is Amy / your wife / your husband? 爱米好吗?/你妻子好吗?/你丈夫好吗? 10. She is very well, thank you. 她很好,谢谢。 11. Good night, Jane. 晚安,简。 12. Good-bye, Mike. 再见,迈克。 13. See you tomorrow. 明天见。 14. See you later. 待会儿见。 15. I have to go now. 我必须走了。 二、Expression In Class 课堂用语 16. May I come in? 我能进来吗? 17. Come in, please. 请进。 18. Sit down, please. 请坐。 19. It's time for class. 上课时间到了。 20. Open your books and turn to page 20. 打开书,翻到第20页。 21. I'll call the roll before class. 课前我要点名。 22. Here! 到! 23. Has everybody got a sheet? 每个人都拿到材料了吗? 24. Any different opinion? 有不同意见吗? 25. Are you with me? 你们跟上我讲的了吗? 26. Have I made myself clear? 我讲明白了吗? 27. Could you say it again? 你能再说一遍吗? 28. Any questions? 有什么问题吗? 29. That's all for today. 今天就讲到这里。 30. Please turn in your paper before leaving. 请在离开前将论文交上。 三、Identifying Objects 辨别物品 31. What's this? 这是什么? 32. It's a pen. 是支笔。 33. Is this your handbag? 这是你的手提包吗? 34. No, it isn't. / Yes, it is. 不,它不是。/是的,它是。 35. Whose pen is this? 这是谁的笔? 36. It's Kate's. 是凯特的。

基于语料库的中国大学生英语口语表达中的“中式 英 语” 探究

基于语料库的中国大学生英语口语表达中 的“中式英语” 探究 摘要:本文利用大学学习者英语口语语料库,选取全国大学英语考试口语考试部分27名考生的口语语料库作为研究对象,对其中出现的中式英语进行标注和分类。作者根据统计结果,从词法和句法两个层面分析我国大学生英语口语中出现的中式英语现象,探讨汉语母语作为中式英语出现的主要原因及对英语口语的影响,最后对中国大学生的英语日常学习及口语水平的提高提出相关建议,为广大高校师生提供借鉴意义。 关键词:中式英语中国大学生口语语料库 1.引言 中国大学生在他们的年纪已经获得用汉语思考和表达的能力,形成用汉语思考和表达的习惯。绝大部分中国人都是在掌握了母语之后才开始学习英语的,所以在学英语的过程中,总是从中国人的思维角度思考,不顾西方的语言习惯,这就造成中式英语的大量存在。由于不符合英语的表达习惯,中式英语在人际交流中有时会引起误解和困惑。因此,它作为一种特殊的语言现象,应该引起人们的注意。在中国,高校在校学生占英语学习者的很大一部分,他们毕业之后就

由英语学习者转变为英语使用者,所以他们在学校学得如何,直接影响他们在工作岗位上用得如何。 从现状看,我国大学毕业生的平均英语水平不能满足各行各业越来越高的需求,尤其是在口语表达和人际交流方面。在现行教育体制下,高校英语教学过于强调语法和词汇的讲解,而对学生语言能力的培养和英语文化的教授则有所忽略。其结果就是许多中国大学生在学了十多年英语之后,只是善于记忆单词和语法规则;他们能在笔试中得高分,但是一张嘴就是中式英语。 《牛津英语词典》对中式英语作了如下定义:中式英语是一种汉语和英语的混合体;尤其是汉语使用者使用的或中英双语语境中的一种英语变体,典型地夹杂一些汉语的词汇和结构,或是汉语语境中特有的英语术语。 总的说来,中式英语是指一种不符合英语文化习惯的畸形英语,由某些受汉语思维方式和文化背景影响而将母语的语言规则运用到英语中的中国人说出或写出。 2.研究方法 2.1研究对象和数据收集 “大学学习者口语语料库”由上海交通大学的杨惠中教授主持完成。该语料库容量达70万字,来源是全国大学英语考试口语考试部分的真实音视频材料。它按照考试来源地、专业、考试成绩和对话题目,采取随机抽样的方法组

语料库

Background Information 语料库的概念 语料库是指按照一定的语言学规则,利用随机抽样的方法收集的有代表性的语言材料的总汇,它是语言材料的样本。 语料库通常指为语言研究机构收集的,具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成,用来代表特定的语言或语言变体,或经过加工后带有语言学信息标注的文本的集合。 语料库的分类 按照语料库所涉及的语言种类,语料库课分为单语语料库,双语平行语料库(parallel corpus)和多语语料库(multilingual corpus); 按照语言涉及的题材,语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus); 按语料的来源,又可分为口语语料库和书面语语料库; 按语料库是否被标注,语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus) In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

托福常用口语900句语料中英文对照汇总:1-250句

托福常用口语900句语料中英文对照 汇总:1-250句 今天给大家带来托福常用口语900句语料中英文对照汇总:1-250句,希望可以帮助到大家在托福口中拿高分,下面就和大家分享,来欣赏一下吧。 托福常用口语900句语料中英文对照汇总:第1部分1-50句 托福常用口语900句语料对照汇总:1-50句 1. I see. 我明白了。 2. I quit! 我不干了! 3. Let go! 放手! 4. Me too. 我也是。 5. My god! 天哪! 6. No way! 不行! 7. Come on. 来吧(赶快) 8. Hold on. 等一等。

9. I agree。我同意。 10. Not bad. 还不错。 11. Not yet. 还没。 12. See you. 再见。 13. Shut up! 闭嘴! 14. So long. 再见。 15. Why not? 好呀! (为什么不呢?) 16. Allow me. 让我来。 17. Be quiet! 安静点! 18. Cheer up! 振作起来! 19. Good job! 做得好! 20. Have fun! 玩得开心! 21. How much? 多少钱? 22. Im full. 我饱了。 23. Im home. 我回来了。 24. Im lost. 我迷路了。

25. My treat. 我请客。 26. So do I. 我也一样。 27. This way。这边请。 28. After you. 您先。 29. Bless you! 祝福你! 30. Follow me. 跟我来。 31. Forget it! 休想! (算了!) 32. Good luck! 祝好运! 33. I decline! 我拒绝! 34. I promise. 我保证。 35. Of course! 当然了! 36. Slow down! 慢点! 37. Take care! 保重! 38. They hurt. (伤口)疼。 39. Try again. 再试试。 40. Watch out! 当心。

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1,刘斌2 (1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京 210039) 摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一, 对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库 的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建 立和研究具有借鉴作用和启示意义。 关键词:国际儿童口语语料库;英语口语语料;语料库语言学 中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES;English spoken corpus;corpus linguistics 1.引言 新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.doczj.com/doc/97980270.html,/CHA T.html)语料。CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。 2.录写赋码系统的途径与原则

英语口语20个对话主题

英语口语20个对话主题 英语口语对话主题(001)相貌 A: That girl looks very attractive, doesn’t she? B: do you think so? I don’t like girls who look like that. I like girls who aren’t too slim. If you like her, go and talk to her. A: I’d like to, but there’s her boyfriend. He’s very broad-shouldered. B: he’s huge! He must go to the gym to have a well-built body like that. A: do you prefer tall girls or short ones? B: I don’t mind, but I like girls with long hair. A: we have different tastes. I like girls with short hair. I like tall girls- probably because I’m so tall myself. B: have you ever dated a girl taller than you? A: no, never. I don’t think I’ve ever met a girl taller than me! Have you gained weight recently? B: yes, I have. Perhaps I should go to the gym, like t hat girl’s boyfriend. A: I ‘m getting a bit plump myself. Perhaps I’ll go with you. 英语口语对话主题(002)身体部分 A: I’m going to the beauty parlor. Do you want to come too? B: sure. Let’s go. What are you going to have done? A: I want to have a foot massage and haircut. B: a foot massage sounds like a great idea. They are very relaxing. I’d also like to have a mudpack on my face. It’s supposed to help with your complexion. A: good idea. We should also pedicures and manicures. B: this could become a very expensive trip to be beauty parlour! A: I think it’s a good idea to pamper yourself occasionally. Don’t you agree? B: oh, I agree. We both work hard and a little beauty treatment can relieve stress. A: maybe we should try a thai massage too. B: what’s specia l about a thai massage? A: that’s when the masseuse walk on your back and massage you with her feet. B: sounds painful! 英语口语对话主题(003)身体部位的运动 A: when you are in a restaurant you want the waiter to bring the bill, what do you do to attract his attention? B: I just make eye contact with him and nod my head. Then I tell him when he comes over to the table. Why do you ask? A: I went out with my girlfriend to a nice restaurant last night and I noticed that many people shouted for the bill.

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.doczj.com/doc/97980270.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.doczj.com/doc/97980270.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.doczj.com/doc/97980270.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.doczj.com/doc/97980270.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.doczj.com/doc/97980270.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.doczj.com/doc/97980270.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.doczj.com/doc/97980270.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.doczj.com/doc/97980270.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.doczj.com/doc/97980270.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.doczj.com/doc/97980270.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

托福口语语料库整理Fancy(优选.)

Task 1\2 独立题戏精上身语音语调 Task1 多选一、三选一、建议类、优缺点 Task2 A or B, agree or disagree, good or not I’m a university student who has endless tasks to deal with. For example, i need to take classes, write papers, prepare for the TOEFL test and so on. Usually, i feel so tired and busy, so i need to find a way to let off my steam. Like last weekend, i ...,and i felt so relaxed. I could totally get away from the daily grind. What’s more, while doing sth, i can meet a bunch of people who share the common interests and hob bies. I mean, it’s easier for us to get along with each other. It can help me to expend my social network. 大城市、出国 Living in a big city can provide people with a lot of benefits. I’m a university student who studies in shanghai, i enjoy my life here in this big and modern city, because i can receive better education, experience new things, get more job opportunities and so on. All these can lead to a better life, right?Besides, the basic infrastructure in big city is perfect, because there are some museums, hospitals, schools,libraries and so on. 榜样力量 Yi Fan is a famous actor in my country, and i admire him a lot because he sets a good example to me. Once, i watched an interview about him on TV. In the interview, he told us that at the beginning of his career, he was little-known. However, he kept trying harder and harder and never give up. Now, he is a household star and everyone knows his name. His story motivates and inspires me all the time. 大学教育、商业 I’m studying in a top university, which provides me a pla tform to gain and enrich knowledge for my major. My major is business administration. In university, i have learned some related academic subjects, such as economics, management, e-commerce and so on. At the same time, i can do some internships in some business companies. All these can lay a solid foundation for my future career. What’s more, in university, i can make friends with some talented people who can give me a lot of inspiration. 三选一结尾套话 To tell you the truth, when talking about the other two things, i have absolutely no interest in them.

CCL语料库与检索系统方案

一关于CCL语料库及其检索系统 (如果时间紧张,可直接跳到最后的举例部分!) 1.1 CCL语料库及其检索系统为纯学术非盈利性的。不得将本系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。 1.2 本语料库仅供语言研究参考之用。语料本身的正确性需要您自己加以核实。 1.3 语料库中所含语料的基本内容信息可以在“高级搜索”页面上,点击相应的链接查看。比如: “作者列表”:列出语料库中所包含的文件的作者 “篇名列表”:列出语料库中所包含的篇目名 “类型列表”:列出语料库中文章的分类信息 “路径列表”:列出语料库中各文件在计算机中存放的目录 “模式列表”:列出语料库中可以查询的模式 1.4 语料库中的中文文本未经分词处理。 1.5 检索系统以汉字为基本单位。 1.6 主要功能特色: ?支持复杂检索表达式(比如不相邻关键字查询,指定距离查询,等等); ?支持对标点符号的查询(比如查询“?”可以检索语料库中所有疑问句); ?支持在“结果集”中继续检索; ?用户可定制查询结果的显示方式(如左右长度,排序等); ?用户可从网页上下载查询结果(text文件); 二关于查询表达式 本节对CCL语料库检索系统目前支持的查询表达式加以说明。 2.1 特殊符号 查询表达式中可以使用的特殊符号包括8个: | $ # + - ~ ! : 这些符号分为四组: Operator1: | Operator2: $ # + - ~ Operaotr3: !

Delimiter: : 符号的含义如下: (一) Operator1: Operator1是二元操作符,它的两边可以出现“基本项”(关于“基本项”的定义见2.2) (1) | 相当于逻辑中的“或”关系。 (二) Operator2:Operator2是二元操作符,它的两边可以出现“简单项”(关于“简单项”的定义见2.3) (2) $ 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数小于或等于Number (3) # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number (4) + 表示它两边的“简单项”按照左边在前、右边在后的次序出现于同一句中。两个“简单项”之间相隔字数刚好等于Number (5) - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。 (6) ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。 (三)Operator3:Operator3是一元操作符。 (7) ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。 注意: Operator2后面的Number是必须的,不能省略。Number=0表示相 邻,Number=1表示间隔1个单位,其余依此类推。 (四)Delimiter:西文冒号 : 是分隔符 (8) : 跟在 path,author,name,type,pattern 等关键字后面,用于分隔关键字和它们的取值。这样形成的查询式我们称之为“过滤项”(见下面2.5) 注意:上述特殊字符不能作为基本项在语料库中进行检索。path,author等关键字可以作为基本项进行检索。 2.2 基本项 指不包含特殊符号和空格的连续字符串

相关主题
文本预览
相关文档 最新文档