当前位置:文档之家› 当汉语语料库文本分词规范草案

当汉语语料库文本分词规范草案

当汉语语料库文本分词规范草案
当汉语语料库文本分词规范草案

973当代汉语文本语料库分词、词性标注加工规范

(草案)

山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。这次承担973任务后制定出本规范。本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。

《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。

1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年

2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布

3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年

北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年

北京大学计算语言学研究所

5.《信息处理用现代汉语词类标记规范》,2002年,

教育部语言文字应用研究所计算语言学研究室

6.《现代汉语语料库文本分词规范说明》,2000年

山西大学计算机科学系山西大学计算机应用研究所

7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会

一、分词总则

1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。追求分词后语料的一致性(consistency)是本规范的目标之一。

2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。本文中仍用“词”来称谓“分词单位”。

3.分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。

4. 本规范规定的分词原则及规则,既要适应语言信息处理与语料库语言学研究的需要,又力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。

5.分词时遵循从大到小的原则逐层顺序切分。一时难以判定是否切分的结构体,暂不切分。

二、词性标注总则

信息处理用现代汉语词性标注主要原则有三个:

(1)语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据,

但有时也起着某些参考作用。

(2)允许有兼类。根据各种统计研究,现代汉语的某些词具有多种语法功能,但这多种功能的分布概率不同。在信息处理用现代汉语词类体系中,各词类的确立要根据词的主要语法功能。

(3)词类加工规范的标记集中的大类应能覆盖现代汉语的全部词。

为满足计算机处理真实文本词类标注的需要,本规范所定义的标记集,覆盖了比词小的单位,如前接成分(前缀)、后接成分(后缀)、语素字、非语素字等;比词更大的单位,如习用语、简称和略语,以及标点符号、非汉字符号等。

三、词类标记集

本规范的词类标记集采用《信息处理用现代汉语词类标记规范》的大类,只增加了部分细类。

本规范的词类标记集规定,每个分词单位的标记由英文字母串构成。标记的第一位代码,表示信息处理用现代汉语词类的基本词类,共20类,标记的第二、三位代码,表示信息处理用现代汉语基本词类下的细类。

词类分别为:

(1)名词n:

普通名词(n)

时间名词(nt)

方位名词(nd)

处所名词(nl)

人名(nh)

汉族或类汉族人名(人名 nhh:姓nhf, 名nhg)

音译名或类音译名(nhy)

日本人名(nhr)

其他(nhw):如绰号,笔名,尊称等。

地名(ns)

族名(nn)

团体机构名(ni)

其他专有名词(nz)

(2)动词v:

普通动词(v)

能愿动词(vu)

趋向动词(vd)

系动词(vl)

(3)形容词:

性质形容词(aq)

状态形容词(as)

(4)区别词f

(5)数词m

(6)量词q

(7)副词d

(8)代词r

(9)介词p

(10)连词c

(11)助词u

(12)叹词e

(13)拟声词o

(14)习用语i

名词性习用语(in)

动词性习用语(iv)

形容词性习用语 (ia)

连词性习用语(ic)

(15)简称和略语j

名词性简称和略语 jn

动词性简称和略语 jv

形容词性简称和略语 ja

(16)前接成分h

(17)后接成分k

(18)语素字g

(19)非语素字x

(20)其它w:

标点符号 (wp)

非汉字字符串(ws)

其他未知的符号(wu)

四、细则

1.本规范参照 GB/T 13715-92的做法,以词类为纲对各类单位作具体切分与词性标注规

定。

2.本次加工规定,凡是收入词表中的词语,不再遵循本规范进行切分。所使用词表的收

词原则遵从清华大学《信息处理用现代汉语分词词表》规范。

3.独立性较强的语素字均标注词类,减少语素字标记的比例。

4.大类与细类可兼类。

五、分词与词性标注的详细说明

1.名词(n)

表示人和事物的名称或时间、处所等,在句中主要充当主语和宾语。

1.l 普通名词(n)

表示人和事物的名称

1.1.l 合成式

[1] 并列关系

凡是使用稳定、结合紧密的二字并列关系名词一律为分词单位。如:

省市/n 房屋/n 资金/n

其余双音节的只要能扩展,则可切分。

三音节以上的结构体能扩展的应切分。例如:

省/n市/n县/n

[2] 定中关系

A.[名十名]

对2至4音节组合,如其中一部分音节长度为1,一般来说,整体不切分。例如:阵营/n 风波/n 法人/n 饭店/n

大气层/n 火车站/n 州政府/n

凤仙花汁/n 芭蕾舞裙/n

对两部分音节长度都大于或等于2的组合,如中间能加“的”且意义不变的切开,否则不切分。例如:

中国/ns 公民/n 软件/n 程序/n 文件/n精神/n

知识产权/n 技术人员/n 航空母舰/n 绿色食品/n 集团公司/n

5音节以上的组合原则上切开。例如:

律师/n 资格/n 获得者/n 超线程/n 技术/n

B.[动十名]

对2至4音节组合,构成动宾式合成词时,如其中一部分音节长度为1,则整体不切分。例如:

编号/n 贷款/n 报表/n

代名词/n 承包商/n 负责人/n 影响力/n

说明:“动+名”如为述宾结构的短语,应切分开。如:

看/v 电影/n 洗/v 衣服/n 买/v 东西/n

但有些结合紧密或使用稳定的述宾结构已在词典中登录,则处理成一个切分单位,标注为动词v,如:

吃饭/v 跳舞/v 唱歌/v。

对两部分音节长度都大于或等于2的组合,如中间能加“的”且意义不变的切开,否则不切分。如:

等待/v时间/n 设计/v方案/n 生产关系/n

C.[形十名]

以下几种情况不切分,整体标注名词,其余情况切分。

a.形容词反映的是名词所指事物的典型属性,如:

咸盐/n 白雪/n 蓝天/n 绿叶/n 白兔/n 红花/n 绿草/n 冷水/n 低价/n

b.形容词具有分类作用而不是临时指别作用,如:

体细胞/n 小桥/n 矮个子/n

c.形容词与名词的组合有一定象征意义。如:

红旗/n

d.形容词与名词的切分意义发生了变化。如:

黑市/n 软盘/n 白菜/n 冷门/n 小金库/n 多媒体/n

D.[量十名]

双音节的不切分,整体标注为n。如:

度数/n 天数/n 个数/n 页数/n 种数/n 次数/n

三音节以上的切分,量词与名词分别标注。例如:

亩/q 产量/n 公里/q数/n

E. [数十名]

a.表序数的一般要切分,数词与名词分别标注。例如:

五/m楼/n 三/m厂/n

b.省略量词的组合,整体不作为分词单位,分别标注。如:

两/m 脚/n 都/d 是/v 泥/n

c.其余的组合,不切分,标注为n。例如:

半岛/n 半球/n 二心/n 六指儿/n 两头/n

[3] 主谓关系

结构体在上下文中呈体词性时,无论音节多少,均不切分, 标注为n。例如:癌变/n 海啸/n 脑溢血/n

1.1.2 附加式

附加式包括如下几部分构词形式

[1] 前接成分十语素或词

[2] 语素或词+后接成分

[3] 前接成分+语素或词+后接成分

这类名词的切分和标注规则见前后接成分。

1.1.3 重叠式。

不切分。例如:

人人/n 家家/n 山山水水/n 方方面面/n

1.1.4明显带排行的亲属称谓不切开。

三哥/n 大婶/n 大女儿/n 大哥/n 小弟/n 老爸/n

1.1.5专业术语

[1] 专业术语四音节以下(含四音节)的一般不切分,标注n,四音节以上的按词切分。例如:

不定积分/n 氯胺酮/n 汇编语言/n 生物化学/n 多/a弹头/n导弹/n

[2] 食谱上的菜名一般不切分,标注n。

八宝粥/n 霉干菜/n 松鼠鳜鱼/n 红烧肉/n,

鸡蛋汤/n 芝麻饼/n 鸡丝面/n

1.2 时间名词 (nt)

表示时间。

[1] 一周的七天,农历的初一到初十,“(大)年初一”到“(大)年初十”不切分。例:

星期一/nt 初三/nt 年初二/nt 大年初一/nt

[2] 年月日时分秒,按年、月、日、时、分、秒切分,标注为nt 。

1997/m 年/nt 3/m 月/nt 19/m 日/nt,

下午/nt 2/m 时/nt 18/m 分/nt 35/m 秒/nt

[3] 朝代名不切分,标注为nt。例如:

唐朝/nt 南北朝/nt 清代 /nt

[4] 著名的节日名,不切分, 标注为nt。例如:

春节/nt 圣诞节/nt 国庆节/nt 复活节/nt 三八妇女节/nt “六一”儿童节/nt [5]“前、后、上、下、大前、大后、头”加“天”或“上/下”加“月/周/星期”时,不切

分,标注为nt。例如:

前天/nt 大前天/nt 头天/nt 上周/nt 上月/nt 下星期/nt

但是中间加数词或量词时切开。例如:

前/nd几/m天/nt 上/nd半/m年/nt 上/nd 个/q月/nt 下/nd个/q 星期/nt [6] “点钟、分钟、秒钟、刻钟”不切分, 标注为nt:

一/m点钟/nt 十/m秒钟/nt

[7] “年间”不切分。例如:

乾隆/nhh 年间/nt 战乱/j 年间/nt

[8] “年终、此间、公元前、前不久”均不切分,标注为nt。

[9] 十二生宵表示的年不切分,标注为nt。例如:

牛年/nt 虎年/nt

[10] 以天干、地支表示的年不切分,标注为nt。例如:

甲午年/nt、庚子/nt、戊戌/nt

[11] 二十四节气不切分,标注nt。例如:

春分/nt 惊蛰/nt

[12] 数字与“:”或“-”结合在一起的表示具体时间的串,整体标注nt。如:

08:35:28/nt 2003-03-29/nt

1.3 方位名词(nd)

表示位置、时间、数的相对方向或范围的词语。

方位词分为单纯方位词和合成方位词两种,一般来说,方位词和名词组合后(方位结构),构成处所词或时间词。

[l] 方位词前置作修饰语时,结合紧密的不切分,其余切分。例如:

前门/nl 里屋/nl 西太平洋/ns, 上周/nt 前天/nt 上/nd 赛季/n

[2] 部分方位词+数词(量词)+时间词时,切分。例如:

下/nd 半/m 年/nt

[3] 方位词后置的,如果前面的成分不单用,则整体不切分。例如:

境内/nl 国内/nl 关外/nl 心目中/nl

如前面的成分单用,常用的(已收入词表)不切分,其余切分。例如:

心里/nl 空中/nl 课前/nt 门后/nl 出发/v之前/nd 球/n 上/nd

[4] 时间名词后接“…来(以来)”,要切分。例如:

三/m 年/q 来/nd 今年/nt 以来/nd

“年、月”后跟“初、中、末、底”等类方位词时,如前面有数词,则切分,否则不切分。例如:

年初/nt 月底/nt 年中/nt

1985/m年/nt初/nd 三/m月/nt底/nd

[5] 用于表概数或范围的方位结构,切分。例如:

50/m左右/nd 100/m人/n上下/nd

七一/nt前后/nd 六十/m开外/nd 九七/m 年/nt 以来/nd

1.4 处所名词(nl)

表示处所、位置的词语。

[1] 单音节名词或语素+单纯方位词构成的处所词,一般不切分。如:

窗外/nl 场内/nl 网上/nl 文中/nl

双音节或多音节名词+单纯方位词构成的处所短语,若前面的成分不单用,则整体形成处所词,否则,进行切分,分别标注。如:

心目中/nl 阳光/n 下/nd 运动场/n 上/nd

[2] 名词或语素+合成方位词构成的处所词,前面成分不可以单独使用的,不切分,其余切分。

[3] 方位词+名词构成的处所词,一般不切分。如:

西北麓、西郊

[4]“头、口、脚、边”等名词有时用法跟方位词差不多,可以和名词组成处所词。例如:

门口儿/nl 墙脚/nl 床边儿/nl

1.5 专有名词

1.5.1 人名(nh),表示人的名称(姓名)。

人名进一步分为如下子类:

汉族或类汉族人名(nhh,nhf,nhg)

音译名或类音译名(nhy)

日本人名(nhr)

其它(nhw):如绰号,笔名,尊称等。

[1] 汉族或类汉族人名,姓和名之间不分,整体标注nhh,当姓和名单独出现时,分别标注nhf,nhg。

余秋雨/nhh 欧阳修/nhh 阮志雄/nhh 金正日/nhh

姓名后的职务、职称或称呼要分开。

江/nhf 主席/n 小平/nhg 同志/n 胡/nhf 总书记/n

张/nhf 教授/n 王/nhf 部长/n 陈/nhf 老总/n

李/nhf 大娘/n 刘/nhf 阿姨/n 龙/nhf 姑姑/n 张/nhf姐/n

[2] 音译名或类音译名(nhy)整体不切分。

外国人或少数民族的译名不予切分,标注为nhy。

布什/nhy 普京/nhy 才旦卓玛/nhy 爱因斯坦/nhy 艾米里亚/nhy 有些西方人的姓名中有小圆点,也不分开。

卡尔·马克思/nhy C.S.刘易斯/nhy

[3] 日本人名(nhr)整体不切分。

岸信介/nhr 本田宗一郎/nhr 池田香代子/nhr

[4] 其它(nhw)

a. 对人的简称、尊称或姓氏加(类)后缀等,若为两个字,则合为一个切分单位,并标以nhw。

老张/nhw 大李/nhw 小郝/nhw 郭老/nhw 陈总/nhw 张某/nhw 戴妃/nhw

b. 一些著名作者的或不易区分姓和名的笔名通常作为一个切分单位。

鲁迅/nhw 茅盾/nhw 巴金/nhw 三毛/nhw 琼瑶/nhw

c. 昵称、绰号不切分。例如:

阿扁/nhw 二当家/nhw 寒星雨/nhw 老君山人/nhw 牛魔王/nhw

1.5.2 地名(ns),表示地理区域的名称。

[1] 地名后有“省、市、县、区、乡、镇、村、旗、州、都、府、道”等单字的行政区划名称时,作为一个切分单位,标注为ns。如:

山西省/ns 平壤市/ns 正定县/ns

[2] 地名后的行政区划有两个以上的汉字,则将地名同行政区划名称切开,将地名同行政区划名称用方括号括起来,并标以ns。如:

[珠江/ns 三角洲/n]ns [内蒙古/nsh 自治区/n]ns [长江/ns 流域/n]ns

[深圳/ns 特区/n]ns [香港/ns 特别/aq 行政区/n]ns

[3] 地名后有表示地形地貌的一个字的普通名词,如“江、河、山、洋、海、岛、峰、湖”等,不予切分,标注为ns。如:

地中海/ns 亚马逊河/ns 喜马拉雅山/ns 珠穆朗玛峰/ns

[4] 地名后接的表示地形地貌的普通名词若有两个或两个以上汉字,一般应切开,同时要将地名同该普通名词用方括号括起来。地名有缩略现象时,不再切分,并标以ns。

[台湾/ns 海峡/n]ns [华北/ns 平原/n]ns [帕米尔/ns 高原/n]ns,

[南沙/ns 群岛/n]ns [京东/ns 大/aq 峡谷/n]ns 横断山脉ns

[5] 地名后有表示自然区划的一个字的普通名词,“街,路,道,巷,里,町,庄,村,弄,堡”等,不予切分,标注为ns。如:

海珠区/ns 淘金路/ns 中关村/ns 长安街/ns

[6] 地名后接的表示自然区划的普通名词若有两个以上汉字,则应切开。也要将地名同自然区划名词用方括号括起来,并标以ns。

[复兴门/n大街/n]ns [蒋/nhf家/n 胡同/n]ns [陶然亭/ns 公园/n]ns

[7] 大小地名相连时, 将整个地名用方括号括起来,并标以ns。

[福建省/ns 漳州市/ns 龙海县/ns 榜山镇/ns 洋西村/ns]ns

1.5.3 族名(nn),表示民族或部落名称的专有名词。如:

汉族/nn 回族/nn 藏族/nn 朝鲜族/nn 俄罗斯族/nn 纳西族/nn 土家族/nn 1.5.4 团体机构名(ni),包括团体、机构、组织的专有名称。

[1] 团体、机构、组织的专有名称若作为名词登录在分词库中,则直接标注为ni。如,

联合国/ni 中共中央/ni 国务院/ni

[2] 大多数团体、机构、组织的专有名称一般是短语型的,较长,且含有地名或人名等专名,对于词表中没有收录的,按词语切分开来,暂不做整体标注。

中国/ns 中文/n 信息/n 学会/n

澳大利亚/ns 科学/n 与/c 工业/n 研究/v 组织/n

巴塞尔/ns 大学/n

北京/ns 图书馆/n

[3] 团体、机构、组织名称的专指性是必要的、孤立的,“大学、学院、图书馆、植物园”等只标为n,不标为ni。本次加工只考虑局部的上下文。但是在国际或中国范围内的知名的唯一的团体、机构、组织的名称即使前面没有专名,也标为ni。

联合国/ni 国务院/ni 外交部/ni 财政部/ni 教育部/ni 国防部/ni

1.5.5 其他专有名词(nz),包括以下类别。

[1] 包含专有名称(或简称)的交通线,标以nz;短语型的,不整体考虑。

津浦路/nz 石太线/nz 京/j 九/j 铁路/n

[2] 历史上重要事件不切分,标以nz。

卢沟桥事件/nz 西安事变/nz 五四运动/nz 第二次世界大战/nz 海湾战争/nz [3] 专有名称后接多音节的名词,如“语言”、“文学”、“文化”、“方式”、“精神”等,失去专指性,则应切分。

欧洲/ns 语言/n 法国/ns 文学/n 西方/n 文化/n

贝多芬/nhy 交响乐/n 雷锋/nhh 精神/n

美国/ns 方式/n 日本/ns 料理/n 宋朝/nt 古董/n

[4] 商标(包括专名及后接的“牌”、“型”等)是专指的,标以nz,但其后所接的商品仍标以普通名词n。

海棠牌/nz 洗衣机/n 牡丹III型/nz 电视机/n TU-154/nz 飞机/n

耐克/nz 鞋/n

任何词语都可能成为商标名称,此时该词语标注为nz。例:

联想/nz 电脑/n 鳄鱼/nz 皮包/n 张一元/nz 茶庄/n

[5] 以序号命名的名称一般不认为是专有名称。

2/m 号/q 国道/n 十一/m 届/q 三中全会/j

[6] 书、报、杂志、文档、报告、协议、合同等的名称通常有书名号加以标识,不作为专有名词。由于这些名字往往较长,名字本身按常规处理。

《/wp 宁波/ns 日报/n 》/wp 《/wp 鲁迅/nhw 全集/n 》/wp,

中华/n 读书/v 报/n 杜甫/nhh 诗选/n,

《/wp 大众/n 医学/n 》/wp 邓小平/nhh 文选/n 马关/nz 条约/n

收入词表的书名、报刊名等专有名称,则不切分。

红楼梦/nz 人民日报/nz 儒林外史/nz

[7] 当无法分辨专名的具体分类时,标以nz。

巴塞尔/nz 俱乐部/n

[8] 一般的命名活动常用引号表示,也不看作专有名称。

香港/ns 举行/v “/wp 庆/v 回归/v 公益/n 千万/m 行/v ”/wp 活动/n

2.动词(v)

表示动作、行为,人或动物的心理活动、生理状态,事物的存现、变化等,在句子中主要充当谓语。

2.1普通动词(v)

表示动作、行为,人或动物的心理活动、生理状态等,

2.l.1合成式

[1] 并列关系。双音节一般不切分,多音阶切分。例如:

买卖/v公平/aq 借贷/v双方/n

产/v供/v销/v一条龙/n 不/d能/v 管/v 卡/v 压/v

[2] 动宾关系。常用的双音节的组合,不予切分,但能扩展,不发生转义,切分。例如:

开会/v 跳舞/v 吃饭/v 念书/v

打/v人/n 做/v饭/n 开/v门/n 交/v钱/n

三音节以上的,一般切分;如是整体意义不能分割的作如下规定:

A.组成成分不能分离的不切分。例如:

滚雪球/v 破天荒/v 够意思/v

B.组成成分可以分离的,合时不切,标注v,分时分别标注各自的词性。例如:打交道/v——打/v了/u两/m回/q交道/n

[3] 状中关系

A.[副十动]常用的不切分,其它的切分。例如:

瞎写/v 胡闹/v 胡编/v 不/d顾/v 就/d去/v 乱/aq 批评/v 净/d打架/v

B.[形十动]常用的不切分,其它的切分。例如:

多/aq吃/v 少/aq说/v 好说/v、好买/v、好懂/v 严禁/v 以下几个这类组合整体为形容词,不切分,标注为aq:

好看/aq 难看/aq 好吃/aq 难吃/aq 好喝/aq 难喝/aq 好听/aq

难听/aq 好闻/aq 难闻/aq

B.[动十动]双音节的一般不切分,标注为v。三音节以上(含三音节)的一般切分,分别

标注v。例如:

飞跑/v 纵身/v跳/v到/p河里/nl

[4] 动补关系

A.[动十结(动、形、趋)] 常用的不切分,其它的切分。例如:

摘下/v 达到/v 看上/v 变成/v 打倒/v 推翻/v 闯过/v 提高/v 称为/v

写/v下去/v 听/v清楚/aq 走/v进去/v 打扫/v干净/aq

B.[动十于]动词不单独使用的不切分,其余切分。例如:

用/v于/p 发表/v于/p 出生/v于/p 寄/v希望/v于/p

有待于/v 近乎于/v 有志于/v 低于/v

2.1.2 附加式

见后接成分部分

2.1.3 重叠式

[1] AA式,不切分,标注为v:

坐坐/v 走走/v

[2] A一A或ABAB式作如下切分与标注:

看/v一/m看/v 研究/v研究/v

[2] AABB式,不切分,标注为v。例如:

遮遮掩掩/v 来来往往/v 磨磨蹭蹭/v 躲躲闪闪/v

[3] AAB式,一般不切分, 标注为v。例如:

招招手/v 帮帮忙/v 试试看/v 念念看/v

2.1.4 疑问式

[1] 无论“V不(没)V”式还是“V…不(没)V”式,一律切分。例如:

去/v不/d去/v 看/v没/d看/v 学/v汉语/n不/d学/v

[2] “是不是、有没有”分两种情况:

A. 作谓语,切分。标注方式如下:

她/r是/vl不/d 是/vl老师/n ?/wp

她/r是/vl老师/n不/d是/vl ?/wp

你/r有/v 没有/v 钢笔/n ?/wp

你/r有/v钢笔/n没有/v ?/wp

B. 作状语,不切分,标注为d。例如:

你/r是不是/d来/v一/m趟/q ?/wp

你/r有没有/d去/v过/u ?/wp

[3] A不(没)AB式,当A为语素时,一般不切分,标注为v。例如:

鞠没鞠躬/v 相不相信 /v

2.1.5 短语式动词

双音节的述补结构中间插入“得”或“不”一般应切分,分别标注。但去掉“得”或“不”前后两个字不能组成词的或去掉“得”或“不”后虽然是一个合成词,但其中至少有一个是语素,拆分后难以理解的,不予切分,整体标注为v.

走/v得/u到/v 走/v不/d到/v 看/v得/u见/v 看/v不/d见/v

对得起/v 比得上/v 行得通/v 容不得/v 形不成/v

2.1.6 语型式

凡能进入“不…不…”“爱…不…”等四字语型的,整体不切分,标注为i。例如:不痛不痒/i 爱搭不理/i 爱理不理/i

2.1.7 “所”的规定

除了“有所、所谓、无所谓”几个组合以外,“所”与动词组合要切分。例如:有所/d进步/v 所/u用/v办法为/p能力/n所/u囿/v 但以下词语已是成语,整体不切分,标注为i。

所见所闻/i 所思所想/i 无所不能/i 无所不为/i 无所不知/i

无所不在/i 无所畏俱/i

2.1.8 动词特殊用法

有一部分双音节动词,当它在句法结构中具有以下几种语法功能之一时,仍标为v

a. 作特殊动词“有”的宾语。

b. 充当了形式动词或其他准谓宾动词的准谓词性宾语。

c. 直接充当体词性短语的中心语。

d. 不加助词“的”,直接充当体词性短语的修饰语。

e. 作状语时。

f. 直接作主语或谓宾动词的宾语。

领导/n 对/p 这/r 件/q 事/n 有/v 考虑/v

进行/v 一/m 次/q 深入/aq 的/u 考察/v

予以/v 严肃/aq 处理/v

加以/v 整理/v

语法/n 研究/v 很/d 重要/aq

必须/d 改进/v 训练/v 方法/n

这个/r 研究/v 思路/n 很/d 新颖/aq

他/r 讽刺/v 说/v

主任/n 强调/v 地/u 指出/v

考察/v 是/v 必要/aq 的/u

我们/n 来/v 的/u 目的/n 就是/v 考察/v 考察/v

2.2 能愿动词vu

表示可能、意愿。标注为vu,如:

能够/vu 能/vu 肯/vu 应当/vu 可以/vu 可能/vu 情愿/vu 要/vu 会/vu

应该/vu 得(de2) /vu 敢/vu 想/vu 该/vu 愿意/vu 乐意/vu 许/vu 准/vu

配(不配)/vu 值得/vu 好/vu

[1] 能愿动词与其他成分组合需要切分。如:

能/vu行/v 可以/vu去/v 肯/vu帮忙/v 能够/vu完成/v 值得(de2)/vu钦佩/ [2] 在动词后表可能义的“得”要切出。例如:

吃/v得/vu 去/v不/d得/vu

2.3 趋向动词vd

表示动词实际的和抽象的趋向。

当单音节趋向动词表示抽象的趋向意义时切分,而当它们表示实在的趋向意义时不切分,与动词一起构成普通动词;双音节趋向动词单独切分,标注vd。如:

烘托/v出/vd 爱/v上/vd 掉下/v 滚进/v 说/v出来/vd 拿/v过去/vd

2.4系动词(vl)

表示关系的判断,如:

系/vl 为/vl 是/vl

3.形容词

表示性质、状态,在句中主要充当谓语、定语、状语和补语。

3.1 性质形容词 (aq)

表示性质。

[1] 颜色形容词标注为性质形容词。如:

红/aq橄榄绿/aq

[2] 形容词后接“地”作状语时,形容词仍标注为 aq 。

我们/r 应当/v 深入/aq 地/u 研究/v 语法/n

[3] 并列式形容词。双音节结合紧密不切分,其他切分。例如:

白嫩/aq 松软/aq 宽大/aq 瘦小/aq 窄小/aq 光洁/aq 透明/aq

蓝/aq 黑/aq 军团/n

广/aq 浩/aq 的/u 债务/n

[4] 性质形容词重叠形式ABAB式,切分。如:

热闹/aq 热闹/aq 亲热/aq 亲热/aq 轻松/aq 轻松/aq

[5] 颜色词后加“色”字,一般不切分。标注为n。例如:

红色/n 绿色/n 深蓝色/n 淡黄色/n 苹果绿色/n

[6]形容词的特殊用法

形容词具有以下3种语法功能之一时,认为它具有名词特点,但仍标注为aq。

a. 作了“有”的宾语。

b. 充当了准谓宾动词的准谓词性宾语。

c. 直接充当体词性短语的中心语。

d. 形容词直接作主语或谓宾动词的宾语。

他/r 有/v 很多/m 苦恼/aq

这里/nl 有/v 奥妙/aq

维护/v 环境/n 的/u 整洁/aq

交通/n 安全/aq 是/vl 第一/m 要/v 注意/v 的/u

需要/v 努力/aq

需要/v 进一步/d 努力/aq

3.2状态形容词 (as)

表示状态。

[1] 状态词的构词形式从音节形式上看,有AA、AB、AABB、ABB、A里AB、A不X(Y)等几种形式。

AA式:

悠悠/as耿耿/as赫赫/as 朗朗/as

AB(AB)式:

冰凉/as银亮/as细高/as崭新/as翠绿/as笔直笔直/as通红通红/as AABB式:

错错落落/as弯弯曲曲/as风风火火/as

ABB式:

白茫茫/as赤裸裸/as假惺惺/as脆生生/as火辣辣/as

A里AB式:

古里古怪/as糊里糊涂/as

A不X(Y)式:

酸不唧唧/as灰不溜秋/as

其它形式:

黑咕隆咚/as麻麻亮/as可怜巴巴/as老实巴交/as

[2] 由性质形容词重叠形式和“的”构成的状态形容词(as)。如:

好好的/as大大的/as早早的/as干干净净(的)/as快快乐乐(的)/as 当性质形容词重叠后,必须加“的”才构成状态形容词的,则“的”字不单独切分,其余可切分。如:

胖胖的/as 小孩/n 笔直/as 的/u 马路/n

糊里糊涂/as 地/u 犯/v 了/u 错误/n

这/r 孩子/n 长/v 得/u 胖胖的/as 他/r 穿/v 得/u 严严实实/as 的/u

阳光/n 金灿灿/as的/u

[3] 用肯定加否定的形式表示疑问的形容词的词组,一般切分开。例如:

容易/aq 不/d 容易/aq

但是如形成“A不AB”的不完整形式,则不予切分。例如:

容不容易/as 漂不漂亮/as

4. 区别词( f )

表示事物的区别性特征,只能做定语修饰名词或跟助词“的”组成“的”字结构。

[1] 单音节区别词作为一个切分单位,并标以区别词词性f。如:

雄/f 雌/f 男/f 女/f 单/f 正/f 负/f 副/f

[2] 单音节区别词+单音节名词或名语素组合,作为一个切分单位,并标以名词词性n。如:

雄鸡/n 雌象/n 女魔/n 古币/n 雄鸡/n 母鸡/n

[3] 双音节区别词或三音节区别词作为一个切分单位,并标以区别词词性f。如:

国有/f 人工/f 公共/f 国产/f 私人/f 公共/f 半自动/f

[4] 区别词+双音节以上(含双音节)词的组合,则切分。如:

女/f 司机/n 金/f 手镯/n 副/f 主任/n

慢性/f 胃炎/n 中式/f服装/n 袖珍/f词典/n 高速/f公路/n

[5] “共同、自动、长期、局部”除了作区别词修饰名词以外,还可作副词修饰动词。如:

共同/d协商/v 共同/f协议/n 自动/d进行/v 自动/f步枪/n

长期/d相处/v 长期/f合同/n 局部/d解决/v 局部/f问题/n

5. 数词(m)

表示数目和次序。

[1] 基数、序数、小数、分数、百分数不予切分,标注为 m 。例如:

一百二十三/m 120万/m 123.54/m,

第一/m 第三十五/m 20%/m 三分之二/m 千分之三十/m

“几”和“零”属于基本的系数词(或位数词),因此包含“几”和“零”的基数、序数、小数、分数、百分数也不切分。例如:

几十/m 人/n 几十万/m 元/q 第一百零一/m 个/q

[2] 约数,前加副词、形容词或后加“来、左右”等应予切分。例如:

约/d 一百/m 多/m 万/m 仅/d 一百/m 个/q 四十/m 来/nd 个/q,

三十/m 左右/nd 近/aq 20/m 年/nt 来/nd

[3] 两个数词相连的及带“成、上”加位数词不切分。例如:

五六/m 年/q 七八/m 天/q 十七八/m 岁/q 成百/m 学生/n

成千/m 群众/n 上百/m 人/n 成千上万/i 的/u 群众/n

[4] 数量词组应切分为数词和量词。例如:

三/m 个/q 10/m 公斤/q 一/m 盒/q 花/n

但如果整个组合有特定意义,不切分。例如:

二把刀/n 三只手/n

[5] 倍数的切分方法如下:

五/m倍/q半/m 十/m成/q 以上/nd 六/m折/q 多m

[6] 概数按下列规定切分:

(1)数字并列式,不切分。例如:

四五/m 个/q 三五/m 斤/q 百十/m个/q

(2)“好些、好多、好几、许多、一些”均不切分。例如:

好些/m人/n 好几/m个/q

[7] 相连的两个数字之间若插入顿号等标点符号,予以切分。例如:

五/m、/wp六/m年/q 七/m、/wp八/m点钟/nt 初四/nt 、/wp五/m

[8] 二字数词的重叠形式“AABB”为一个切分单位,并标注为数词m。如:

许许多多/m 多多少少/m

[9] 二字数词的重叠形式“ABAB”切分开,并标注为数词m。如:

很多/m 很多/m 许多/m 许多/m

[11] 天干和地支作序数词使用时,作为一个切分词单位,标注词性m。

[12] 带“几、数、两、若干、挂零、多、余”为数词m。如:

孩子/n几/m岁/q了/u

数/m人/n 数/m次/q 数/m十/m年/q

再/d看/v两/m眼/n

若干/m斤/q白菜/n

20 /m 挂零/m

五百/m多/m人/q

20/m 余/m 人/n

6. 量词(q)

表示事物的单位或动作的量。包括,常和名词连用的名量词,有个体量词(位、辆、张),度量词(克、千米),复合量词(人次、架次、吨公里),不定量词(点、些);以及动量词(次、回、趟)和时量词(天、小时)等。

[1] 各类量词均要切出。例如:

一/m本/q书/n 去/v一/m次/q 一/m阵/q乱/a叫/v

[2] 各国货币单位与数词结合时,标注为量词。如:

一/m欧元/q 3/m镑/q 5/m比索/q

[3] 复合量词均不切分。例如:

班次/q 版次/q 人次/q 千瓦/时/q

[4] 量词重叠不切分。例如:个个/q 一/m件件/q 一/m次次/q

7.副词(d)

说明动作行为或状态性质等所涉及的范围、时间、程度、频率以及肯定或否定的情况,在句中能且只能做状语。副词主要修饰动词和形容词。

[1] 副词一般单独切分。如:

很/d 十分/d 只有……才/d……即使……也/d……就/d 仅/d

曾经/d 统统/d 痛苦/a万分/d 聪明/a绝顶/d

透/d(糟透了)透顶/d(糟糕透顶)

常常/d 好好/d 原原本本/d

[2] 词组“越来越/d…”不切分,并标注为副词词性d。但“越/d…越/d…”格式中的“越”要切出。如:

越来越/d热/a 越/d走/v越/d累/a

[3]“是否”不切分,标副词。例如:

你/r是否/d 来/v 过/u ?/wp

8.代词(r)

起替代和复指作用,在句中替代名词、形容词、动词、副词等。

[1]“这、那”除了下列组合以外,均要切分。

这儿/r 这里/r 这么/r 这样/r 这般/r 这下/r 这个/r 这些/r 这

边/r 这时/r 这天/r 这会/r 这会儿/r 这点/r 这么点儿/r 这时候/r这

么些/r 这么样/r 这么着/r 这下子/r 那儿/r 那里/r 那么/r 那样/r 那般

/r 那个/r 那些/r 那边/r 那时/r 那天/r 那阵/r 那会/r 那会儿/r那么

点儿/r 那么些/r 那么样/r 那么着/r 那末/r

[2] “本、此、每、各、诸、某、该、此”后接语素字、以及结合紧密的单音节名词、单音节量词时,不切分,进行整体标注。其余的情况,这些代词单独进行切分,标注r。如:本校/n 本期/r 本厂/n 每户/r 每年/nt 此时nt 各地/n 某些/r

每/r 次/q 该/r /技术/n 某/r 部门/n 某/r 项/q

[3]“俺、吾、我、尔、你、您、她、他、它、咱、别”后接名词,一律切分。

俺/r 村/n 吾/r 镇/n 我/r 县/n 尔/r 辈/n 你/r 妈/n 她/r 家/n

他/r 方/n 咱/r 村/n 别/r 家/n 别/r 国/n

[4]“俺、你、您、她、他、它、咱”等后接“俩、仨”,一律不切分,标注词性r。

俺俩/r 你俩/r 他俩/r 俺仨/r 你仨/r 他仨/r

[5] 疑问词语一般不切分,标注词性r。例如:

什么/r 怎样/r 怎么/r 怎么样/r 怎么办/r 怎么着/r 怎么的/r 为什么/r 干什么/r

干吗(嘛)/r 哪儿/r 多少/r 多久/r 多会儿/r 什么样/r

但是,“为什么、干什么”不做状语时切分。例如:

这样/r 做/v 是/v 为/v 什么/ r 你/r 在/d 干/v 什么/r

9.介词 (p)

引介名词性成分,不能单独充任句子成分。介词单独切分,标注为p。

单音节介词后加“着”仍是介词,不切分,标注为p。例如:

为着/p 朝着/p 向着/p 对着/p 跟着/p 沿着/p 靠着/p 凭着/p 冲着/p

10.连词(c)

连接词、短语或句子,表示两者之间所具有的某种逻辑关系。连词单独切分, 标注为c。

[1] 并列连词,如:

和/c 及/c 与/c 则/c 并且/c 与其/c

[2] 从属连词,如:

因为/c 虽然/c 只要/c 如果/c 即使/c 以便/c

11.助词(u)

表示结构关系、动作的态、比况和语气。如:

的/u 地/u 得/u 着/u 了/u 过/u 似的/u 一样/u 等/u 等等/u 云云/u

了/u 的/u 呢/u 吗/u 吧/u 罢/u 了/u 啊/u

除一般常见助词外,以下形式也不切分,整体标助词u:

的话/u 罢了/u 来着/u 似的/u 也罢/u 不成/u 不可/u 得慌/u 来说/u

来讲/u 而言/u 而论/u 等等/u 之流/u 之类/u 之辈/u

但以下组合已成固定短语,不切分,标注为i:

一般来讲/i 一般而言/i 一般说来/i 总的来说/i 平心而论/i

相对来讲/i 反过来说/i

12.叹词(e)

表示应答呼唤或感叹。叹词单独切分,标注为e。如:

唉/e 哎呀/e 嗯/e 哼/e 喂/e

13.拟声词(o)

模拟事物或自然界的声音,在句中充当状语、定语、谓语或补语。可以独立成句或在句中作插入语。拟声词加“的”可以作定语加“地”可以作状语。拟声词单独切分,标注为o。如:哗啦/o 唧哩咕咚/o 扑通通/o 滴答/o 轰轰/o

14.习用语(i)

习用语是汉语中的固定用法,包括成语、惯用语、谚语、格言等。如:

[1]名词性习用语in:如:

男女老少/in 真才实学/in

[2]动词性习用语iv:如:

脱颖而出/iv 一意孤行/iv 开倒车/iv

[3]形容词性习用语ia:如:

行之有效/ia 求贤若渴/ia

[4]连词性习用语ic:如:

除此之外/ic 一方面/ic……,一方面/ic……一则/ic……二则/ic……

15.简称和略语(j)

简称和略语是汉语中专有名词或常用语的简略表达形式。一般具有地域性或行业性,有的简称、略语使用的范围很广,生命力很强。简称、略语在句中通常起名词、动词或形容词的作用。如:

[1]名词性简称和略语jn:如:

人大/jn 欧盟/jn 中小学/jn

[2]动词性简称和略语jv :如:

出入境/jv

[3]形容词性简称和略语ja :

短平快/ja

16.前接成分(前缀)(h)

前接成分是一种辅助的构词成分,加在词或语素的前面,构成合成词。

[1] 前接成分+语素或单字词,为一个切分单位。如:

阿嫂/n 阿爸/n 老虎/n 超人/n 非人/n

[2] 前接成分+二字及二字以上词,若与前接成分有逻辑联系的词语是与其相邻的,则构成一个切分单位,否则切分。如:

总书记/n 超音速/f 非公有制/f

非/h 国家/n 工作/n 人员/n 非/h 本市/r 注册/n 车辆/n

17.后接成分(后缀)(k)

后接成分是一种辅助的构词成分,加在词或语素后面,构成合成词。一般说来,只表示某种附加的或语法的意义。

[1] 语素或单字词+后接成分,为一个切分单位。如:

桌子/n 花儿/n 作者/n

[2] 二字及二字以上词+后接成分,若与后接成分有逻辑联系的词语是与其相邻的,则构成一个切分单位,否则切分。如:

学术界/n 准确率/n 年轻化/v 生产者/n

文艺/n 工作者/n

违反/v 纪律/n 者/k

[3]“语素或词+们”

表示名词复数的“们”单独切分,并标以k。如:

朋友/n 们/k 孩子/n 们/k

以下不再切分

人们/n 哥儿们/n 爷儿们/n 我们/r

18.语素字(g)

语素字指汉字字符集中一般不单独使用,又具有意义的汉字。如:

上v 大学n 时g

某些双音节离合词分开使用,其中一个是语素。例如

出差/v: 出/v 过/v 两/m 天/q 差/g

着急/aq: 我/r 着/v 了/u 很/d 大/aq 的/u 急/g

19.非语素字(x)

非语素字指汉字字符集中,单独使用时不具有意义的汉字,如:

葡/x、萄/x、尴/x、尬/x

非语素字单独在文本中时,切开。例如:

“/wp 鹌鹑/n ”/wp的/u “/wp 鹌/x ”/wp 字/n 怎么/r 读/v ?/wp

20.其他(w)

[1] 标点符号wp:包括句号、问号、叹号、逗号、顿号、分号、冒号、引号、括号、破折号、省略号、着重号、连接号、间隔号、书名号、专名号及西文特殊符号。

[2] 字符串ws:如:office/ws 、 100/m kg/ws

[3] 未知词wu:指在文本的处理过程中,无法归入上述类别的词,这些词往往要在后面的处理步骤中作进一步的加工处理。

现代汉语常用词表

现代汉语常用词表(草案) 1.范围 本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008 个,形成《现代汉语常用词表》,给出了词语的词形。 本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。 2.术语和定义 2.1 常用词 现代汉语普通话范畴中使用频率高、适用范围广的词语。 2.2 词形 本规范(草案)指词语的书写形式。 2.3 词频 在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。本规范(草案)指词语的出现次数。 2.4 频级 同一语料调查范围中词频数相同的为一个频级。本词表频级统计分两步:第步形成不同类型语料库的频级,即原始频级。第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。 3.研制原则 3.1 词和语兼顾原则 本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。 3.2 系统性和实用性兼顾原则 本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初

秋”“初夏”,但对于“‘晚'+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残'+季节”的词语,只收录“残冬”未收录“残春”“残 秋”“残夏”。 4.《现代汉语常用词表》(草案)说明 4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及 Google 网简体中文网页、百度网等常用网页上的使用情况。 4.2 本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年?2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约 7 000 万字的语料。总共 2.5 亿字。 4.3 本表共收录常用词语56 008个,包括单音节词3 181 个,双音节词语40 351 个,三音节词语 6 459个,四音节词语 5 855个,五音节和五音节以上词语 162个。表内条目按频级升序排列,频级相同的按汉语拼音音序排列。 4.4 本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音序排列,同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不代表词语的读音规范。

现代汉语“他”(CCL语料库)

现代汉语“他”(CCL语料库) 13、14世纪、、、轻一代的健康发展,教育必须从年轻一代身心发展的实际出发,符合他们身心发展的规律。有生产性的。教育还通过培养一定社会政治、经济所需要的人才,使他人具有当时社会要求的思想品德、知识技能,用以巩固和发展一定社会、、、进行政治理论、思想品德等的教育;人们无论进行何种生产劳动或其他种种活动,都需要强健的体力,这就要求增强学生的体质。处理好教育、、、无论是在中国还是在外国,古代思想家、教育家的教育思想,只是他们的哲学思想或政治思想的组成部分,没有形成一门独立的学科。纪捷克教育家夸美纽斯的《大教学论》(1632年)问世为标志。他号召把一切事物教给一切人,提出统一学校制度,主张采用班级授课制、、、主张采用班级授课制,扩大学科的门类和内容,普及初等教育。他从适应自然秩序的原则和感觉论出发,提出一系列教学原则,如直观性、、、、、、、自觉性积极性原则、系统性原则、循序渐进原则、量力性原则等。他认为人总是首先通过观察事物本身、从事物来源去获得知识,所以教学、、、、、、儿》、裴斯泰洛齐的《林哈德与葛笃德》、斯宾塞的《教育论》等。他们对教育学的发展都作出了重大的贡献。而教育学成为一门学科在大学、、、9、2、、、献。而教育学成为一门学科在大学里讲授,则始于德国哲学家康德。他于1776年在德国柯尼斯堡大学哲学讲座中开讲

教育学。最早以教育、、、、、、06年)。赫尔巴特以伦理学和心理学为基础建立了教育学的体系。他提出教育的目的在于培养"完美德性",强调运用严厉的方法管理儿童、、、、、、严厉的方法管理儿童,以建立秩序和纪律,保证教育过程顺利进行。他提出教学的教育性原则,认为教学是教育的主要手段,教育是教学目的、、、、、、教学是教育的主要手段,教育是教学目的。根据统觉主理学的原理,他将教学过程分为明了、联想、系统和方法四个阶段,后来被他的学生发、、、、、、原理,他将教学过程分为明了、联想、系统和方法四个阶段,后来被他的学生发展为"五段教学法"。赫尔巴特的《普通教育学》被西方教育、、、、、、校旧教育,明确提出在社会主义社会,教育要为无产阶级政治服务。他提出,要用共产主义精神教育青年一长,使他们成为真正的共产主义者、、、、、、为无产阶级政治服务。他提出,要用共产主义精神教育青年一长,使他们成为真正的共产主义者;青年要成为真正共产主义者,必须要用人类、、、、、、点阐述这教育基本理论问题的教育家。其代表作是《新教育大纲》。他认为:教育是上层建筑,同经济基础有依存关系;教育既受生产方式也、、、、、、师。这是因为教育对象是活生生的人,每个人都有自己的个性特点,他们的志趣、爱好、性格、才能千差万别。教师在进行教育工作时,既要、、、教育现象分复杂,与其他社会现象、自然现象有着密切的联系。同时,教育学又是在不断地综合、、、、、、现象、自然现象有

哪里有可以免费使用的大型英语语料库资源-外语教学与研究出版社

语料库相关资源 David Lee语料库研究书签 Bookmarks for Corpus-based Linguists (David Lee) https://www.doczj.com/doc/2a14035913.html,.au/~dlee/CBLLinks.htm (https://www.doczj.com/doc/2a14035913.html,/corpora) 常用语料库资源链接汇集(语料天涯) https://www.doczj.com/doc/2a14035913.html,/corpus/ 互动平台 https://www.doczj.com/doc/2a14035913.html,/forum/ 入门读物 专著 梁茂成、李文中、许家金,2010,《语料库应用教程》。北京:外语教学与研究出版社。Hunston, Susan. 2002. Corpora in Applied Linguistics. Cambridge: Cambridge. University Press. (世界图书出版社引进) Kennedy, Graeme. 1998. An Introduction to Corpus Linguistics. London: Longman. (外研社引进) 期刊论文 中国期刊网 EBSCO英文期刊数据库 书店可以买到的语料库相关书籍 Aijmer, K. & B. Altenberg (Eds.). 2004. Advances in Corpus Linguistics. Papers from the 23rd International Conference on English Language Research on Computerized Corpora (ICAME 23). Amsterdam: Rodopi. (世界图书出版社引进) Austermühl, F. 2001. Electronic Tools for Translators《译者的电子工具》. Manchester: St. Jerome Publishing. (外研社引进) Biber, Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad & Edward Finegan. 1999. Longman Grammar of Spoken and Written English. Longman Publications Group. (外研社引进) Biber, Douglas, Susan Conrad & Randi Reppen. 1998. Corpus Linguistics. Cambridge: Cambridge University Press. (外研社引进) Connor, U & T. Upton (Eds.). 2004. Applied Corpus Linguistics: A Multidimensional Perspective. Amsterdam: Rodopi. (世界图书出版社引进)

基于语料库的中国大学生英语口语表达中的“中式 英 语” 探究

基于语料库的中国大学生英语口语表达中 的“中式英语” 探究 摘要:本文利用大学学习者英语口语语料库,选取全国大学英语考试口语考试部分27名考生的口语语料库作为研究对象,对其中出现的中式英语进行标注和分类。作者根据统计结果,从词法和句法两个层面分析我国大学生英语口语中出现的中式英语现象,探讨汉语母语作为中式英语出现的主要原因及对英语口语的影响,最后对中国大学生的英语日常学习及口语水平的提高提出相关建议,为广大高校师生提供借鉴意义。 关键词:中式英语中国大学生口语语料库 1.引言 中国大学生在他们的年纪已经获得用汉语思考和表达的能力,形成用汉语思考和表达的习惯。绝大部分中国人都是在掌握了母语之后才开始学习英语的,所以在学英语的过程中,总是从中国人的思维角度思考,不顾西方的语言习惯,这就造成中式英语的大量存在。由于不符合英语的表达习惯,中式英语在人际交流中有时会引起误解和困惑。因此,它作为一种特殊的语言现象,应该引起人们的注意。在中国,高校在校学生占英语学习者的很大一部分,他们毕业之后就

由英语学习者转变为英语使用者,所以他们在学校学得如何,直接影响他们在工作岗位上用得如何。 从现状看,我国大学毕业生的平均英语水平不能满足各行各业越来越高的需求,尤其是在口语表达和人际交流方面。在现行教育体制下,高校英语教学过于强调语法和词汇的讲解,而对学生语言能力的培养和英语文化的教授则有所忽略。其结果就是许多中国大学生在学了十多年英语之后,只是善于记忆单词和语法规则;他们能在笔试中得高分,但是一张嘴就是中式英语。 《牛津英语词典》对中式英语作了如下定义:中式英语是一种汉语和英语的混合体;尤其是汉语使用者使用的或中英双语语境中的一种英语变体,典型地夹杂一些汉语的词汇和结构,或是汉语语境中特有的英语术语。 总的说来,中式英语是指一种不符合英语文化习惯的畸形英语,由某些受汉语思维方式和文化背景影响而将母语的语言规则运用到英语中的中国人说出或写出。 2.研究方法 2.1研究对象和数据收集 “大学学习者口语语料库”由上海交通大学的杨惠中教授主持完成。该语料库容量达70万字,来源是全国大学英语考试口语考试部分的真实音视频材料。它按照考试来源地、专业、考试成绩和对话题目,采取随机抽样的方法组

语料库

Background Information 语料库的概念 语料库是指按照一定的语言学规则,利用随机抽样的方法收集的有代表性的语言材料的总汇,它是语言材料的样本。 语料库通常指为语言研究机构收集的,具有一定容量的大型电子文本语料库。它是由口语语料和书面语的样本汇集而成,用来代表特定的语言或语言变体,或经过加工后带有语言学信息标注的文本的集合。 语料库的分类 按照语料库所涉及的语言种类,语料库课分为单语语料库,双语平行语料库(parallel corpus)和多语语料库(multilingual corpus); 按照语言涉及的题材,语料库可分为普通语料库(general corpus)和专门用途语料库(specialized corpus); 按语料的来源,又可分为口语语料库和书面语语料库; 按语料库是否被标注,语料库可分为生语料库或原始语料库(raw corpus)和熟语料库或标注语料库(annotated corpus) In linguistics, a corpus (plural corpora) or text corpus is a large and structured set of texts (now usually electronically stored and processed). They are used to do statistical analysis and hypothesis testing, checking occurrences or validating linguistic rules on a specific universe. A corpus may contain texts in a single language (monolingual corpus) or text data in multiple languages (multilingual corpus). Multilingual corpora that have been specially formatted for side-by-side comparison are called aligned parallel corpora. In order to make the corpora more useful for doing linguistic research, they are often subjected to a process known as annotation. An example of annotating a corpus is

当汉语语料库文本分词规范草案

973当代汉语文本语料库分词、词性标注加工规范 (草案) 山西大学从1988年开始进行汉语语料库的深加工研究,首先是对原始语料进行切分和词性标注,1992年制定了《信息处理用现代汉语文本分词规范》。经过多年研究和修改,2000年又制定出《现代汉语语料库文本分词规范》和《现代汉语语料库文本词性体系》。这次承担973任务后制定出本规范。本规范主要吸收了语言学家的研究成果,并兼顾各家的词性分类体系,是一套从信息处理的实际要求出发的当代汉语文本加工规范。本加工规范适用于汉语信息处理领域,具有开放性和灵活性,以便适用于不同的中文信息处理系统。 《973当代汉语文本语料库分词、词性标注加工规范》是根据以下资料提出的。 1.《信息处理用现代汉语分词规范》,中国国家标准GB13715,1992年 2.《信息处理用现代汉语词类标记规范》,中华人民共和国教育部、国家语言文字工作委员会2003年发布 3.《现代汉语语料库文本分词规范》(Ver 3.0),1998年 北京语言文化大学语言信息处理研究所清华大学计算机科学与技术系4.《现代汉语语料库加工规范——词语切分与词性标注》,1999年 北京大学计算语言学研究所 5.《信息处理用现代汉语词类标记规范》,2002年, 教育部语言文字应用研究所计算语言学研究室 6.《现代汉语语料库文本分词规范说明》,2000年 山西大学计算机科学系山西大学计算机应用研究所 7.《資讯处理用中文分词标准》,1996年,台湾计算语言学学会 一、分词总则 1.词语的切分规范尽可能同中国国家标准GB13715《信息处理用现代汉语分词规范》(以下简称为“分词规范”)保持一致。本规范规定了对现代汉语真实文本(语料库)进行分词的原则及规则。追求分词后语料的一致性(consistency)是本规范的目标之一。 2.本规范中的“分词单位”主要是词,也包括了一部分结合紧密、使用稳定的词组以及在某些特殊情况下可能出现在切分序列中的孤立的语素或非语素字。本文中仍用“词”来称谓“分词单位”。 3.分词中充分考虑形式与意义的统一。形式上要看一个结构体的组成成分能否单用,结构体能否扩展,组成成分的结构关系,以及结构体的音节结构;意义上要看结构体的整体意义是否具有组合性。 4. 本规范规定的分词原则及规则,既要适应语言信息处理与语料库语言学研究的需要,又力求与传统的语言学研究成果保持一致;既要适合计算机自动处理,又要便于人工校对。 5.分词时遵循从大到小的原则逐层顺序切分。一时难以判定是否切分的结构体,暂不切分。 二、词性标注总则 信息处理用现代汉语词性标注主要原则有三个: (1)语法功能原则。语法功能是词类划分的主要依据。词的意义不作为划分词类的主要依据,

可以免费使用的大型英语语料库资源

可以免费使用的大型英语语料库资源 https://www.doczj.com/doc/2a14035913.html,/time/ http://www.lextutor.ca/concordancers/concord_e.html 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.doczj.com/doc/2a14035913.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.doczj.com/doc/2a14035913.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.doczj.com/doc/2a14035913.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.doczj.com/doc/2a14035913.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.doczj.com/doc/2a14035913.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.doczj.com/doc/2a14035913.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.doczj.com/doc/2a14035913.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.doczj.com/doc/2a14035913.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.doczj.com/doc/2a14035913.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

国家语委十五科研重大项目-现代汉语语料库的建设及深加

国家语委十五科研重大项目-现代汉语语料库的建设及深加工 国家语委语料库科研成果简介 教育部语言文字应用研究所计算语言学研究室 一、国家语委现代汉语语料库介绍 语料库是存储于计算机中并可利用计算机进行检索、查询、分析的语言素材的总体。基于语料库的分析方法是对传统的基于规则的分析语言的方法的一个重要补充。语料库具有“大规模”和“真实”这两个特点,因此是最理想的语言知识资源,是直接服务于语言文字信息处理等领域的基础工程。近十几年来,美、英、法、德、日等国家都投入巨资,相继建立了大规模的语料库,如英国国家语料库BNC等。我国从1990年开始由国家语言文字工作委员会主持,组织了语言学界和计算机界的专家学者共同建立了大型的国家级语料库,即国家语委现代汉语语料库。 国家语委现代汉语语料库是一个大型的通用的语料库,以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务目标。国家语委现代汉语语料库作为国家级语料库,在汉语语料库系统开发技术上具有国际领先水平,在语料可靠、标注准确等方面具有权威性。国家语委现代汉语语料库面向国内外的长远需要,选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。 国家语委现代汉语语料库由人文与社会科学、自然科学及综合三个大类约40个小类组成。具体类别如下: 1.人文与社会科学类划分为8个大类和30个小类:(1)政法:哲学、政治、宗教、法律;(2)历史:历史、考古、民族;(3)社会:社会学、心理、语言文字、教育、文艺理论、新闻、民俗;(4)经济:工业经济、农业经济、政治经济、财贸经济;(5)艺术:音乐、美术、舞蹈、戏剧;(6)文学:小说、散文、传记、报告文学、科幻、口语;(7)军体:军事、体育;(8)生活。

国际儿童口语语料库录写系统的赋码原则初探

国际儿童口语语料库录写系统的赋码原则初探* 王立非1,刘斌2 (1.南京大学, 江苏南京 210093; 2.解放军国际关系学院,江苏南京 210039) 摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一, 对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库 的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建 立和研究具有借鉴作用和启示意义。 关键词:国际儿童口语语料库;英语口语语料;语料库语言学 中图分类号:文献标识码:文章编号:The CHILDES Corpus: Coding and Operation of the CHAT Tool WANG Lifei1, LIU Bin2 (1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China) Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China. Key words: CHILDES;English spoken corpus;corpus linguistics 1.引言 新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载(https://www.doczj.com/doc/2a14035913.html,/CHA T.html)语料。CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。 2.录写赋码系统的途径与原则

可以免费使用的英语语料库资源

可以免费使用的大型英语语料库资源 常用语料库资源链接汇集(语料天涯) http://202.204.128.82/sweccl/Corpus/ https://www.doczj.com/doc/2a14035913.html,/netprints/Corporalink/Corporalink.htm 1. BNC-World Simple Search ☆☆☆ https://www.doczj.com/doc/2a14035913.html,/lookup.html But no more than 50 hits will be displayed, with a fixed amount of context. 2. Brown, LOB, BNC sampler ☆☆☆ Here are a few links for searching corpora online, including monolingual corpora like Brown, LOB, and BNC sampler and also some parallel English-Chinese corpora. English: https://www.doczj.com/doc/2a14035913.html,/concordance/WWWConcappE.htm English: http://www.lextutor.ca/concordancers/concord_e.html Parallel: https://www.doczj.com/doc/2a14035913.html,/concordance/paralleltexts/ 3. Collins Cobuild Corpus Concordance Sampler☆☆☆☆☆ https://www.doczj.com/doc/2a14035913.html,/Corpus/CorpusSearch.aspx The Collins WordbanksOnline English corpus is composed of 56 million words of contemporary written and spoken text. 4. New BNC interface - VIEW: ☆☆☆☆☆ https://www.doczj.com/doc/2a14035913.html,/ 5. Samples (about 2 million words) from the British National Corpus: both written and spoken ☆☆☆ The Brown Corpus and many others - native, learner... Go to http://www.lextutor.ca/concordancers/concord_e.html 6. MICASE ☆☆☆☆ https://www.doczj.com/doc/2a14035913.html,/m/micase/ There are currently 152 transcripts (totaling 1,848,364 words) available at the site. 7. CLEC online concordancing ☆☆☆☆ https://www.doczj.com/doc/2a14035913.html,/corpus/EngSearchEngine.aspx CLEC收集了包括中学生、大学英语4级和6级、专业英语低年级和高年级在内的5种学生的语料一百多万词,并对言语失误进行标注。For an introduction of the corpus, its error tagset and some statistics, see https://www.doczj.com/doc/2a14035913.html,/baseinfo/achievement/Achievement1.htm 8. Business Letter Corpus Online KWIC Concordancer ☆☆☆

英汉语料库汇总

1.英语学习者语料库(书面语及口语)中国学习者语料库 CLEC(100万)广外、上海交大 2.大学英语学习者口语语料库 COLSEC (5万) 上海交大 3.香港科技大学学习者语料库 HKUST Learner Corpus 香港科技大学 4.中国英语专业语料库 CEME (148万) 南京大学 5.中国英语学习者口语语料库 SECCL (100万) 南京大学 6.国际外语学习者英语口语语料库中国部分 LINSEI-China (10万) 华南师大 7.硕士写作语料库 MWC (12万) 华中科技大学 9.平行语料库汉英平行语料库 PCCE 北外 10.南大-国关平行语料库南京大学 11.英汉文学作品语料库;外研社 12.冯友兰《中国哲学史》汉英对照语料库 13.李约瑟(Joself Needham)《中国科学技术史》英汉对照语料库 14.计算机专业的双语语料库;国家语言文字工作委员会语言文字应用研究所 15.柏拉图(Plato)哲学名著《理想国》的双语语料库 16.英汉双语语料库(15万对) 中科院软件所 17.英汉双语语料库:LDC香港新闻英汉双语对齐语料36294段以及香港法律英汉双语对齐语料31万句子对中国科学院自动化研究所 18.英汉双语语料库(100万),网上英汉语段电子词典及网上电子英汉搭配词典(1000万) 东北大学 19.英汉双语语料库(40-50万句子对) 哈尔滨工业大学 20.双语语料库(5万多对) 北京大学计算语言学研究所 21.对比语料库 LIVAC(Linguistic variety in Chinese communities) 香港城市理工大学 22.平衡语料库(Sinica Corpus);树图语料库(Sinica Treebank) 台湾 23.特殊英语语料库中国英语(China English)语料库河南师范大学 24.军事英语语料库(Corpus of Military Texts) 解放军外语学院 25.新视野大学英语教材语料库上海交通大学 26.汉语语料库汉语现代文学作品语料库(1979年,527万字) 武汉大学 27.现代汉语语料库(1983年,2000万字) 北京航空航天大学 28.中学语文教材语料库(1983年,106万8000字) 北京师范大学 29.现代汉语词频统计语料库(1983年,182万字) 北京语言学院 30.国家级大型汉语均衡语料库(2000万字) 国家语言文字工作委员会 31.《人民日报》语料库(2700万字) 北京大学计算机语言学研究所 32.大型中文语料库(5亿字,10分库) 北京语言文化大学 33.现代汉语语料库(1亿字) 清华大学 34.汉语新闻语料库;(1988年,250万字) 山西大学 35.标准语料库(2000年,70万字) 36.生语料库(3000万字);《作家文摘》的标注语料库(100万字) 上海师范大学 37.现代自然口语语料库中国社会科学院语言所 38.旅游咨询口语对话语料库和旅馆预定口语对话语料库中国科学院自动化所 39.北京大学汉语语言学研究中心的三个语料库

现代汉语常用词表

现代汉语常用词表(草案) 现代汉语常用词表(草案) 1.范围 本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008个,形成《现代汉语常用词表》,给出了词语的词形。 本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。 2.术语和定义 2.1 常用词 现代汉语普通话范畴中使用频率高、适用范围广的词语。 2.2 词形 本规范(草案)指词语的书写形式。 2.3 词频 在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。本规范(草案)指词语的出现次数。 2.4 频级 同一语料调查范围中词频数相同的为一个频级。本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。 3.研制原则 3.1 词和语兼顾原则

本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。 3.2 系统性和实用性兼顾原则 本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“‘晚’+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残’+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。 4.《现代汉语常用词表》(草案)说明 4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况。 4.2本表用来检测词频的语料库有:国家语委“现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年~2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约7 000万字的语料。总共2.5亿字。 4.3 本表共收录常用词语56 008个,包括单音节词3 181个,双音节词语40 351个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。表内条目按频级升序排列,频级相同的按汉语拼音音序排列。 4.4 本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音序排列,同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不代表词语的读音规范。

(完整版)托福口语语料库整理Fancy

Task 1\2 独立题戏精上身语音语调 Task1 多选一、三选一、建议类、优缺点 Task2 A or B, agree or disagree, good or not I’m a university student who has endless tasks to deal with. For example, i need to take classes, write papers, prepare for the TOEFL test and so on. Usually, i feel so tired and busy, so i need to find a way to let off my steam. Like last weekend, i ...,and i felt so relaxed. I could totally get away from the daily grind. What’s more, while doing sth, i can meet a bunch of people who share the common interests and hobbies. I mean, it’s easier for us to get along with each other. It can help me to expend my social network. 大城市、出国 Living in a big city can provide people with a lot of benefits. I’m a university student who studies in shanghai, i enjoy my life here in this big and modern city, because i can receive better education, experience new things, get more job opportunities and so on. All these can lead to a better life, right?Besides, the basic infrastructure in big city is perfect, because there are some museums, hospitals, schools,libraries and so on. 榜样力量 Yi Fan is a famous actor in my country, and i admire him a lot because he sets a good example to me. Once, i watched an interview about him on TV. In the interview, he told us that at the beginning of his career, he was little-known. However, he kept trying harder and harder and never give up. Now, he is a household star and everyone knows his name. His story motivates and inspires me all the time. 大学教育、商业 I’m studying in a top university, which provides me a platform to gain and enrich knowledge for my major. My major is business administration. In university, i have learned some related academic subjects, such as economics, management, e-commerce and so on. At the same time, i can do some internships in some business companies. All these can lay a solid foundation for my future career. What’s more, in university, i can make friends with some talented people who can give me a lot of inspiration. 三选一结尾套话 To tell you the truth, when talking about the other two things, i have absolutely no interest in them.

现代汉语常用词表(2)

现代汉语常用词表(草案) 1 .范围 本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语56 008个,形成《现代汉语常用词表》,给出了词语的词形。 本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。 2.术语和定义 2.1 常用词 现代汉语普通话范畴中使用频率高、适用范围广的词语。 2.2 词形 本规范(草案)指词语的书写形式。 2.3 词频 在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。本规范(草案)指词语的出现次数。 2.4频级 同一语料调查范围中词频数相同的为一个频级。本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。 3.研制原则 3.1词和语兼顾原则 本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。 3.2 系统性和实用性兼顾原则 本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如

以表示季节为根词的一些词,全部收录它的加缀词“初春” “初冬”“初

秋”“初夏”,但对于“‘晚‘+季节”的词语,只收录“晚春”“晚秋”,未收 录“晚冬”“晚夏”;对于“‘残‘+季节”的词语,只收录“残冬”未收录“残 “残秋”“残夏”。 库、 华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以 及Google 网简体中文网页、百度网等常用网页上的使用情况。 4.2本表用来检测词频的语料库有:国家语委 “现代汉语通用语料库”中经分 词标注的4 500万字语料、《人民日报》2001年?2005年约1.35亿字的分词标注 语料和厦门大学的现当代文学作品语料库约 7 000万字的语料。总共2.5亿字。 4.3本表共收录常用词语56 008个,包括单音节词3 181个,双音节词语40 351 个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。 表内 条目按频级升序排列,频级相同的按汉语拼音音序排列。 4.4本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音 序排列, 同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不 代表词语的读音规范。 春” 4. 《现代汉语常用词表》(草案)说明 4.1本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料 厦门 大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新

语料库

语料库、学习者语料库与外语教学 ① □李文中 0.概述语料库(corpora )是应用计算机技术对海量自然语言材料进行处理(包括预处理、语法自动附码、自动句法分析、语义分析等)、存储,以供自动检索(retrieval )、索引(concordance )以及统计分析的大型资料库。它是按照明确的设计标准为某一具体目标而建立的语言资料库(Atkins and Clear 1992:5,引自G ranger 1996)。如果作进一步区分,还可以把语料库与大型文档资源库(text archives )区别开来。前者具有明确语料选择比例和设计标准,而后者更注重语料容量和语料来源的多样性(Edwards 1993)。所谓自然语言是指任何人类在童年习得的语言(Leech 1987:1)。使用这一概念的意义在于,把人类自然语言同人工编制的人工语言(artificial languag 2es )(如C 语言、BASIC 、JAVA 、FORTRAN 等)区别开来;在对语言描述和研究中,自然出现的语料不同于研究者为某一目的而引出的材料(elicited data )。语料库的研究对象是人类语言自然运用(performance ),而不是内在语言能力(com petence )。语料库的应用主要在于以下几个方面:1)自然语言处理(包括自动语言识别、自动语法附码、句法分析、语义分析、知识表达、机器翻译等)。基于语料库方法可以提供有关语言结构和特征的可靠信息,而这些信息是内省法研究或心理测验获取的信息所不能比拟的。语料库是人们广泛深入理解语言所必需的工具(Edwards 1993,Leech 1991,1992,Svartvik 1992)。2)词典编纂。语料库能够提供更为完备和详尽的关于词义和词汇搭配信息(K jellmer 1984,Sinclair 1982,引自Edwards 1993)。3)语言学习与语言教学。早在本世纪60年代,美国Brown 大学创建了最早的语料库BROW N C ORPUS ,容量为100万词,广泛搜集了当时美国英语各种文体的语言材料。与此相呼应的是70年代初在欧洲同样容量的LOB 语料库,搜集了同年代的英国英语材料。基于这两个语料库,开展了大量的重要研究,研究的重点是对英语语法的描述和分析(Rundell 1996)。另外,70年代初还建成了50万词的英语口语语料库London 2Lund C orpus (LLC )。但对于大规模的词汇研究(如词典编纂)而言,100万词的容量显然不能满足要求。80年代初,由Birmingham 大学John Sinclair 主持建成了专门用于词典编纂的大型语料库BCET (Birmingham C ollection of English T exts )。该语料库最初容量为730万词,到80年代中期,其迅速扩充为2000万词。与此同时,朗曼公司词典部开始建立自己的语料库Longman 2Lancaster 语料库,容量达到3000万词。在我国,上海交通大学杨惠中教授在80年代末主持建成了容量为300万词的科技英语语料库(JDEST ,1997年扩充至360万词),主要用于大学英语教学大纲制定和教材开发。80年代建成的语料库还有Lancaster 的英语口语语料库(ESC ,1984—1987)、用于跨文化比较的PIXI 语料库。90年代初,包含英国书? 15?外语界1999年第1期(总第73期)①本文在写作过程中,承蒙Sylviane G ranger 教授惠寄有关资料以及对有关问题的讨论。C ornelis H.J.Vaes 寄来International Journal o f Corpus Linguistics 以供参考。M ike Scott 寄来有关索引软件M icroC oncord 使用手册。导师杨惠中教授阅读了初稿并提出了修改意见。在此一并致谢。

相关主题
文本预览
相关文档 最新文档