当前位置:文档之家› 汉语方言自然口语语料库建设的几个基本问题

汉语方言自然口语语料库建设的几个基本问题

语料库有语音语料库和文本语料库。口语语料库属语音语料库。口语语音可以来自文本朗读的言语、有构思的流畅言语,以及自然话语。语音语料库在语言教学、语言研究、多语通讯、信息服务、语音识别、说话人识别、濒危语言及口传文化保存和开发等领域,有着广泛的应用。因此,国际上十分重视语音语料库的建设与研发。例如,美国宾夕法尼亚大学的语言数据联盟(LDC )发布了许多不同规模的语料库,其中就有我国的汉语普通话、粤语语音库。新世纪开始以来,我国汉语口语语音语料库建设取得了长足进展。北京语言大学在上世纪80年代采录的北京口语材料基础上建成了“北京口语语料库”,[1]现已对社会开放。中国社会科学院语言研究所在2005年启动了“现代汉语口语语料库”[2]项目。中国科技大学讯飞语音公司[3]开发的汉语语音库在近10年内已市场化。近几年,国家语言文字工作委员会启动了“中国语言资源有声数据库”工程,江苏省初步建立了本省汉语方言语音数据库,[4]上海市、北京市、辽宁省、广西壮族自治区语委也先后启动了有声数据库的建库,一些高校也开始研发汉语方言的口语语料库。

值得注意的是,台港地区的高校和科研机构,上世纪90年代中后期就实施了建立汉语方言口语语料库的计划。国立政治大学建立了包括国语(普通话)、客家话、闽南话的“汉语口语语料库”。[5]香港大学也完成了“香港粤语口语语料库”的基本库建设。台湾“中央研究院”语言研究所于2005年启动的“新世纪语料库———多媒体的呈现与典藏”工程,包括“现代汉语主题对话语音语料库”、“现代汉语连续口语对话语音语料库”及“现代汉语地图导引口语语音语料库”三个子库,目前已完成音频语料的转写和标注。[6]这些汉语口语语料库建设,对于汉语教学与研究、语言资源的数字化和语言信息服务、语言工程、语言学科的创新、语言文化资源的保护和利

汉语方言自然口语语料库建设的几个基本问题*

范俊军

*本文系国家社科基金重点项目“中国濒危语言有声语档建设的理论体系、实践规程及技术准则研究”(12AYY002);国家语委十二五科研规划项目“中国濒危语言有声资源采集、集成、传输技术研究”(YB125-11)的阶段性成果。

作者简介范俊军,暨南大学汉语方言研究中心研究员(广东广州,510632)。

[摘要]汉语方言自然话语语料库建设是国家语言资源建设的重要组成部分,它在语言教学研究、多语

通讯和信息服务、语言识别和说话人识别、口传文化传承和保护等领域,有着广泛的应用。汉语方言自然口语语料库的价值,在于话语语料原生态属性。语料库的建设应以语料的多用途为目的。话语语料应体现体裁和题材的广泛性和多样性,并具备一定的规模量级。探索多快好省的自然话语采录方法,建立规范易行的标注系统,是汉语方言自然口语语语料库建设的保证。汉语方言自然口语语料库,要适应移动互联网时代信息技术的更新与发展,用面向广大用户的开放理念研发服务于社会公众的信息平台。

[关键词]汉语方言自然话语语料库

〔中图分类号〕H08〔文献标识码〕A 〔文章编号〕1000-7326(2013)

02-0153-06

2013年第2期

用,发挥了重要的推动作用。

不过,就我们见到的国内文献而言,公布已建或在建的汉语方言语音数据库或语料库的至少有10多家。了解近5年来教育部、国家社科项目以及自然科学基金项目,有关方言口语语音数据库或语料库也有10多项。然而,多数课题并未见到公开发布或面向用户使用的语料库或数据库电子成品。目前能在网上检索的,仅有台湾政治大学的“汉语口语语料库”,江苏省语委的“中国语言资源有声数据库(江苏库)”,后者是语料主要是字词单句等文本朗读言语,未见自然话语,严格说它不属于口语语料库。总体看,与文本语料库相比,口语语料库的语料规模较小。汉语方言口语语料库建设十分薄弱,方言口语语料主要是文本朗读言语和构思言语,如广播影视材料或既定话题的对话;而自然话语语料库则存在体裁少、题材窄、时长短、质量低等种种不足。造成汉语方言口语语料库建设严重滞后的局面,有其客观的原因。这就是,口语语料库建设,无论是语料的采集还是语料的处理和标注,其难度远远超过文本语料库,更何况是汉语方言自然话语语料库。当然,这也有主观方面的原因,即:我国汉语方言数据库或语料库的建设主要以个人学术旨趣为目的驱动,从而使研究成果存在诸多缺陷,比如只在十分狭小范围为极少数人使用,有的甚至就不能使用。

语言资源的价值在于它的原生态话语。汉语方言口语语料库建设,如果背离了“话语为中心”的原则,其质量和价值就大打折扣。鉴于目前国内汉语方言口语语料库建设仍然十分薄弱,许多理论和实践问题尚未得到应有的重视和研究解决,以下就几个基本问题进行探讨。

一、关于多用途为目的驱动

汉语方言自然口语语料库建设,首先应明确语料库的服务方向和服务对象问题。方言资源的存在形式就在于蕴含生动的表达、丰富的地缘知识和文化内容,与广大群众生活密切相关的原生态话语。建设汉语方言自然口语语料库的首要任务就是,全面挖掘、记录、保存、传播人民群众在生活中创造的优美的言语表达和丰富的知识文化传统。这就是说,为群众的语言生活服务,是方言口语语料库建设的基本宗旨和根本目的。明确了这一目的和宗旨,才能突破狭隘的学术旨趣,从广大用户对语料库的多种应用需求出发,考虑语料的采录、集成、整理、标注,以及技术工具研发和信息平台的设计。

语料库应考虑哪些潜在的多用途需求呢?我们认为,方言学习、传承和传播,是首先应考虑的语料库用途。语言是最重要的思维工具、交际工具和人类知识经验传承的载体。只有学习和掌握了一种方言,才谈得上应用和使用,才能谈得上传承和传播方言和文化。保护和促进人类语言文化多样性的关键就在于,使所有语言和文化都得到持续的学习与传承。从这个高度来看,方言口语语料库应当能够向方言群体提供学习、传播和传承自己母语方言所需要的各种语料。这是一项基本的要求。

其次,方言口语语料库,应当能满足对方言的语言学研究,推动汉语方言学和普通语言学的理论和实践创新。方言的生命力在于自然话语,其深奥和精妙之处也在话语。汉语方言学研究,如不能全面深入地调查和研究话语,就不可能有真正的理论和实践创新,形成自己独特的学科魅力,也就始终摆脱不了音韵学附庸的地位。事实上,汉语方言学几十年来一直没有突破字、词、句调查记录和音韵分析的樊篱,很少人花精力调查和记录自然话语,因而话语语料十分匮乏,方言的话语研究几乎是空白,方言研究总有一种只见树木不见森林之感。这是汉语方言学的软肋。因此,汉语方言口语语料库,要为方言发音语音、声学语音、听觉语音、字词语音和音韵分析提供语料,为方言语法(句法)研究、语用研究、话语分析、韵律分析、语意关系和言语行为分析,提供丰富的话语语料。为了适应广泛的语言学研究用途,口语语料就应当尽可能全面反映方言事实和方言实践。语料库还应有益于全面开展国家共同语和方言的比较研究,为科学制定国家语言规划和语言政策,提供参考。

复次,汉语方言自然口语语料库,应当能够适应基本的语音应用工程需要。例如,语言通讯的基本测试语料,语音合成的基本分析语料,或者作为语音识别或说话人识别的测试语音语料。此外,语料库应当能够为语言个性特征的提取,例如特征发音、特征词、特征语法和话语标记等,提供足够的语料。同时,语料库对于维护国家的语言信息安全,提供资源保证。

最后,汉语方言自然口语语料库,应当满足文化学、人类学、艺术学研究对地域方言材料和知识内容的基本需求,成为民间传统文化的典藏库。同时,为社会公众了解语言国情,普及语言学知识,提高公众的语言资源意识,认识语言多样性与文化多样性的关系,弘扬优秀的传统和地域文化,发挥作用。

二、关于语料的自然性

自然口语语料库的核心就是,语料必须是自然的口语,即与文本无关的非朗读话语,或即时话语。地域方言大都以自然话语的形式存在。从目前能见到的口语语料库(包括汉语方言和民族语言)来看,口语语料的自然性表现不足,体裁和语体覆盖面比较狭窄,话语内容偏重预先设计,或囿于脚本引导主题范围。这类话语固然也一定程度地反映了语言事实和语言实践,但它属准自然话语。

自然话语并不一定就是简单、重复、不连贯的话语,也未必就是随意的话语。话语的自然与否,与语言情景和语言行为密切相关。自然话语也包含多种体裁和风格。总体来看,自然话语在形式上较多表现为两人对话或多人会话,如:聊天、争吵、打电话、问候、商议、询问等等。但除此之外,还有其他多种表现形式,如单方叙述、讲述、自语这类独白型话语,演唱型话语,仪式中的套话,程式演示的解说,宣讲和报告型话语,演唱型话语,童谣、谜语、玩笑等娱乐型话语,还有行话、暗语等等。

当然,自然话语有时也会因为话语事件受其他因素的干扰,而显得不自然。比如,话语事件的参与人因知道有人现场录音,可能有意识地在发音、节奏、用词、语气、情感等方面背离或隐藏自己的语言表达习惯和言语行为习惯。不过,如果话语采录者能够顺应话语情景,是可以通过不为对方知觉的言语引导,使话语回复到自然状态的。因此,话语语料采录中必须采用各种方法手段,确保话语的自然性。

三、关于语料的全面性和充分性

作为方言口语语料库的语料,必须全面反映方言共时的语言事实和语言实践,系统反映对象方言独特的知识和文化内容,即以方言地域自然社区生活为本的传统环境知识。这是对语料采录的基本要求。“全面性”有两层含义。一是语料样本应包括自然语言生活状态下各种体裁和语体的话语,覆盖方言社区大多数成员的典型性言语。如:既有个人陈述和独白式的话语,也有对话、会话式话语,有礼仪式、游戏式、演唱式话语,有正式话语,有随意语体的话语……等等。一是,话语的内容必须覆盖方言社区语言生活的各个领域,如自然环境、生产劳动、地域历史、建筑、技艺、风俗、饮食、狩猎、商贸……等等,同时覆盖各种人群,要覆盖自然生活中尽可能广泛的事件、行为实践内容题材。话语体裁的多样性,可以遵循开放语档联盟的《OLAC话语类型词汇》标准,采录各种体裁样本。

语料的充分性要求语料库的语料必须达到一定的量级。口语语料库固然可以基于库的可扩充特性在今后不断进行语料的补充和扩容;但是作为一个完整的方言口语语料库的体系框架,没有基本的量级规定,是无法体现全面性的,也难以对今后的持续性语料扩充起到切实的规范和引用作用。语料量的充分性,用两项指标衡量:一是绝对录音时长,二是有效话语的词次。两项指标应综合考虑。自然状态的方言口语的有效话语词次和绝对录音时长的比值,因不同的体裁而有所不同。根据我们的采录经验,平均每分钟大约25个字(音节)(话语中的停顿、间隔、动作行为占用了不少空白时间),按1个词2个字计算,日常自然话语词次和录音时长的比值大约是每分钟13个词。方言自然口语的生语料量,最低应达到5万字(约2万词次),否则很难保证体裁和题材的覆盖面。照此计算,生语料的录音时长应不低于13个小时,随机录制的毛语料应达700小时。因为没有一定的录音时长,就不可能获得所要求的有效词次。这也是为什么现有的口语语料库,采录语料时多数最终主要采用人工预先设定主题的原因。这样做固然可以在减少绝对录音时长的情况下,获得更密集的有效词次,但它也在一定程度上牺牲了语料的自然性。

四、关于自然口语语料的采录方法

自然生活中的话语,无论是话语体裁还是表达风格,都丰富多彩。单纯某种方法难以获得超大时长、有多种体裁和丰富内容题材的有效话语。方言区群众的许多精彩话语表达和话语事件,转瞬即逝,可遇不可求。因此,如何多快好省地采录话语音频材料,是汉语方言自然话语语料库建设必须解决的重大实践问题。根据国外口语语料库建设的成果和经验,结合笔者近年对濒危语言口语记录的实践摸索,初步总结出以下几种可行方法。

1.专家情景介入法。此方法的操作程序是:组织5—6名语言调查专业人员,在方言社区滞留10天左右,参与社区的日常生活情景,观察各种话语交际行为、发现各类话语事件,实时进行隐匿录音。由于专业成员事先进行过话语理论和采录技能训练,因而能够自觉地及时捕捉生活现场发生的话语,抓住时机引发话语事件。这种方法采录的自然话语,含词量较高,话语的事件特征和行为特征比较明显,内容也较为实在和集中,冗余的音频较

少;能够在1—2周的时间内获得上百个小时的情景语料,基本上可以达到10000有效词次。当然,此方法也有局限性。首先,专业人员不可能长期驻留方言社区,因而不能获得足够时长的录音材料。其次,专业采录人员人数有限,1人不可能同时置身几个话语事件情景之中,而且事件往往是随机的,自然也会错过其他更有内容和意义的话语事件。复次,方言社区日常生活中许多话语行为和事件的发生,具有季节性或时间性。最后,有些话语事件无法预料,比如婚丧红白事,也许一年或两三年才发生一次,即使发生,也未必刚好被采录人员碰上。可见,这种方法不能保证采录的自然语料涵盖足够的语体体裁和题材内容。

2.方言社区集群自录互录法。操作程序是:从方言社区不同年龄段的群众中选出20来位,由课题团队组织进行语料录音基本操作的集中培训,发给他们操作简便的数字录音笔,集中1周左右时间,让这些村民对自己参与的话语事件和言语行为自录和互录。这种方法与第1种方法相比,在同等时间内可以获得更多的录音时长以及更广的题材。澳大利亚墨尔本大学领衔的巴布亚新几内亚土著语言记录项目(BOLD:PNG),主要就是采用这种方法。[7]不过,各人的反应能力和操作能力参差不齐,录音质量也难免良莠不齐,且容易出现冗余音频,因而采录前培训以及采录中及时给予检查和指导非常重要。

3.特定方言家庭和个体跟踪法。操作程序是:在方言社区选择若干语言表达能力较好的村民或家庭,随身配带迷你型数字录音笔,进行间隔性的全天候跟踪录音。这种方法,可以获得有效词次比较密集的话语语料,可以长期采录,其缺陷是体裁和话语内容只限于这几位村民参与的交际场景。

4.方言社区场所点设定法。操作程序是:事先进行调查了解,在方言社区居住村(点)中,选出村民经常自发聚集、串门、聊天的家庭或公共场所,安排固定的村民,对该场所发生的话语事件进行全程录音。例如,在村委会干部中固定1人,凡是遇到村委会开会议事或上面来人检查调研,立即开启录音机。某人家门口是村民劳作之余经常聚集的地方,就可以安排该户的人进行固定录音。这种方法的好处是,可以长期采录,话语内容较丰富,覆盖的人群较广。

5.志愿者跟踪发现法。操作程序是:在方言社区物色2—3位有一定文化程度,对方言调查工作有兴趣、有所了解的村民(如,比较熟练的发音合作人),教给他们基本的方言知识,并进行话语调查采录的操作培训,配给调查采录设备,把他们纳入课题工作成员,付给工资,使他们安心驻留当地,不外出打工,专门进行话语的采录。志愿者既是采录工作的直接参与者,也是实地采录的联络员,一旦村里要举行重要活动,可以及时通知课题组赶赴现场。此外,志愿者还是口语语料文本翻译的得力助手。

6.内容主题引导对话法。操作程序是:事先了解近2年来方言社区发生的事件,社区成员普遍知道的周边地区的重要事件,或大电视上的新闻事件,在此基础上设计若干主题。然后,从方言社区抽取不同年龄段的村民,两人1组,就各自熟悉或关心的主题或事件进行自由对谈,同步进行录音。这种方法的好处是,话语内容比较丰富,话语表达较为流畅。不过,有的人可能因为知道现场录音,每次说话可能经过思考和犹豫,使得谈话不够自然。台湾政治大学的汉语口语语料库主要采用此法采录语料。[8]

7.通讯引导对话法。操作程序是:甲方预先设计几种情景或话语行为,通过手机或电话,引导乙方在不知的情况下完成话语事件的采录。这种方法灵活性强,获得的话语内容也多样化。不过这种方法,要求话语引发者具有延续谈话的能力,实时录制对方的话语,不容易获得较好的音频质量。

8.地图引导对话法。这是国外口语语料采录的常用方法之一。情境设计上乃为地理任务导向对话;发音人双方熟识,一方持详细地图,另一方持删减了一部分路名和建筑物名以后的简略地图,由持详图方依序引导持简图方至三个指定目的地。台湾“中央研究院”语言研究所的“新世纪语料库”计划,就专门有这种方法采录的语料。[9]

9.媒体节目筛选法。有的方言有固定的广播电视节目,其中包含不少自然话语。对于这些方言,可以选取一些节目内容,筛选出一定的自然话语,作为语料的补充。美国的语言数据联盟发布的汉语普通话和粤语音库,主要是媒体口语语料。

上述9种方法在实际语料采录中必须兼顾使用。根据我们的实践,上述专家短期现场参与话语事件、社区志愿者持续实地捕捉话语事件这两种方法比较高效。

五、关于音频语料的规模和标注系统

口语音频(视频)语料的剪辑、文本注音转写、音频单位切分、语音单位分割、特征标注,几乎全部靠人工才能完成。由此可见,汉语方言口语语料库建设,在具体实施过程中,转写标注方式和策略是否有效可行,显得尤其重要。

要使语料库适应前述的用途需要,汉语方言自然口语语料库的音频语料,应具备多大的规模,进行多少层次的标注?第一代文本语料库的语料规模一般都在百万词次以上。通常,口语语料库以有效转写音节和录音时长计算比较合适。作为一个单语的口语平衡语料库,究竟以多少语料规模为下限,目前国际上并没有一个通用的标准。从理论上说,录音时长越多越好。但考虑到口语的特殊性以及口语语料采录的难度,口语语料库的语料规模不能简单地和文本语料库比附。台湾中央研究院新世纪语料库“现代汉语主题对话语音语料库”录制了30组对话,共11小时录音时长,转写后总字数为20万。①“现代汉语连续口语对话语音语料库”录音时长25.6小时,平均每组对话大约50分钟,转写字数约12万。“现代汉语地图导引口语语音语料库”录音时长5小时,30组对话,平均每组对话时长约10分钟。这3个库中,实际上只有“地图引导口语语音语料库”属于自然话语语料库。前面两个语料库的对话语料,都是设定话题情景固定场所的2人或3人谈话。话语体裁范围比较狭窄,这是显而易见的。

根据我们的实践经验,随机采录的日常生活中各种场合的情景话语原始语料,须经过剪辑处理以后才能成为语料库的生语料。原始语料与生语料的比例,大约是50:1,也就是说,要获得1小时的生语料,一般需要50小时的随机话语语料。在各类体裁的自然话语中,个人讲述(独白)类型的话语,如讲故事、介绍事件经历、工艺程序或仪式话语,词语的密度相对要大一些,有效音节密度大约是每分钟37个字(含语气词、缀音);而日常生活中的随机对话,词密度则较低,大约为每分钟17个音节,两者均衡折合,大约是每分钟25个有效音节。

音频语料的转写,就是将话语的各种声音,用同步时序的文字或书面符号对应表征,成为可以阅读的文本。汉语方言话语语音数据的转写,一般至少有三类文本:一是音频语料的同步汉语对译(一般是词对应)。这里还有一个方言用字问题。目前我国的汉字大字符集中虽然字数较多,但仍然有许多方言区民间的俗字没有收录,因此要保证语料库中方言用字的信息处理,还需要研制特定的方言字库。二是音频材料的同步音标注音。由于国际音标是键盘字符以外的特殊字符,一般用户并不熟悉,语料库对语料的转写大都采用ASCII的字符来表征,国际上针对国际音标的语料标注,制定了SAMPA规范,台湾针对汉语和闽南语,制定一个SAMPA-T;中国社会科学院语言研究所前几年根据几种汉语方言的音系特点,制定了SAMPA-C,但还不是国家标准,考虑的方言种类偏少。因此,必须在全面检视汉语方言各种音系的基础上,拟定通用的SAMPA-C。三是转写汉字文本的汉语拼音注音。

语料标注,就是采用一套表征话语语言学特点或语意特点的符号,在转写文本序列中做标记,便于计算机对话语检索、统计、分析。标注也叫附码。附码的丰富程度和精细程度,取决于对口语话语的分析深度。例如,话语中的每个词的分割、词性、时态、语态,对话中的话轮、中断、背景声、停顿、韵律、语气、情感,每句话的句法结构,等等,都可以标注。标注得越丰富越精细,对数据的挖掘就越深越广。所谓标注系统,就是表征话语各种特征的符号集。目前国际上比较权威的标注系统有英语国家语料库(BNC)[10]的标记系统、美国圣巴巴拉大学的美国英语口语语料库的标示系统、[11]美国宾夕法尼亚大学语言数据联盟的标记系统,[12]这些标记系统大同小异。台湾中研院的新世纪语料库也有一套话语标记系统。国内北京语言大学的北京话口语语料库,也拟订了一个初步的标记符号集。

方言口语语料库的音频语料,应标注多少层次?标注可分为两种:一是基本标注;二是附标注。基本标注应包括词类、时间戳、话轮记号;至于附标注,可以说无界限,语音、词汇、语法、语义、语用等等特征都可以标注;语音还可以细致到音节、音素、韵律、音步、语调等等。关于标注的层次问题,读者可以参阅John W.Du Bois和美国英语口语语料库的相关研究。

汉语方言自然话语语料库的语料标注层次,应高于基本标注。1分钟的生语料,经过音标注音、词对译、分

①照此计算,语速为每秒5个字(音节),这在日常对话中,即使非常熟练的说话人,也是不可能的。因此,转写后的总字数应该包括拼音转写、翻译等文字;而不是与话语语音同步的音节(字)数。

词断点时间标记、句子断点时间标记、说话人标记、非言语声音标记、话语角色标记、词性标记等项目,至少需要20个小时。照此计算,每种方言20小时的生语料,要进行这些标注,至少需要20*60*20(24000)小时的时间。一个包含7种汉语方言的话语语料库,则需要7*24000(168000)小时,这还不包括检查和测试标注是否一致的时间。这一方面说明口语语料库建设的艰巨性,另一方面也表明,汉语方言口语语料库的建设,必须依赖强有力的集体团队,才能完成艰巨的标注工作。

六、关于语料库信息平台设计理念

语料库由于数据量大,除了以电子光盘形成存储以外,大多采用网络数据库的方式呈现。汉语方言口语语料库,不只是为语言研究、语言工程等提供语料资源,还要为广大方言区和其他民众学习方言、传播地域文化、保护语言文化多样性服务,为人民的语言生活服务。因此,语料库的设计和建设应持积极的开放态度。这主要表现在以下几个方面。

一是提供更多的使用功能,使之能够为更多的用户使用。现在的一些语料库只限于个别机构内部使用,这种做法并不可取。语言价值在于使用。语料库应该让更多的人使用,使用得越多、越频繁,语料的价值就越大。面向用户的重要功能,除了检索文本、播放音频以外,还应让用户下载音频数据。这种功能非常重要,可以促进口语音频语料的多用途开发。目前多数汉语口语语料库没有提供音频下载功能。不过,一些濒危语言的口语语音语料库提供了音频下载功能,这是值得称赞的。可能有人是出于版权保护而不提供音频下载功能,但是知识产权的保护绝对不能成为妨碍人类文化知识传播与传承的借口。对语料库资源来说,没有人使用或极少人问津,语言资源的价值又从何体现?

二是语料的建设要持开放的态度,充分发挥用户群众的作用。方言口语语料的扩充是一个持续的、无止境的工作,光靠方言学者采录是远远不够的。这种开放的理念,体现在语料库的设计上就是:应充分考虑用户自主采录、集成和传输口语音频语料,而这一点在信息技术不断发展的今天和将来,都是必要的,也是可行的。开放性的平台设计,可以使得方言区的人民群众,把身边发生的、自己亲历的、丰富多彩的言语资源,源源不断地汇集到语料库中,真正实现国家语言资源建设的可持续发展。

三是开发平台要考虑通用性、稳定性和技术的持续升级。目前网络开发语言较多,开发工具平台也不少。由于语料库是要广泛使用和永久使用的,因此在研发语料库的时候必须考虑最大众化的、最有技术升级保证的编程语言和软件工具。考虑到我国信息体系的操作系统固定平台已普及window系统,移动网络也普遍使用android系统,语料库应基于微软和google公司开发的编程语言平台来建设,这样才能保证开发平台的稳定性和持续的技术升级。

[参考文献]

[1]北京语言大学语言研究所网站:https://www.doczj.com/doc/971289493.html,/yys/index.htm。

[2]中国社会科学院语言研究所网站:https://www.doczj.com/doc/971289493.html,/pbfiles/keti_keti.asp。

[3]科大讯飞公司网站:https://www.doczj.com/doc/971289493.html,/。

[4]江苏语言文字网:https://www.doczj.com/doc/971289493.html,/。

[5][8]http://140.119.172.200/。

[6][9]“中央研究院”网站:https://www.doczj.com/doc/971289493.html,.tw/。

[7]巴布亚新几内亚基本口语记录项目网站:https://www.doczj.com/doc/971289493.html,。

[10]https://www.doczj.com/doc/971289493.html,/。

[11]https://www.doczj.com/doc/971289493.html,/projects/transcription/representing。

[12]https://www.doczj.com/doc/971289493.html,/。

责任编辑:陶原珂

相关主题
文本预览
相关文档 最新文档