语料库怎么用 国家“语料库”全解析
“国家语委前排的二层小楼简直就成了军事基地,谁都不能随便进入,录入工作是由解放军二炮某部完成的。录入进来的字词,又人工校对了7遍。” 2012年7月25日,国家语言资源监测与研究中心平面媒体分中心、北京语言大学、中国新闻技术工作者联合会、中国中文信息学会联合发布“2012年春夏季中国报纸流行语”。“神舟九号”位居综合类流行语第一,其他进入前十的流行语是:明胶、黄岩岛、伦敦奥运会、穆巴拉克、小微企业、欧洲杯、学雷锋、农业科技和舌尖上的中国。
2005年,教育部语言文字信息管理司和国内一些高校联合建设了国家语言资源监测与研究中心,上述平面媒体分中心的主要任务是建设平面媒体动态流通语料库,自2001年开始,每年根据“发行量、发行地域、发行周期、媒体价值、阅读率”等因素,选择15种网络版报纸内容作为语料库的采集源,目前已形成了近30亿字的“国家语言资源监测语料库”。
利用监测语料库,国家语言资源监测与研究中心从2005年开始发布中国语言生活状况报告、年度流行语和年度新词。
“上述工作就是在网络上搜集上亿字的资源,分领域抓文本,看词语集,做交集,按时间段跟踪,测算词语使用频率并解释其背后的经济社会文化背景。”原教育部语言文字应用研究所副所长、国家语委语言文字规范标准测查认证中心主任靳光瑾告诉《瞭望东方周刊》。
“我们这个时代已经进入到语料库时代,也就是用电子形式保存的真实语言材料将作为对一个时代的记录而被保存。”北京语言大学党委书记、原教育部语言文字信息管理司司长李宇明在接受《瞭望东方周刊》采访时,总结说。
国家语料库依据什么来选择语言原材料,它又究竟为我们的时代保存了些什么?改革开放后的语料占50%
“监测语料库是动态的,其基础来自‘现代汉语平衡语料库’,两个语料库的研究重点不一样。”教育部语言文字应用研究所计算语言学研究室主任肖航告诉《瞭望东方周刊》,奠定我国语料库基本模式的是由国家语言文字工作委员会牵头、上世纪90年代初开始研发、历时十年、反映中国20世纪现代汉语整体发展情况的现代汉语平衡语料库。
世界上第一个标准语料库是1961年建立的美国Brown语料库,随着各国对语言作为一种国家资源的认识的深化,各国政府和学术机构都开始投资建设大型语料库。1980年到1993年,欧美国家建设有超过50个语料库并投入使用。
上世纪90年代初期,随着计算机技术在中国兴起,国家语委于1992年12月提出建设现代汉语语料库项目。
“语言的边界非常大,不断新陈代谢,很难把握它,这样大的整体怎么去调查分析。”肖航介绍说,国家语委最后决定按照国际标准采用小样本抽样的方法来建语料库,“小样本,大样本量,尽可能多地搜集原材料,单一来源则不能太多”。
1992年4月,国家语委召开现代汉语语料库选材原则专家论证会,1993年1月制订出选材原则。“因为要反映中国现代汉语的全貌,在选材上就要注重平衡性原则。抽样要注意文体、时间和地区三个方面的平衡性。”李宇明说。
“在语料的选择上,要有别于专业性、地域性和纯口语性。尽可能提高所选语料在采字、采词和采义等方面的广度。”肖航说。
在语料的选材分类上,专家组最终定了3大分类:人文与社会科学类、自然科学类和综合类,占比分别是50%、30%和20%,每一大类下又分了若干小类,样本一共分布在37类里。这37类并不是一成不变的,进入21世纪后,信息技术和电子科技的研究成为后起之秀,37种分类也为这些新出现的科目做出调整,自然科学类调整较大,增加了信息技术等方面的分类。
从时间看,语料库将自1919年开始的现代汉语划分为5个阶段:1919~1925年,五四时期的白话文仍留有文言痕迹,这部分样本只占总体的5%;1926年~1949年,白话文逐步脱离文言痕迹,现代汉语逐渐成熟,样本约占15%;1950年~1965年,新中国的成立给社会生活带来巨大变化,新词新语大量涌现,这时期的样本约占25%;1966年~1976年,“文革”时期的许多词语仅作为历史词语存在于现代汉语中,特殊时期的样本量很小,只占5%;语料库大部分的样本量来自1977年以后,改革开放后,现代汉语有了新发展,这一时期的样本量占到总体的50%。
保持样本平衡性
从来源看,语言材料多选用政论性文章、新闻报道、各类文学艺术作品、科普读物、通俗读物、学术专论及各种应用文语体等现代汉语作品。样本容量2000字,上下允许有500字的浮动。书籍的抽样数量一般占全书字数的3%~5%,字数最多不超过10000字;报纸采用整版选用的方式,为了避免重复,不同报纸选用不同月份;刊物所选字数不超过5000字。
对于2000字的样本容量,肖航解释说:“首先是因为同一个来源的样本不要太多的原则,希望样本选材来源更广泛;第二,国际上一般规定采集样本不能超过原材料内容的3%~5%,否则会构成侵犯版权。”
据肖航介绍,文学作品采样采用掐头去尾的方法来保持样本的平衡性,“掐头去尾会破坏文本的流畅性,但字词语法的采样不受影响。文学层面的不通顺跟语料库研究意图不冲突”。
按照选材原则,国家语委将抽样任务下发给北京语言大学、北京师范大学、中国人民大学等高校,从国家图书馆和高校图书馆一共抽取了4万多个样本,而这4万多个样本里,同样一本文学作品可能还有3-5个版本。
“一共找了多少本书可想而知。国际上对语料库的两大要求——大规模和真实性,在现代汉语平衡语料库上体现得十分明显。”肖航说。
在坚持语料分布的平衡性原则上,曾经参与了选材原则专家论证会的国家语委咨询委员会委员、教育部语言文字应用研究所研究员李行健深有体会。
“比如,鲁迅这样一个大家,他的作品是现代汉语,但有很多文言的成分夹杂在里面,比较古奥,因此根据平衡性原则,语料库要有来自鲁迅作品的语料,但不宜过多。”李行健告诉《瞭望东方周刊》,“诗歌就不能当做一般的语料,因为这种文体太宽泛灵活,如果用诗歌体做样本,会不符合研究现代汉语语法的原则。”
