当前位置:首页 > 教学设计 > 普通话测试语音信息库的设计与实现|普通话测试软件免费版
 

普通话测试语音信息库的设计与实现|普通话测试软件免费版

发布时间:2019-01-04 04:15:01 影响了:

  摘要:每年的国家普通话测试,都留下普通话测试的相关信息。为了有效利用这些信息,建立了普通话测试语音信息库,实现了信息录入、信息查询、数据统计、权限管理等多种功能。为了实现最小到音节的录音语料查询,信息库利用HTK进行音频文件的自动切分处理。普通话测试语音信息库可方便地用于包括测试录音语料在内的各种资料的调用和各种关联数据的统计。
  关键词:普通话测试;语音信息库;信息查询;设计与实现
  
  0 引言
  
  分析利用普通话测试信息,可以了解不同背景人群习说普通话的规律和特点,了解普通话各种语音单元的实际发音状况,了解普通话测试的具体实施情况。在普通话语音特征研究、普通话教学改进与完善、普通话测试方法的科学与智能化发展等方面,普通话测试信息是不可多得的资料。有效地利用普通话相关测试信息,对掌握普通话推广工作的形势,加快普通话推广进程,加强全国各地区各民族人民的交流与交往,促进和谐社会的发展都具有十分重要的意义。
  一般情况,普通话测试信息被分成几种形式保存:现场录音语料为音频资料,专家评定的分数为纸质试卷,考生及管理信息则多为电子信息。其中,音频资料和试卷查阅起来比较困难,录音、分数和其他不同形式的信息之间的关联查询更为不易。此外,信息利用和隐私保护之间的矛盾也难以协调。
  为了更好地利用和保护普通话测试信息,有必要建立普通话测试语音信息库。信息库应综合各类普通话测试信息,方便各种信息的关联调用,并具有信息保护与权限管理功能。
  国内外学者对语音及相关信息的利用价值早有定论,开发出了各式各样的语音信息库。国内也有一些和普通话测试相关的信息处理软件,在普通话测试实践中发挥了巨大作用。这些软件的功能偏重于测试管理,在信息利用方面有待进一步完善。
  本文以一个普通话测试中心为背景,建立了一个包含数字化录音语料信息、数字化试卷与分数信息、其他测试相关信息的普通话测试信息数据库,实现了录音语料、试卷分数、考生背景等信息的关联查询。数据库还附有分数录入工具和录音自动切分工具。分数录入工具可以用来录入试卷分数,测试专家也可以用它进行现场打分。录音自动切分工具可以从语流中切分出单字和单词并分别存放,以实现细化到字、词的音频语料查询。
  普通话测试语音信息库存贮了录音语料音频信息、试卷分数信息、试题信息、考生信息及考试信息,具有信息录入、信息查询、数据统计、音频文件处理及权限管理功能。普通话测试语音信息库中的Windows应用程序采用Visual C++编写,由OBDC接口与Microsoft SQL Server数据库相连,实现系统软件的构建。
  
  1 普通话测试语音信息库总体设计
  
  1.1 用户需求分析
  普通话测试语音信息库主要服务于普通话水平测试管理、普通话推广与教学研究、语音处理与语音学研究。
  在普通话水平测试管理方面,需要实现测试前和测试中的报名、考试安排以及测试后信息的分类查询等功能。现有的普通话测试信息软件,多数只服务于普通话测试前和测试中的管理工作,测试后可供查询的信息种类较少。本文的普通话测试语音信息库提供了多种信息的综合查询。可查询的信息主要有:考试信息、考生信息和试题信息。考试信息用于了解各个考场的使用、评委工作量的分配情况。考生信息用于计算考生比例、了解不同语言背景下考生的分布情况,分析普通话测试的影响力。试题信息可用于查阅历次测试的试题内容。
  在语音处理与语音学研究中,需要大量具有不同发音质量的语音材料,以提高语音识别的正确性和自动语音评估系统的精确度。本文的普通话测试语音信息库能处理测试录音语料,得到以单字、单词、段落形式存放的音频文件。这些音频文件同时关联和反映了发音质量的测试分数,以及发音者来自哪个方言区、从事专业、年龄等信息,可为测试录音语料的研究和利用提供方便。
  在普通话推广与教学研究方面,母语、日常方言对语音、语调误读的影响较为明显,为了解不同语言背景下的发音特点,需要大量不同背景发音者的不同质量的发音语料。本文的普通话测试语音信息库实现了发音文本、发音质量和发音人背景信息的关联,为分析不同背景学生普通话说不准的原因提供了方便,有助于有的放矢地开展普通话教学。另外,本信息库可以动态地接收学生的读音,并对其发音的标准性给出即时的评价。
  
  1.2 信息种类
  为了满足普通话水平测试管理、普通话推广与教学研究、语音处理与语音学研究的需要,普通话测试语音信息库需要包含录音语料音频信息、试卷分数信息、试题信息、考生信息及考试信息。
  录音语料音频信息是普通话测试现场记录的考生读音。根据普通话测试的内容,每个测试考生的录音语料音频信息分为单字(100个音节)朗读、单词(i00个音节)朗读、短文朗读和主题谈话四个部分。前两部分经过语音切分后,以独立单字、单词的形式存贮,并将路径索引到数据库中。后两部分则整体分别存贮,路径同样索引到数据库中。
  试卷分数信息是普通话测试时测试专家根据测试者的读音正误给出的分数。字、词部分的分数包含了每个音节的发音分数。短文朗读和主题谈话部分的分数包含了发音的准确性、流畅性、语速控制等方面的分数。数据库存贮了上述各单项分数、总分及其相对应的测试等级。
  试题信息包括题号、题目文本、以及相应的拼音等内容。
  考生信息包括考生个人信息和考生语言背景信息。考生的个人信息包含考生的专业、出生年月、学历等基本信息。考生的语言信息包含考生的家庭使用语言、父母学历、母语等先天语言背景信息,还有日常用语、工作用语等后天语言背景信息。
  考试信息记录了普通话测试时的时间、地点、测试专家等信息。
  
  2 主要功能的设计与实现
  
  普通话测试语音信息库的主要功能为:信息录入、信息查询、数据统计(第三章中进行讨论)、音频文件处理及权限管理。
  
  2.1 信息录入
  录入信息包含:录音语料音频信息、试卷分数信息、试题信息、考生信息及考试信息。
  录音语料音频信息的录入采用现场录音的方法,与测试同步进行,经语音自动切分后,存放在数据库中(将在2.3节讨论)。
  试卷分数信息需要人工录入。有两种录入方式:其一是在测试时,由测试专家直接在界面上打分;其二是在测试后,由数据库维护人员录入各题分数。试卷分数录入界面与纸质试卷版面严格一致。计算机统计各题得分和总分后,将分数信息输出到屏幕或存入数据库。
  试题信息由工作人员录入数据库。
  考生和考试信息在普通话测试报名和考试安排时获得,由考生和普通话水平测试管理人员分别在普通话测试网络管理系统上填写个人信息、考场和评委信息。这些信息直接存入数据库。
  普通话测试语音信息库有较好的人机交互接口和完善的信息保护设置。
  
  2.2 信息查询
  信息录入以后,按照相应的数据模型组织到数据库中。系 统利用Microsoft SQL Server存贮人员信息,试卷分数信息、录音语料音频信息等多种数据,具有较小的冗余度,较高的数据独立性和易扩展性,并可被各种用户共享。
  系统对各查询条件使用“交”的关系操作。如:关系R和关系S的交,就是同时在R和S中存在的元素的集合。
  本程序采用开放数据库互联技术(Open Database Connec-tivity,ODBC)使Visual C++与Microsoft SQL Server数据库相连,通过添加相应的控件(DBGird和RemoteData)来完成查询系统的界面与数据源的绑定。
  
  2.3 音频文件处理
  测试者的录音资料经过数字化以后,需要以单字、单词、段落的形式存放。本文利用HTK工具箱(The Hidden Markov Model Toolkit――剑桥大学开发),通过普通话测试语音材料的训练,得到普通话测试语音模型。在此基础上利用HTK的自动强制对齐(Force Alignment)功能,将普通话测试录音语流中的单字、单词等语音单元与试卷中对应的文本进行时间对齐,标出每一个语音单元的边界时间。最后根据标注出的边界编写程序,实现语音单元自动切分,得到以单字、单词等形式存放的音频文件。切分后的音以“WAV”的文件格式存放在特定的文件夹中。利用查询功能用户可以快速、准确地找出各个语音的存放路径,进行语音查询。
  系统调用Visual C++MCI(Media Control Interface)中自带的音频处理函数,实现后缀名为“.way”的音频文件播放。
  
  2.4 权限管理
  使用普通话测试语音信息库的人员大致划分为:系统管理人员、试卷分数录入人员、普通话测试管理与研究人员、语音研究人员。
  权限管理的主要方法是:①管理人员对不同类型的用户设定不同的密码;②用不同的密码登录之后,只能进行特定的操作。
  权限管理采用的技术路线是:①系统对用户输入的密码进行类型判别,激活相应的操作菜单,提供相应的操作;②只有激活的菜单才具有可操作性。例如:试卷分数录入人员输入相应的密码后,“试卷录入”的菜单被激活,点击菜单后弹出相应的对话框,即可进行试卷分数的录入。这时,信息查询的菜单处于未激活状态,即使点击信息查询菜单,也不能弹出相应的对话框,从而达到阻止下一步操作之目的。
  
  3 数据库设计
  
  普通话测试语音信息库需要将大量的数据存入数据库中,以方便用户查询。我们根据不同目标用户的需求,对数据库进行了概念结构、逻辑结构和物理结构的设计。
  
  3.1 概念结构
  根据数据库需求分析及系统功能需求分析,可以确定数据库的概念结构。本系统中有考生、音频、考试、试题、试卷分数5个基本实体,分别记录了考生信息、测试后的语音资料、考场与评委信息、试题和分数信息等。数据库实体(entity)一关系(relationship)的E-R图如图1所示。
  
  
  3.2 逻辑结构
  根据数据库的概念结构,构建了5张数据总表来存贮和反映5个基本实体。即:考生(student)、音频(speech)、考试(test)、试题(test paper)、试卷分数(test score)。每张数据总表又包含若干分表,存贮各个实体的各方面信息。例如:考生信息包括出生年月、所在单位等多种属性。5个实体之间存在相互作用的关系,故在构建数据库时将具有关系的实体项进行了级联。
  
  3.3 物理结构
  数据库的物理结构设计如图2所示。
  
  主键是实体中惟一标识元组的属性。本系统中考生编号(student_ID)是每个实体的主键。相较考生姓名(有可能重复)等属性,考生编号更能够惟一地标识数据库中的一条记录。
  外键用于实现数据库中表与表之间的关联,起到桥梁作用。考生编号(student_D)为各个表的外键。例如:查询来自不同单位的考生成绩时,“考生”和“测试成绩”这两个表就需要实现关联。为此,在考生表中找出满足查询条件的考生,即可获得相应的考生编号,再将考生编号对应到测试成绩表中,就可查询出考生的成绩。
  
  4 应用举例
  
  普通话测试语音信息库中的试卷分数信息、试题信息、考生信息及考试信息可统称为文字基础信息。经处理后,从文字基础信息中可得到数据统计信息。
  
  4.1 文字基础信息
  文字基础信息在普通话水平测试管理、考生成绩管理、普通话推广与教学研究、语音处理与语音学研究等方面,有较为广泛的应用(表1)。
  
  作为实例,图3示出了考生测试成绩查询界面,表2列出了―个具体的查询结果。
  
  
  4.2 数据统计信息
  数据统计信息也广泛应用于普通话推广与教学研究、语音处理与语音学研究中。
  数据库中的数据经过导出,可生成一份EXCEL的电子表格文件,利用EXCEL自带的图表操作功能,最后可以生成直观的统计图表,利用这些图表可以得到许多有价值的论断。
  例如:图4所示为某次测试对不同方言背景的考生发“仄”音的得分分布情况的统计。由图4可以看出:使用少数民族语言和吴方言的考生发“仄”音的正确率较高,赣方言、闽方言的考生发“仄”音的正确率较低。可能的原因有:①“仄”音在少数名族语言中出现频率高,其发音标准与普通话的发音标准基本一致;②在赣方言和闽方言中,“仄”音的发音标准与普通话的发音标准有较大差异;③一些考生不认识“仄”音的部分字,不能正确地发音。
  
  实际上,日常方言对语音、语调的影响较大。通过对不同方言背景下考生对某个字发音正误率的比较,可以得出具有该方言背景的人的发音特点。普通话测试语音信息库系统可以给出不同方言背景下的考生对某个字发音的正误率,以助于语音研究。
  
  4.3 录音语料音频信息
  通过查询界面。找到某一语言背景下某个单字的得分和存放路径,可以帮助建立该语言背景下某单字的语言模型,此模型可运用到语音识别和自动发音评估系统中。图5所示为日常用语是北方方言的考生发“拐”音的情况。
  
  得到查找音的存放路径后,在音频播放界面点击“打开文件”按钮,弹出对话框,在对话框中填入相应的路径,就可进行音频播放。
  系统没有音频播放的暂停/继续、停止等功能(图5)。语音研究者可以根据需要选择合适的播放方式。
  
  5 结束语
  
  本文开发了普通话测试语音信息库,软件具有信息录入、信息查询、数据统计、音频文件处理、权限管理等功能。语音信息库包含了录音语料音频信息、试卷分数信息、试题信息、考生信息及考试信息。系统可应用于普通话水平测试管理、普通话推广与教学研究、语音处理与语音学研究中,具有广泛的实用价值。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3