ICS 35.240.01 CCS L 77 中华人民共和国国家标准 GB/T41813.1—2022 信息技术 智能语音交互测试方法 第1部分:语音识别 Information technoiogy-Intelligent speech interaction testing method- Part 1:Speech recognition 2023-05-01实施 2022-10-12发布 国家市场监督管理总局 发布 国家标准化管理委员会 GB/T 41813.1—2022 目 次 前言 引言 1 范围 2 规范性引用文件 3 术语和定义 概述 7 5 测试准备和执行 5.1 测试数据集 5.2 测试工具 5.3 测试设备 5.4 测试环境 5.5 测试执行 5.6 测试结果 6 功能测试方法 6.1 语音信号采集 6.2 语音转文字 6.3 语音唤醒 6.4 前端信号处理 6.5 说话人分离 6.6 语言信息识别 6.7 语音识别后处理 7 性能测试方法 7.1 语音识别效果 7.2 语音识别效率 7.3 语音唤醒效果 7.4 前端信号处理效果 7.5 说话人分离效果 10 7.6 语言信息识别效果 10 7.7 系统稳定性 11 参考文献 12 GB/T41813.1—2022 前言 本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草。 本文件是GB/T41813《信息技术智能语音交互测试方法》的第1部分。GB/T41813已经发布 了以下部分: 第1部分:语音识别; 一第2部分:语义理解。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任 本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本文件起草单位:中国电子技术标准化研究院、科大讯飞股份有限公司、小米通讯技术有限公司、华 为终端有限公司、深圳市优必选科技股份有限公司、中国电信集团有限公司、思必驰科技股份有限公司、 有限公司、马上消费金融股份有限公司、腾讯科技(北京)有限公司、沈阳新松机器人自动化股份有限公 司、深圳市人马互动科技有限公司、平安科技(深圳)有限公司、安徽咪鼠科技有限公司、泾丰科技(深圳) 有限公司、北京捷通华声科技股份有限公司、北京百度网讯科技有限公司、深圳市北科瑞声科技股份有 限公司、阿里云计算有限公司、云从科技集团股份有限公司、网易(杭州)网络有限公司、南京云问网络技 术有限公司、联想(北京)有限公司、福州数据技术研究院有限公司、国家网络软件产品质量监督检验中 心(济南)、中汽研(天津)汽车工程研究院有限公司、华南理工大学、山东省计算中心(国家超级计算济南 中心)、中科极限元(杭州)智能科技股份有限公司、神思电子技术股份有限公司、郑州中业科技股份有限 公司、中汽数据(天津)有限公司、中国电器科学研究院有限公司、上海计算机软件技术开发中心、北京爱 数智慧科技有限公司。 本文件主要起草人:董建、徐洋、吴国纲、马万钟、朱亚军、贾一君、周立君、宋文林、袁杰、杨震、 田定书、钱彦曼、陶建华、花云飞、蒲江波、刘斌、李海峰、王峰、杨春勇、苏丹、张锋、冯海洪、刘国涛、 任军民、陈楠、刑启洲、魏韬、李笑如、黄石磊、汪淼淼、李军、胡光龙、杨萌、孟宪明、温正棋、鹿飞、方斌、 王岳、井、李介、张莹、蔡立志、徐向民、高永超、张晴晴 II GB/T41813.1—2022 引言 智能语音交互在智能家居、智能客服、移动终端、车载终端以及智慧教育、智慧医疗、智能办公、服务 机器人等诸多领域应用广泛,已成为当前人机交互的重要方式之一。随着智能语音交互越来越深人到 生产生活的方方面面,需要对智能语音交互的系统参考框架、基础技术要求、互联网接口要求等进行统 一规范。在这方面,国家已制定了支撑智能语音交互系统的基础性国家标准。在此基础上,也需要用统 一的测试方法和评价标准来对智能语音交互系统的能力进行评测,为智能语音交互相关的产品和服务 提供评测的基础方法和依据。 GB/T41813《信息技术智能语音交互测试方法》为GB/T36464(所有部分)《信息技术智能语 音交互系统》提供基础通用的测试方法。智能语音交互包括语音识别、语义理解和语音合成三个基本环 节,各环节所涉及的测试对象、测试项目、测试环境和测试方法均有所不同。GB/T41813《信息技术 智能语音交互测试方法》旨在确立和描述适用于智能语音交互各环节的通用测试项和通用测试方法,拟 由三个部分构成 第1部分:语音识别。目的在于为智能语音交互应用中的语音识别环节提供通用测试项和通 用测试方法 第2部分:语义理解。目的在于为智能语音交互应用中的语义理解环节提供通用测试项和通 用测试方法。 第3部分:语音合成。目的在于为智能语音交互应用中的语音合成环节提供通用测试项和通 用测试方法。 IN GB/T41813.1—2022 信息技术智能语音交互测试方法 第1部分:语音识别 1范围 本文件描述了智能语音交互测试中语音识别系统的通用测试项和通用测试方法。 本文件适用于智能语音服务提供商、用户和第三方检测机构对智能语音交互应用的语音识别系统 测试的设计和实施。 2规范性引用文件 2 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文 件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于 本文件。 GB/T21023中文语音识别系统通用技术规范 GB/T36464(所有部分)信息技术智能语音交互系统 3 术语和定义 GB/T36464(所有部分)界定的以及下列术语和定义适用于本文件。 3.1 语音识别 speech recognition 将人类的声音信号转化为文字或者指令的过程。 [来源:GB/T36464.1—2020.3.7] 3.2 说话人分离 speakerdiarization 对包含有效语音信号的音频流中的多个说话人进行说话人分割和说话人聚类的过程。 注:说话人分离的目的一般是对空间中存在的多个说话人进行分类和追踪 3.3 说话人分割 speakersegmentation 在多个说话人中找出说话人改变的时间边界,并根据这些边界将音频流切分成多个语音片段 3.4 说话人聚类 speaker clustering 将属于同一个说话人的一个或多个语音片段进行归类。 3.5 语音编码 乌speechcoding;speechencoding 语音波形编码 马speechwaveformcoding 按照一组能合理重构语音信号的规划,由经数字化的语音信号到离散的数据元序列的转换 注:语音数字化可与用于语音压缩的某一编码相结合。因此,“语音编码”这一术语常指这种组合运算, [来源:GB/T5271.29—2006.29.01.23] 1 GB/T 41813.1—2022 3.6 汉语方言 chinesedialect 汉语中跟普通话有区别,只在特定地区使用的语言。 4 概述 智能语音交互测试中的语音识别测试主要包括功能测试与性能测试,具体如下: 功能测试用于检查被测系统是否提供了语音识别相关的各项功能,具体包括:语音信号采集、 语音转文字、语音唤醒、前端信号处理、说话人分离、语言信息识别及语音识别后处理; 性能测试用于检测被测系统中语音识别相关的各项性能,具体包括:语音识别效果、语音识别 效率、语音唤醒效果、前端信号处理效果、说话人分离效果、语言信息识别效果,及系统稳定性。 测试过程中,依据被测系统技术规范进行在线/离线的功能和性能测试。本文件所列测试项可用于 对GB/T36464(所有部分)中语音识别相关的功能和性能要求进行测试 5 测试准备和执行 5.1 测试数据集 在测试开始前,应通过提前录制或采集的方式制作测试数据集。可根据不同测试项划分出多个测 试数据集,在实际测试时可根据需要选择测试数据集。测试数据集类型和要求应符合表1的要求。 表1 测试数据集类型和要求 语音种类 男声 女声 无有效 系统支持的 混合语言 语音音频类型 男声 女声 儿童 老人 汉语 汉语 语音内 语言信息 信息类型 空音频 普通话 普通话 普通话 普通话 方言 方言 容语音 类型语音 语音 无噪声正常 A类 A类 A类 A类 B类 B类 C类 弱噪声正常。 A类 A类 B类 B类 B类 B类 D类 强噪声正常 B类 B类 C类 C类 C类 C类 D类 C类 D类 D类 大音量 B类 B类 B类 B类 D类 D类 D类 快语速 B类 B类 C类 C类 D类 D类 D类 截断音频 C类 C类 - 测试数据满足以下要求。 a) 测试语音应至少2000条,其中,各类测试语音数量要求如下: 1) A类的总量不宜小于测试总量的70%: 2) B类的总量不宜小于测试总量的15%,不宜大于测试总量的20%; 3) C类的总量不宜小于测试总量的5%,不宜大于测试总量的10%; 4) D类为可选,总量不宜大于测试总量的5%。 b) 各种语音种类的发音人,不应少于30名。 c) 3s~5s时长的测试语音应占测试总量的80%以上 (P 测试语音可包括中文和外文等,测试方可根据系统任务和应用场景设定测试语音内容。 语音信噪比大于或等于20dB。 语音信噪比小于5dB。 在16bit量化比特下,波形采样点数值大于或等于10000。 d语音输人速度大于每秒5字。 2 GB/T 41813.1—2022 5.2 测试工具 语音识别测试工具包括可编程测试工具、测试统计工具和资源监测工具符合下列要求 可编程测试工具要求如下: a) 应能调用被测
GB-T 41813.1-2022 信息技术 智能语音交互测试方法 第1部分:语音识别
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2023-01-18 17:30:46上传分享