项目二 语音数据标注电子课件.pptx
语音数据标注技术实训
中园水利水电火版社
●树立正确的价值观,培养高度的社会责任感。
●培养缜密严谨的学科态度和刻苦钻研的探索精神。
●了解语音数据标注的发展现状及应用领域。
●掌握语音数据标注的基本规范及流程。
教学目标
◆2.1语音数据标注发展现状
◆2.2语音数据标注基本规范
◆2.3语音数据标注工具
◆2.4语音数据标注流程
中园水利水电出版社
模块一语音数据标注概述
语音标注是数据标注行业中一种比较常见的标注类型,标注后的数据主要用于人工
智能机器学习,应用在语音识别、对话机器人等领域,语音标注工作是人工智能化的重
要基础,是所有基础数据的来源,同时也是数学概率的完美表现之一,正确率高的识别
系统一般对应着大数据量的人工标注数据,因此标注工作相当于将人工智慧转化为机器
智慧,如果说声音点亮生活,那么标注将汇聚智慧,智慧生活。
中园水利水电出版社
2.1语音数据标注发展现状
随着人工智能的快速发展,语音识别技术已经运用到了我们的日常生活中。手机上的语音助手就是利用了语音识别技术,可以把语音转换为文字,自动驾驶汽车中也出现了语言控制的功能,这些都依靠了人机交互中的语音识别技术。
在语音识别技术中,最直接的数据标注类型就是语音标注。语音标注主要分为两大类:语音转写和语音识别。
2.2语音数据标注基本规范
1.确定是否包含有效语音
2.确定说话人性别
3.确定语音的噪声情况
4.语音内容
2.3语音数据标注工具
·工欲善其事,必先利其器。标注工具是数据标注行业的基础,一款好用的标注工具是提升标注效率与产出高质量标注数据的关键。常用的语音数据标注工具主要有以下几种:
·1.深延科技智能数据标注平台。
·2.京东众智数据标注平台。
·3.曼孚科技SEED数据标注平台。
·4.Praat语音标注工具
·5.讯飞AILAB数据标注平台
2.4语音数据标注流程
·语音数据标注流程分为获取音频文件、展示波形图、选择标注区域、听取音频、填写标注内容、将标注音频打包、完成标注等步骤。具体流程如图2-2-1所示。
获取音频文件
展示波形图
选择标注区域
听取音频填写标注内容
将标注文本、音频打包
完成标注
图2-2-1语音数据标注流程
2.4语音数据标注流程
·(1)获取音频文件:根据语音数据的规范要求,先进行频谱分析,提取出声音的语音特征信息,获取符合条件的音频
文件。
·(2)展示波形图:将音频文件数据化,提取其中的音频特征。
·(3)选择标注区域:在音频中找到符合条件的声波区域后对音频进行标注。
·①听取音频:对音频进行有效语音的截取。
·②填写标注内容:标注员将听到音频里的声音转写出来,加上对应的标签,此项工作对标注员的听力要求较高。·(4)将标注音频打包:利用技术处理成客户需要的格式。
·(5)完成标注:完成此项语音标注工作。
◆实例1智能家居语音数据标注
◆实例2智能导航语音数据标注
中园水利水电出版社
主要操作步骤:
·1.搭建音频标注实验平台
·2.新建音频标注任务,导入数据·3.音频数据标注
·4.检查数据
·5.验收与导出
实例1智能家居语音数据标注
AI实验平数据标注平teacher
标注应用
应用首页
任务管理
人员管理
理/模版管理
十新建模版
名称模板类型模版权限创建时间
家居语音数据标注音频标注公有2022-03-2608:21:13
数据管理2文本标注公有2022-03-2607:44:17
模版管理
场合视频数据标注图片标注公有2022-03-2511:10:16
O工具管理
导航语音数据标注音频标注公有2022-03-2510:44:08
·(1)使用“应用管理员账号”登录AILAB数据标注平台,点击页面左侧【模板管
理】按钮,进入模板管理页面,如图2-2-4所示。
1.搭建音频标注实验平台
实例1智能家居语音数据标注
图2-2-4数据标注模板管理
·(2)点击【新建模板】按钮,在弹出的新建标注模板对话框中,输入模板名称、
权限类型、模板分类。点击【保存】按钮。如图2-2-5所示。
允首页AI实验平台数据标注平台②teacher
三标注平台/模版管理/模版管理
新建模板
搜索模板名称a