文档详情

第六章-智能机器人的语音合成和识别.ppt

发布：2019-08-08约1.66万字共52页下载文档

文本预览下载声明

（4）高鲁棒性的智能化文本分析处理技术；（5）基于听感损失最小的语料库裁减技术；（6）特定语种知识和系统建模方法分离的多语种语音合成系统框架；（7）面向特定领域应用的定制语音合成技术；（8）Hmm-based波形拼接技术。 3. 产品应用语音合成技术是一种能够在任何时间、任何地点向任何人提供语音信息服务的高效便捷手段，非常符合信息时代海量数据、动态更新和个性化查询的需求。 Inter Phonic6.5 语音合成系统提供高效、灵活的服务，可以在多种领域内使用，如：PC语音互动式娱乐和教学；电信级、企业级呼叫中心平台United Message Service (UMS)和Voice Portal 等新兴语音服务系统。 6.4.2嵌入式语音合成解决方案目前，科大讯飞推出的一款高性价比的中文语音合成芯片已成功应用于车载调度仪、信息机、气象预警机、考勤机、排队机、手持智能仪表、税控机等各类信息终端产品上，极大满足了各行业服务需求，在为客户创造了巨大价值的同时，赢得了广大用户的高度评价和极佳的市场口碑。中文语音合成芯片XFS3031CNP 、XFS5152CE、XFS4243C、 XF-S4240等。下面以入门级语音合成芯片XFS3031CNP进行介绍: 1．主要功能 XFS3031CNP讯飞公司新推出的一款单芯片语音合成芯片，如图6.8所示，是业界最好的入门级语音合成芯片，合成的语音具有音色甜美、音质优异、顺畅自然等突出优势，芯片采用LQFP64封装，方便集成。图6.8 XFS3031CNP 语音合成系统构成框图系统包括：控制器模块、XFS3031CNP 语音合成模块、功放模块和喇叭。主控制器和XFS3031CNP 芯片之间通过UART 接口连接，控制器可通过通讯接口向XFS3031CNP 芯片发送控制命令和文本，XFS3031CNP芯片把接收到的文本合成为语音信号输出，输出的信号信号经功率放大器进行放大后连接到喇叭进行播放。 2. 产品特点（1）相对于之前的入门级芯片，采用了全新发音人，柔和甜美的音色，带来舒适的听觉感受；（2）采用了高效的压缩编码方式，合成音频的音质完美；（3）采用智能的文本韵律处理方法，文本朗读顺畅；（4）具备较强的多音字处理和中文姓氏处理能力；（5）支持GB2312、GBK、BIG5、UNICODE四种编码方式的文本； (6）芯片支持多种文本控制标记，具有智能文本分析处理算法。 6.4.3 Inter Reco 语音识别系统 Inter Reco是一款与说话人无关的语音识别系统，为自助语音服务提供关键字语音识别和呼叫导航功能。该产品具备优秀的识别率，提供全面的开发支持，丰富的工具易于使用，采用合理的分布式架构，符合电信级应用的高效、稳定要求。 1．主要功能前端语音处理指利用信号处理的方法对说话人语音进行检测、降噪等预处理，以便得到最适合识别引擎处理的语音。主要功能包括： 1) 端点检测端点检测是对输入的音频流进行分析，确定用户说话的起始和终止的处理过程。一旦检测到用户开始说话，语音开始流向识别引擎，直到检测到用户说话结束。这种方式使识别引擎在用户在说话的同时即开始进行识别处理。 2) 噪音消除在实际应用中，背景噪声对于语音识别应用是一个现实的挑战，即便说话人处于安静的办公室环境，在电话语音通话过程中也难以避免会有一定的噪声。Inter Reco语音识别系统具备高效的噪音消除能力，以适应用户在千差万别的环境中应用的要求。 3) 智能打断智能打断功能使用户可以在自助语音服务的提示语播放过程中随时说出自己的需求，而无需等待播放结束，系统能够自动进行判断，立即停止提示语的播放，对用户的语音指示做出响应。该功能使人机交互更加高效、快捷、自然，有助于增强客户体验。后端识别处理对说话人语音进行识别，得到最适合的结果，主要特性有：（1）大词汇量、独立于说话人的健壮识别功能，Inter Reco满足大词汇量、与说话人无关的识别要求。（2）语音识别引擎可以在返回识别结果时会携带该识别结果的置信度，应用程序可以通过置信度的值进行分析和后续处理。（3）多识别结果，又称多候选技术，在某些识别过程中，识别引擎可以通过置信度判决的结果向应用程序返回满足条件的多个识别结果，供用户进行二次选择。（4）说话人自适应，当用户与语音识别系统进行多次会话过程中，系统能够在线提取通话的语音特征，自动调整识别参数，使识别效果得到持续优化。（5）多槽

显示全部

相似文档