历史上的今天

今天是:2024年09月09日(星期一)

正在发生

2021年09月09日 | 语音合成(TTS)的概念及分类

发布者:LovingLife2023 来源: eefocus关键字:语音合成  计算机系统  数据库 手机看文章 扫描二维码
随时随地手机看文章

语音合成

 

Speech Synthesis 或Text to Speech(TTS)

语音合成(Speech Synthesis)是人类语音的人工合成。用于此目的的计算机系统称为语音计算机或语音合成器,可以在软件或硬件产品中实现。文本到语音(TTS)系统将普通语言文本转换为语音;其他系统则把像音标这样的符号语言表示法翻译成语音。其他系统则使用符号语言表征例如标音法翻译成语音。(other systems render symbolic linguistic representations[2] like phonetic transcriptions into speech.[1] )

 

1. Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From Text to Speech: The MITalk system. Cambridge University Press. ISBN 978-0-521-30641-6.

 

2. A symbolic linguistic representation符号语言表征是一种话语的表征,它使用符号来表征话语的语言信息,如语音、音位、形态学、句法或语义的信息。符号语言表征不同于非符号表征,如录音,因为它们使用符号来表示语言信息,而不是测量。

 

合成语音可以通过连接存储在数据库中的记录语音片段来创建。系统存储的语音单元大小不同;存储音素和亚音素(phones and diphones)[3]的系统提供最大的输出范围,但可能缺乏清晰度。对于特定的使用领域,整个单词或句子的存储允许高质量的输出。或者,合成器可以结合声道模型和其他人类声音特征来创建一个完全“合成”的声音输出。

 

3.语音学(Phonetics)是语言学的一个分支,研究人类语言的声音,或者,在手语中,是手语的等效方面。它涉及语音或信号(电话)的物理特性:它们的生理产生、声学特性、听觉感知和神经生理状态。另一方面,音韵学是研究声音或符号系统的抽象语法特征。

 

语音合成器的质量是由它与人类声音的相似性和它被清晰理解的能力来判断的。一种可理解的文本-语音转换程序允许有视觉障碍或阅读障碍的人在家用电脑上听书面文字。自上世纪90年代初以来,许多计算机操作系统都包含语音合成器。

 

文本到语音系统(或“引擎”)由两部分组成:前端和后端。前端有两个主要任务。首先,它将包含数字和缩写等符号的原始文本转换为相当于输出的单词。这个过程通常称为文本规范化、预处理或标记化。然后前端为每个单词分配语音转录,并将文本划分和标记为韵律单位,如短语、子句和句子。将音标分配给单词的过程称为文本到音素或字母到音素的转换。音标和韵律信息共同构成了前端输出的符号语言表征。后端通常被称为合成器,然后将符号语言表示转换成声音。在某些系统中,这部分包括计算目标韵律(音高轮廓,音素时长),然后将之加到输出语音上。(^ van Santen, Jan P. H.; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). Progress in Speech Synthesis. Springer. ISBN 978-0-387-94701-3.)

 

之前的文章有提到过,目前国内的主流语音合成方案有科大讯飞、搜狗、云知声、思必驰等。

 

而语音合成目前市面上一般使用参数合成,或者拼接合成,前者的音库都是在10小时左右,基本用不到20小时,对于合成人声效果的自然度,更依赖算法,而拼接则对于数据的需求量很高,对合成人声效果的自然度,更依赖数据量。很多听起来很自然的音库时长在100~200小时左右。

 

以及,TTS模型通常也会分为中文,英文,或者中英混输的。做训练的文本,有很多文字比较拗口,故而对录音声优的功力有要求,中英混输的模型数据就更难了。如果是普通的中文TTS模型,以刚才的例子“马上为您播放周杰伦的《晴天》live版本”,这种就可以在录音时加入一些简单的字母,单词,短语等等。

 

合成的wav文件回传到终端音箱,并播放出来,如此,完成了一环基础的用户与智能硬件之间的对话。

 

方法上:波形拼接合成和参数合成

波形拼接语音合成:

基于统计规则的大语料库拼接语音合成系统

 

超大规模音库制作:语料设计;音库录制;精细切分;韵律标注;

 


优点:音质最佳,录音和合成音质差异小,正常句子的自然度也好

 

缺点:非常依赖音库的规模大小和制作质量,尺寸大,无法在嵌入式设备中应用,仍然存在拼接不连续性

 

参数语音合成技术:

对于引得频谱特性参数进行建模,生成参数合成器,来构建文本序列映射到语音的映射关系

 


优点:尺寸小,语音自然度好

 

缺点:音质不如拼接合成


关键字:语音合成  计算机系统  数据库 引用地址:语音合成(TTS)的概念及分类

上一篇:TWS耳机通话降噪中的技术
下一篇:苹果新品发布会定了:9月15日

推荐阅读

在中国的力推下,新能源汽车的销量持续高速增长,而在新能源汽车的核心技术--动力电池方面当下正呈现中日韩三足鼎立的格局。面对这个庞大以及事关汽车行业未来的领域,欧洲企业不希望落在后面,正欲在动力电池新技术上取得后来居上的地位。动力电池市场格局2017年的动力电池市场出货量排名显示,前十大企业当中分别来自中国的7家、韩国的两家和日本的一家...
“充电焦虑”和“里程焦虑”是纯电动汽车大规模产业化面临的一大障碍。据武汉元帅新能源充电站了解2019世界新能源汽车大会上,一项名为“高比能快充锂离子电池”的技术获得了全球新能源汽车创新技术奖。下面,元帅新能源汽车充电站运营商为您解析该项技术!据元帅新能源充电站建站专家了解该技术突破了石墨体系不能快速充电的技术瓶颈,在保持高能量密度、...
  无人驾驶为什么不能普及  从Tesla的无人驾驶风风火火走四方,到Volvo宣布要推出最可靠安全的无人驾驶技术;从Google Alphabet 将自动驾驶汽车项目分拆为独立公司Waymo(A new way forward in mobility),到百度将智能汽车事业部(L3),自动驾驶事业部(L4)和车联网事业部整合成立智能驾驶视野群组(IDG);还有Uber于2016年9月14日,在美...
贸泽电子备货两款Sensirion液体流量评估套件SEK-LD20-0600L和SEK-LD20-2600B 2021年9月9日 – 专注于引入新品并提供海量库存的电子元器件分销商贸泽电子 (Mouser Electronics) 即日起备货Sensirion的SEK-LD20-0600L和SEK-LD20-2600B液体流量评估套件。这两款套件让工程师可以快速便捷地评估采用Sensirion专有CMOSens®技术的LD20-0600L和LD20-2600B液...

史海拾趣

问答坊 | AI 解惑

手机饰品的闪光原理

本帖最后由 jameswangsynnex 于 2015-3-3 20:00 编辑 一、CDMA手机饰品的闪光原理为什么中国移动GSM手机饰品挂在中国联通CDMA手机上不闪光?这要从CDMA和GSM手机的工作原理谈起,GSM手机是采取将语音打包压缩后发射出去的,也就是说间隙脉冲工作的 ...…

查看全部问答∨

几个节省成本方便系统安装的温湿度集中检测方案拿出来分享

一、应用概述    在信息化程度越来越高的今天,担当信息处理与交换重任的机房是整个信息网络工程的 数据传输中心、数据处理中心和数据交换中心。为保证机房设备正常运行及工作人员有一个 良好的工作环境,对机房温湿度的监测是必不可 ...…

查看全部问答∨

【藏书阁】模拟电子线路(线性部分)

目录: 第一章 基本知识复习 第二章 半导体器件及模型 第三章 放大电路基础 第四章 放大器的频率响应 第五章 反馈放大器 第六章 功率放大器 第七章 集成运算放大器及其应用 第八章 选频与滤波电路 详细信息: 模拟电子线路( 线性部分 ...…

查看全部问答∨

我写了一个service如何自动激活service

我现在使用的方法是开始另外一个程序调用ActivateService(),这个函数来激活手机服务。现在请问如何不开启另一个程序调用ActivateService激活,而是服务安装好后,自动激活服务呢。…

查看全部问答∨

[求助] passthru 输出数据包内容

最近在研究NDIS,所以看了Windows防火墙与网络封包截获技术这本书, 里面有个源程序叫xpassthru的。可以实现调试输出接收到包的诸如大小,长度等信息。现在我想让它 输出源IP和目标IP以及端口,如果的TCP包 还想知道里面详细的内容,诸如GET。。 ...…

查看全部问答∨

关于KEILC的一个问题

                                    请问KEIL C中哪个文件是看内存分配影象的,我编译之后想看看内存的分配情况,如何设 ...…

查看全部问答∨

德州仪器论坛 老外讲的视频

http://www.deyisupport.com/question_answer/f/55/t/6046.aspx…

查看全部问答∨

430F149

为什么MSP430F149中用PC机向430发字符IE1的UTXIE0不使能,中断不开也可以实现功能 谢谢 QQ732068350…

查看全部问答∨

电子信息工程现代化技术的作用

  目前,电子信息工程是信息化的现代产物,它将电子技术和通讯信息技术完美的结合起来,并应用于生产和生活的各个领域。但是我们不能满足于它的发展和应用的现状,应该对其不断的完善和更新,以更好更快的发展.更好地为社会主义现代化建设服务。 ...…

查看全部问答∨

求教,50Hz 1V的三角波进行滤波

本帖最后由 paulhyde 于 2014-9-15 03:22 编辑 我想得到三次谐波,用了TI的Filter Pro设计了带通滤波器,为什么得到的正弦波有问题呢。另外请教下运放的选择。 C:\\Users\\Forever\\Desktop\\12.bmp    …

查看全部问答∨
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
随便看看

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved