语音合成
Speech Synthesis 或Text to Speech(TTS)
语音合成(Speech Synthesis)是人类语音的人工合成。用于此目的的计算机系统称为语音计算机或语音合成器,可以在软件或硬件产品中实现。文本到语音(TTS)系统将普通语言文本转换为语音;其他系统则把像音标这样的符号语言表示法翻译成语音。其他系统则使用符号语言表征例如标音法翻译成语音。(other systems render symbolic linguistic representations[2] like phonetic transcriptions into speech.[1] )
1. Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From Text to Speech: The MITalk system. Cambridge University Press. ISBN 978-0-521-30641-6.
2. A symbolic linguistic representation符号语言表征是一种话语的表征,它使用符号来表征话语的语言信息,如语音、音位、形态学、句法或语义的信息。符号语言表征不同于非符号表征,如录音,因为它们使用符号来表示语言信息,而不是测量。
合成语音可以通过连接存储在数据库中的记录语音片段来创建。系统存储的语音单元大小不同;存储音素和亚音素(phones and diphones)[3]的系统提供最大的输出范围,但可能缺乏清晰度。对于特定的使用领域,整个单词或句子的存储允许高质量的输出。或者,合成器可以结合声道模型和其他人类声音特征来创建一个完全“合成”的声音输出。
3.语音学(Phonetics)是语言学的一个分支,研究人类语言的声音,或者,在手语中,是手语的等效方面。它涉及语音或信号(电话)的物理特性:它们的生理产生、声学特性、听觉感知和神经生理状态。另一方面,音韵学是研究声音或符号系统的抽象语法特征。
语音合成器的质量是由它与人类声音的相似性和它被清晰理解的能力来判断的。一种可理解的文本-语音转换程序允许有视觉障碍或阅读障碍的人在家用电脑上听书面文字。自上世纪90年代初以来,许多计算机操作系统都包含语音合成器。
文本到语音系统(或“引擎”)由两部分组成:前端和后端。前端有两个主要任务。首先,它将包含数字和缩写等符号的原始文本转换为相当于输出的单词。这个过程通常称为文本规范化、预处理或标记化。然后前端为每个单词分配语音转录,并将文本划分和标记为韵律单位,如短语、子句和句子。将音标分配给单词的过程称为文本到音素或字母到音素的转换。音标和韵律信息共同构成了前端输出的符号语言表征。后端通常被称为合成器,然后将符号语言表示转换成声音。在某些系统中,这部分包括计算目标韵律(音高轮廓,音素时长),然后将之加到输出语音上。(^ van Santen, Jan P. H.; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). Progress in Speech Synthesis. Springer. ISBN 978-0-387-94701-3.)
之前的文章有提到过,目前国内的主流语音合成方案有科大讯飞、搜狗、云知声、思必驰等。
而语音合成目前市面上一般使用参数合成,或者拼接合成,前者的音库都是在10小时左右,基本用不到20小时,对于合成人声效果的自然度,更依赖算法,而拼接则对于数据的需求量很高,对合成人声效果的自然度,更依赖数据量。很多听起来很自然的音库时长在100~200小时左右。
以及,TTS模型通常也会分为中文,英文,或者中英混输的。做训练的文本,有很多文字比较拗口,故而对录音声优的功力有要求,中英混输的模型数据就更难了。如果是普通的中文TTS模型,以刚才的例子“马上为您播放周杰伦的《晴天》live版本”,这种就可以在录音时加入一些简单的字母,单词,短语等等。
合成的wav文件回传到终端音箱,并播放出来,如此,完成了一环基础的用户与智能硬件之间的对话。
方法上:波形拼接合成和参数合成
波形拼接语音合成:
基于统计规则的大语料库拼接语音合成系统
超大规模音库制作:语料设计;音库录制;精细切分;韵律标注;
优点:音质最佳,录音和合成音质差异小,正常句子的自然度也好
缺点:非常依赖音库的规模大小和制作质量,尺寸大,无法在嵌入式设备中应用,仍然存在拼接不连续性
参数语音合成技术:
对于引得频谱特性参数进行建模,生成参数合成器,来构建文本序列映射到语音的映射关系
优点:尺寸小,语音自然度好
缺点:音质不如拼接合成
上一篇:TWS耳机通话降噪中的技术
下一篇:苹果新品发布会定了:9月15日
推荐阅读
史海拾趣
近年来,电子行业面临着诸多挑战,如市场竞争加剧、技术更新换代迅速等。然而,晶丰明源凭借强大的研发实力和敏锐的市场洞察力,成功应对了这些挑战。公司不仅加大了研发投入,加强了与高校、科研机构的合作,还积极引进和培养人才,为公司的发展注入了新的活力。同时,公司还注重产品创新和品牌建设,不断提升产品的附加值和竞争力。
在竞争激烈的电子行业中,Consolidated Wire公司始终坚持品质至上的原则。公司建立了严格的质量管理体系,从原材料采购到生产过程控制,再到产品出厂检验,每一个环节都严格把关。这种对品质的执着追求使得Consolidated Wire公司的产品赢得了客户的信任和好评。许多知名企业都成为了公司的合作伙伴,共同推动电子行业的发展。
随着业务的不断发展,Consolidated Wire公司开始积极拓展国内外市场。公司加大了市场推广力度,通过参加行业展会、举办技术研讨会等方式提升品牌知名度。同时,公司还积极开拓海外市场,与国际知名企业建立合作关系,实现了业务的全球化布局。这些举措不仅提升了公司的市场份额,也增强了公司在电子行业的影响力。
随着环保意识的日益提高,ECC积极响应国家号召,致力于绿色环保产品的研发和生产。公司投入大量资金研发环保型电容器,采用环保材料和工艺,减少生产过程中的污染排放。此外,ECC还积极参与公益事业,捐款支持环保组织和慈善机构。
为了进一步扩大市场份额和增强技术实力,DATASENSOR公司积极进行收购和扩张。2004年,公司成功收购INFRA和SPECIALVIDEO公司,这两家公司在工业自动化领域拥有丰富的经验和先进的技术,为DATASENSOR公司带来了更多的市场机会和技术优势。此外,公司还在法国、德国、英国和西班牙等国家和地区设立了子公司,实现了全球化的战略布局。
一、应用概述 在信息化程度越来越高的今天,担当信息处理与交换重任的机房是整个信息网络工程的 数据传输中心、数据处理中心和数据交换中心。为保证机房设备正常运行及工作人员有一个 良好的工作环境,对机房温湿度的监测是必不可 ...… 查看全部问答∨ |
|
目录: 第一章 基本知识复习 第二章 半导体器件及模型 第三章 放大电路基础 第四章 放大器的频率响应 第五章 反馈放大器 第六章 功率放大器 第七章 集成运算放大器及其应用 第八章 选频与滤波电路 详细信息: 模拟电子线路( 线性部分 ...… 查看全部问答∨ |
我现在使用的方法是开始另外一个程序调用ActivateService(),这个函数来激活手机服务。现在请问如何不开启另一个程序调用ActivateService激活,而是服务安装好后,自动激活服务呢。… 查看全部问答∨ |
最近在研究NDIS,所以看了Windows防火墙与网络封包截获技术这本书, 里面有个源程序叫xpassthru的。可以实现调试输出接收到包的诸如大小,长度等信息。现在我想让它 输出源IP和目标IP以及端口,如果的TCP包 还想知道里面详细的内容,诸如GET。。 ...… 查看全部问答∨ |
|
目前,电子信息工程是信息化的现代产物,它将电子技术和通讯信息技术完美的结合起来,并应用于生产和生活的各个领域。但是我们不能满足于它的发展和应用的现状,应该对其不断的完善和更新,以更好更快的发展.更好地为社会主义现代化建设服务。 ...… 查看全部问答∨ |
本帖最后由 paulhyde 于 2014-9-15 03:22 编辑 我想得到三次谐波,用了TI的Filter Pro设计了带通滤波器,为什么得到的正弦波有问题呢。另外请教下运放的选择。 C:\\Users\\Forever\\Desktop\\12.bmp … 查看全部问答∨ |