您的位置:首页 >科技 >

高速合成自然声音的新方法

2019-02-12 19:45:41来源:

研究小组开发了神经源滤波器(NSF)模型,用于高速,高质量的语音合成。这种技术结合了最近的深度学习算法和可追溯到20世纪60年代的经典语音生成模型,不仅能够生成高质量的语音波形 - 非常类似于人类的声音 - 而且能够通过神经网络。

迄今为止,许多语音合成系统采用了声码器方法,一种用于合成语音波形的方法,该方法广泛用于蜂窝电话网络和其他应用中。然而,通过这些方法合成的语音波形的质量仍然低于人类语音的质量。2016年,一家颇具影响力的海外技术公司提出了WaveNet--一种基于深度学习算法的语音合成方法 - 并展示了合成类似人类语音的高质量语音波形的能力。然而,WaveNet的一个缺点是其神经网络的结构非常复杂,需要大量的语音数据用于机器学习,并且需要参数调整和各种其他费力的试错过程,在准确预测之前可以重复多次。获得。

其中最着名的声码器之一是源滤波器声码器,它是在20世纪60年代开发的,至今仍在广泛使用。NII研究小组将传统的源滤波器声码器方法与现代神经网络算法相结合,开发出一种新的技术,用于合成类似于人类语音的高质量语音波形。这种神经源滤波器(NSF)方法的优点之一是其神经网络的简单结构,其仅需要大约1小时的语音数据用于机器学习,并且可以获得正确的预测结果而无需广泛的参数调整。此外,大规模听力测试表明,NSF技术产生的语音波形质量与WaveNet产生的语音波形相当。

由于NSF的理论基础不同于有影响力的海外ICT公司所使用的专利技术,采用NSF技术可能会刺激语音合成领域的新技术进步。出于这个原因,实现NSF方法的源代码已经免费向公众开放,允许它被广泛使用。