预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

PSOLA与正弦模型相结合的汉语语音合成研究与实现的中期报告 尊敬的评委老师们: 首先,我向各位老师简述一下我正在进行的研究项目——将PSOLA和正弦模型相结合,用于汉语语音合成的研究。 目前,汉语语音合成技术已经得到了广泛的应用,但是在某些情况下,合成语音的自然程度和可听度仍然不够理想。为了解决这一问题,我选择了将PSOLA和正弦模型相结合的方法。PSOLA可以用于转换基频和持续时间,而正弦模型则可以用于转换声音的谐波结构。这两种方法结合起来可以产生更加自然、逼真的合成语音。 在前期的研究中,我首先构建了一个PSOLA算法,其中主要包括对于基频、持续时间和音高的转换。我选择了学习PSOLA算法的原因是,PSOLA是一种非常成熟、被广泛应用的语音处理算法。其可以通过处理语音信号的基频和特征频谱,对语音信号的时变特性进行模拟,从而实现语音信号的伪造和重建。对于汉语这类声调语言而言,基频的控制非常重要,因此我希望用PSOLA算法来对基频进行控制。 随后,我开始着手研究正弦模型,主要探索如何将正弦模型融入到PSOLA算法之中。在正弦模型方面,我主要研究了正弦模型的预测、拟合和重建算法。在使用正弦模型时,我发现正弦模型具有处理谐波结构的优势,如果将正弦模型和PSOLA算法相结合,则可以在PSOLA方法仅修改基频和持续时间的情况下修改谐波结构,从而更加准确的模拟自然语音的音质。、和音高等特征。为了达到这一目的,我应用正弦模型预测了汉语不同基频下的谐波结构,然后使用这些谐波结构来重建汉语音频。该过程可以产生更加自然、逼真的汉语合成语音。 目前,我已经实现了PSOLA和正弦模型的结合,并进行了一系列的实验和对比。实验结果表明,这种混合方法在语音合成方面取得了很好的效果。此外,我还在对语音合成加入情感因素进行了实验。具体来讲,我使用了情感合成预测模型,将正弦模型和PSOLA算法结合到情感预测模型中,以合成情感语音。实验结果表明,加入情感因素后,语音合成质量得到了显著提高。 总的来说,我的研究旨在通过结合PSOLA和正弦模型,实现更加自然、逼真的汉语语音合成。我将会继续完善实验和数据分析,并不断探索新的优化方法。感谢您的关注。