23日從內蒙古大學計算機學院獲悉,該院劉瑞研究員所在科研團隊與日本大阪大學科學與工業研究所科研團隊合作,在國際信號處理領域TOP期刊《IEEE/ACM音頻、語音和語言處理會刊》發表了“通過源濾波網絡將獨立于說話人的情感解耦以進行語音轉換”的最新研究成果。
據介紹,情感語音轉換(VC)旨在將中性語音轉換為情感聲音,同時保留語言信息和說話者的身份。科研團隊注意到,將情感特征與其他語音信息(例如內容、說話者身份等)解耦是實現高質量轉換效果的關鍵。由于情感語音中聲學特征的解耦更加復雜,面向中性語音的特征解耦一直無法得到很好的處理。
科研團隊針對情感語音轉換的聲學特征解耦問題開展研究,提出了一種基于“源—濾波器”模型的情感語音轉換系統,具體來說,是為了解決情感語音轉換的特征解耦問題而提出一種新穎的基于“源—濾波器”模型的情感VC模型(簡稱SFEVC),以從音色和音調特征中準確過濾說話人獨立的情感線索。SFEVC模型由多通道編碼器、情感獨立編碼器、預訓練的說話人相關編碼器和相應的解碼器組成。所有編碼器模塊都采用信息瓶頸自動編碼器。
為了進一步提高各種情緒的轉化質量,研究團隊還提出了基于二維VA(激活度—效價)空間的訓練策略。實驗結果表明,SFEVC模型以及VA訓練策略的表現均優于所有基線系統,并基于非平行數據在說話人無關的情感VC場景下實現了最優性能。