Abstract
The Non-autoregressive text to speech models such as Fastspeech2 can fast synthesize the high quality speech. This model also allows explicit control of the pitch, energy and speed of the speech signal. But, to control the emotion while maintaining the natural human-like speech is still a problems. In this paper, we propose an expressive speech synthesis model that can synthesize high-quality speech with desired emotion. The proposed model includes two main components (1) Mel Emotion Encoder extracts emotion embedding from the Mel-spectrogram of audio, (2) the FastSpeechStyle, a non-autoregressive model, which is modified from vanilla Fastspeech2. The FastSpeechStyle replaces normal LayerNorm with Style Adaptive LayerNorm to "shift" and "scale" hidden features according to emotion embedding, the model also used an improved Conformer block instead of vanilla FFTBlock to better model the local and global dependency in the acoustic model.
Samples
008653:
Chứ anh bán sách ở đây tui trả lương cho anh anh không phải là nhân viên của tui anh là cái gì
Baseline | Proposed | |
Sad | ||
Happy | ||
Neutral | ||
Angry |
001989:
Ngày mai anh tập đi xe đạp đi suốt ngày đi xe buýt hoài mỗi lượt ba ngàn tốn tiền quá à
Baseline | Proposed | |
Sad | ||
Happy | ||
Neutral | ||
Angry |
003229:
Tại vì nếu đúng á , thì tôi cũng có một phần trách nhiệm trong việc anh bị đuổi ra khỏi nhà
Baseline | Proposed | |
Sad | ||
Happy | ||
Neutral | ||
Angry |
009374:
Thôi cám ơn chị để em về em suy nghĩ đã chừng nào em muốn bán sách chị chỉ giùm em nha
Baseline | Proposed | |
Sad | ||
Happy | ||
Neutral | ||
Angry |
001412:
Làm gì làm một giờ rưỡi ra đây bán xách phụ tui á
Baseline | Proposed | |
Sad | ||
Happy | ||
Neutral | ||
Angry |
006694:
Chắc chắn giờ này nó đang bị ba nó chửi cho te tua luôn
Baseline | Proposed | |
Sad | ||
Happy | ||
Neutral | ||
Angry |
005212:
Cưới rồi mà sao anh hỏi hoài vậy tôi đổi ý định bây giờ
Baseline | Proposed | |
Sad | ||
Happy | ||
Neutral | ||
Angry |