Abstract

The Non-autoregressive text to speech models such as Fastspeech2 can fast synthesize the high quality speech. This model also allows explicit control of the pitch, energy and speed of the speech signal. But, to control the emotion while maintaining the natural human-like speech is still a problems. In this paper, we propose an expressive speech synthesis model that can synthesize high-quality speech with desired emotion. The proposed model includes two main components (1) Mel Emotion Encoder extracts emotion embedding from the Mel-spectrogram of audio, (2) the FastSpeechStyle, a non-autoregressive model, which is modified from vanilla Fastspeech2. The FastSpeechStyle replaces normal LayerNorm with Style Adaptive LayerNorm to "shift" and "scale" hidden features according to emotion embedding, the model also used an improved Conformer block instead of vanilla FFTBlock to better model the local and global dependency in the acoustic model.

Emotional Speech Synthesis Architecture. Figure (a) shows the overall pipeline for FastSpeechStyle. Figure (b) shows the improved Conformer block and the integration of emotional embedding through Adaptive Layer Norm.

T-SNE visualization of emotional embeddings of typical samples.

.

.

Samples

008653:

Chứ anh bán sách ở đây tui trả lương cho anh anh không phải là nhân viên của tui anh là cái gì

Baseline Proposed
Sad
Happy
Neutral
Angry

001989:

Ngày mai anh tập đi xe đạp đi suốt ngày đi xe buýt hoài mỗi lượt ba ngàn tốn tiền quá à

Baseline Proposed
Sad
Happy
Neutral
Angry

003229:

Tại vì nếu đúng á , thì tôi cũng có một phần trách nhiệm trong việc anh bị đuổi ra khỏi nhà

Baseline Proposed
Sad
Happy
Neutral
Angry

009374:

Thôi cám ơn chị để em về em suy nghĩ đã chừng nào em muốn bán sách chị chỉ giùm em nha

Baseline Proposed
Sad
Happy
Neutral
Angry

001412:

Làm gì làm một giờ rưỡi ra đây bán xách phụ tui á

Baseline Proposed
Sad
Happy
Neutral
Angry

006694:

Chắc chắn giờ này nó đang bị ba nó chửi cho te tua luôn

Baseline Proposed
Sad
Happy
Neutral
Angry

005212:

Cưới rồi mà sao anh hỏi hoài vậy tôi đổi ý định bây giờ

Baseline Proposed
Sad
Happy
Neutral
Angry