EASPO: Controllable Emotional Speech Synthesis through Direct Preference Optimization

We select two samples generated by the baselines and one sample from the ESD dataset to compare with our sample.

Target : Target samples are provided from ESD dataset.

emospeech : Baseline emospeech model.

cosyvoice2 : Baseline cosyvoice2 model.

Our EASPO : Our proposed EASPO model.

	Target	emospeech	cosyvoice2	our EASPO
Samples

	Target	emospeech	cosyvoice2	our EASPO
Samples

	Target	emospeech	cosyvoice2	our EASPO
Samples

	Target	emospeech	cosyvoice2	our EASPO
Samples

	Target	emospeech	cosyvoice2	our EASPO
Samples