想要训练地方性语言的语音模型，如粤语，最头疼的就是缺少高质量的训练数据集。

就在最近，WenetSpeech-Yue 一份迄今为止最大的粤语语音数据集，开源了。
共有 21800 小时的粤语语音数据，覆盖故事、娱乐、戏剧、教育、播客、新闻等十个不同场景的数据。
GitHub：http://github.com/ASLP-lab/WenetSpeech-Yue
并提供了丰富的多维度标注信息，包括说话人身份、年龄、性别等信息。
除此之外，还提供了多个预训练模型，如 Conformer、Whisper、SenseVoice 等。
目前数据集已在 Hugging Face 上公开，有需要的开发者可以去下载使用。