-
Notifications
You must be signed in to change notification settings - Fork 1.9k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[tts] 基于 BERT 实现语音合成文本前端的多音字预测 #1283
Labels
Comments
但是我发现 并没有英语的合成的 示例,客观评价paddle在这块的doc 远远不如其他开源,mozilla 和 tensorflow的 TTS 会有明确的文档 |
ljspeech 和 vctk 都是英文的合成数据集,包含示例 |
@yt605155624 非常感谢你的及时回复,我会留意看一下, |
基于bert实现语音合成文本前端的多音字预测有代码实现吗? |
@GloryRoadWangzh 目前没有,可以参考标点预测来做,基于 paddlenlp,目前有开发者正在把 g2pw 加到我们的前端,是基于 bert 的,所以我们可能就不自己搞多音字预测了 #2230 |
@yt605155624 请教一下,为什么有了g2pw 就不需要多因子预测了,比如下面的句子能预测对马:
|
@jinfagang 因为 g2pw 就是一种基于 bert 的多音字预测模型 |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
目前的多音字使用 pypinyin 或者 g2pM,精度有限,想做一个基于 BERT (或者 ERNIE) 多音字预测模型,简单来说就是假设某语言有 100 个多音字,每个多音字最多有 3 个发音,那么可以在 BERT 后面接 100 个 3 分类器(简单的 fc 层即可),在预测时,找到对应的分类器进行分类即可。
参考论文:
tencent_polyphone.pdf
数据可以用 https://github.com/kakaobrain/g2pM 提供的数据
进阶:多任务的 BERT
![image](https://user-images.githubusercontent.com/24568452/148382039-170504db-dbde-4ade-bcfd-ac2ed484a72c.png)
The text was updated successfully, but these errors were encountered: