-
Notifications
You must be signed in to change notification settings - Fork 208
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
replace_phoneme_length
の無音挿入
#924
Comments
ご質問ありがとうございます!!
必須になります! ちなみにここから先はエンジン側に漏れるべきではない情報になりますが一応共有すると、
です! |
詳細にありがとうございます!
👍
👍 # 生成のために前後無音を挿入する(コアの仕様。c.f. voicevox_engine#924)
phonemes = [OjtPhoneme("pau")] + phonemes + [OjtPhoneme("pau")] とかが第一感です。 |
良さそうに思いました!! どれもこれもそこまでこだわりはないです!! |
👍
👍
👍 |
質問の内容
概要:
replace_phoneme_length
における無音挿入は必須か、その役割は何かTTSEngine.replace_phoneme_length()
は音素長生成を担っている。voicevox_engine/voicevox_engine/tts_pipeline/tts_engine.py
Lines 390 to 407 in 68a439d
この際、コアの
yukarin_s_forward()
へ渡される音素系列には前後無音(pau)が付与されている。そして
yukarin_s_forward()
から得られたphoneme_lengths
のうち、pau に当たる部分はmora
へ反映されず捨てられる。つまり一見すると pau を付けて捨てているように見える。
一方で音声合成の観点から考えると、生成/推論のための padding はしばしばあるため、そのケースにも見える。
このような背景から次の質問があります:
Q「
replace_phoneme_length
における無音挿入は必須か、必須ならその役割は何か」VOICEVOXのバージョン
0.14.10
OSの種類/ディストリ/バージョン
The text was updated successfully, but these errors were encountered: