previewのonnx版コアを使った合成で、開始・終了無音を0.3~0.4秒くらいにすると音声が変になることがある #62

Hiroshiba · 2022-01-06T21:47:37Z

不具合の内容

エディタのプレビュー版をインストールすると、onnx版のコアを使った生成ができます。
https://github.com/VOICEVOX/voicevox/releases/tag/0.10.preview.4
生成が速くて魅力的なのですが、音声の品質が以前より悪いことが何度かあり、ちょっと気になっています。

例えばですが、「どれもこれも反省しているのだ」と入力し、開始無音を0.4秒に再生すると、最初の「ど」の音がちょっと潰れてしまいます。

voicevox-cpu.2022-01-07.06-33-14.mp4

現象・ログ

前後の無音時間を0.3~0.4秒くらいにすると、音が変になることがある。

再現手順

エディタのバージョン0.10.preview.4にて、あまあまずんだもんで「どれもこれも反省しているのだ」を、開始無音を0.3秒くらいにして再生する

期待動作

以前と同じ音声が再生できる。

その他

差が出ているのがonnx化したからなのか、間違えて違うモデルを利用しているからなのかがわかりません。
ただ、記録を確認した感じ以前と機械学習済みモデルが同じはずなので、同じ結果が返るはずなんだよなぁと感じています。
（実際音素長と音高は完璧に同じ値が出力されています。）

結構微妙な差ではありますが、こういう微妙な品質ダウンがユーザー心情を悪くするのかなと思ったので、真剣に原因を探りたいなと思いました。

libtorch版とonnx版で、decode_forwarderの出力結果って完全に一致するかをちょっと確認したいかもです。 @Yosshi999
無音時間が特定の長さになるとエラーになるのは、onnx化するときに変換が若干不完全な部分があって、例えばconvolutionの受容野の範囲の関係で偶然そうなっているのかなぁなどと考えています。

ref

Support onnx #21

Yosshi999 · 2022-01-07T05:05:47Z

float計算の再現性はなかなか難しくて、特にdecodeについてはonnx化をやった当時は結局諦めてしまいました( Hiroshiba/vv_core_inference#1 (comment) )。
なので出力を比較すれば恐らくずれていますが、本質的に何かが壊れているのか、float演算の誤差なのかは何とも言えません。ネットワークを分割して中間出力とにらめっこするしかなさそう？

あやしそうな点としては自作のpositional encodingを差し込んでいるところ(https://github.com/Hiroshiba/vv_core_inference/blob/539ca8f90de038471d22857ffdff496db2788009/vv_core_inference/make_yukarin_sosoa_forwarder.py#L141 )ですが、ここがおかしければ音声がもっと破綻してそうな気もします。

Hiroshiba · 2022-01-07T07:35:38Z

あーーーなるほどです > positional encoding
おっしゃる通り、僕も中間層の出力をひとつずつ確認とかになるのかなと感じてました。

（あとはなんとなくですが、weight norm辺りが意外とバグってるのかもなぁとちょっと思いました。挙動がなんかnormalize周りっぽみ感じたので）

Yosshi999 · 2022-01-08T07:53:19Z

weight normは確かonnx変換前に解除しないと失敗しますね

Hiroshiba · 2022-01-21T16:46:31Z

改めていろいろ試してみたところ、どうやら無声化された音素周りも苦手になっている印象でした。
F0の値が0で入力されている周りに何か問題があるのかもしれません。

こちら、わりと顕著に悪くなってしまっているので、バージョンアップまでに修正したいと考えています。
自分が取り組むつもりだったのですが、今回はバージョンアップ内容がてんこ盛りで、広範囲の調整に時間がかかってしまっています。

この分野は専門知識が必要で、修正できる方はとても限られている状況で、@Yosshi999 さんの力をぜひお借りしたいのですが、どうでしょう･･･？👀

Yosshi999 · 2022-01-22T06:32:38Z

一応ちょっと調べなおしてみたんですが、https://github.com/Hiroshiba/vv_core_inference/blob/539ca8f90de038471d22857ffdff496db2788009/vv_core_inference/make_yukarin_sosoa_forwarder.py#L126 ですでにtorchとonnxで誤差が発生しています。おそらく計算順序によるものだと思いますが、これが今回の異常と関係があるかは分かりません

これ以上深く調べるには秘匿情報が多すぎてちょっと厳しいですね。そもそも現状ではvv_core_inferenceレベルで異常が起こっているかどうかもよくわかってなくて、engineレベルのバグである可能性も残っていますよね？

Hiroshiba · 2022-01-22T08:44:38Z

おお、なるほどです！！
preの出力箇所で、ということでしょうか👀

たしかに、推論の段階ではなくエンジンの段階である可能性も全然ありそうです。
ちょっと推論部分だけ変えて生成結果を比較してみます…！

Hiroshiba · 2022-01-22T09:59:31Z

生成してみようとしていろいろしてたところ、原因がわかりました。

https://github.com/Hiroshiba/vv_core_inference/blob/539ca8f90de038471d22857ffdff496db2788009/run.py#L61-L66

どうやら↑の部分で、話者数分だけ何度もconvertしているためっぽかったです。
１回だけconvertにすれば品質の差はほとんどなくなりました。
たぶん１回convertするたびに誤差が増えて、何度も変換することで蓄積していくのかなと推察しています。

Hiroshiba · 2022-01-22T10:03:11Z

とりあえず変更を１度だけにするようにしたいと思います。
もし可能であれば、onnx化の段階で品質を全く変わらなくできるととても嬉しいです･･･！

Hiroshiba · 2022-02-04T15:12:52Z

出力が変わることに関してはこちらのissueで続けたいと思います。

onnx化によって出力が微妙に変化してしまう #73

主問題は解決したのでcloseします！

Hiroshiba added バグ優先度：中 labels Jan 6, 2022

Hiroshiba mentioned this issue Jan 22, 2022

変更を１度だけにする Hiroshiba/vv_core_inference#2

Merged

Hiroshiba mentioned this issue Feb 4, 2022

onnx化によって出力が微妙に変化してしまう #73

Open

Hiroshiba closed this as completed Feb 4, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

previewのonnx版コアを使った合成で、開始・終了無音を0.3~0.4秒くらいにすると音声が変になることがある #62

previewのonnx版コアを使った合成で、開始・終了無音を0.3~0.4秒くらいにすると音声が変になることがある #62

Hiroshiba commented Jan 6, 2022

Yosshi999 commented Jan 7, 2022

Hiroshiba commented Jan 7, 2022

Yosshi999 commented Jan 8, 2022

Hiroshiba commented Jan 21, 2022

Yosshi999 commented Jan 22, 2022

Hiroshiba commented Jan 22, 2022

Hiroshiba commented Jan 22, 2022

Hiroshiba commented Jan 22, 2022

Hiroshiba commented Feb 4, 2022

previewのonnx版コアを使った合成で、開始・終了無音を0.3~0.4秒くらいにすると音声が変になることがある #62

previewのonnx版コアを使った合成で、開始・終了無音を0.3~0.4秒くらいにすると音声が変になることがある #62

Comments

Hiroshiba commented Jan 6, 2022

不具合の内容

現象・ログ

再現手順

期待動作

その他

Yosshi999 commented Jan 7, 2022

Hiroshiba commented Jan 7, 2022

Yosshi999 commented Jan 8, 2022

Hiroshiba commented Jan 21, 2022

Yosshi999 commented Jan 22, 2022

Hiroshiba commented Jan 22, 2022

Hiroshiba commented Jan 22, 2022

Hiroshiba commented Jan 22, 2022

Hiroshiba commented Feb 4, 2022