Skip to content

v0.5 trained on coqui-stt 1.0.0

Compare
Choose a tag to compare
@robinhad robinhad released this 16 Nov 20:12
· 20 commits to main since this release
e2f1242

This model is trained on:

Total hours in dataset 700 hours.

License: Creative Commons Attribution-NonCommercial 4.0 International License

Parameters

  • train_cudnn
  • train_batch_size 32
  • dev_batch_size 32
  • test_batch_size 32
  • n_hidden 2048
  • learning_rate 0.0001
  • dropout_rate 0.60
  • alphabet_config_path
  • epochs 150
  • augment pitch[pitch=1~0.1]
  • augment tempo[factor=1~0.1]
  • augment reverb[p=0.2,decay=0.70.15,delay=108]
  • augment volume[p=0.2,dbfs=-10~10]
  • cache_for_epochs 10

Dataset details

dev.csv and test.csv are taken from Common Voice 7.0 dataset.

Test on /tmp/codalab/tmpE3l2Z8/run/input/ref/test.csv - WER: 0.649689, CER: 0.183548, loss: 28.395744

Best WER:

WER: 0.000000, CER: 0.000000, loss: 7.556924

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23568993.opus
  • src: "живемо як горох на дорозі хто не йде той скубне"
  • res: "живемо як горох на дорозі хто не йде той скубне"

WER: 0.000000, CER: 0.000000, loss: 4.642539

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23591022.opus
  • src: "тут іншої думки бути не може"
  • res: "тут іншої думки бути не може"

WER: 0.000000, CER: 0.000000, loss: 4.364529

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_22459005.opus
  • src: "переходимо до розгляду першого звіту"
  • res: "переходимо до розгляду першого звіту"

WER: 0.000000, CER: 0.000000, loss: 4.198352

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23830207.opus
  • src: "смерті моєї захтів єси"
  • res: "смерті моєї захтів єси"

WER: 0.000000, CER: 0.000000, loss: 4.176784

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_21570836.opus
  • src: "щось я не відчуваю лівий бік мого обличчя"
  • res: "щось я не відчуваю лівий бік мого обличчя"

Median WER:

WER: 0.666667, CER: 0.214286, loss: 18.668133

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_25344388.opus
  • src: "кого ж послемо до князя ілії"
  • res: "кого ж послема допнязі іїї"

WER: 0.666667, CER: 0.166667, loss: 18.628965

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24093045.opus
  • src: "вікілла господарю проказав тихшим голосом тлумач"
  • res: "відкіла господарю проказав тих щонголасом клумач"

WER: 0.666667, CER: 0.111111, loss: 18.223068

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_23579553.opus
  • src: "ніхто серйозно його не турбував у землі ростовсько суздальській"
  • res: "ніхто серйознойогоне трубував у землі ростовську суздельський"

WER: 0.666667, CER: 0.145833, loss: 18.129663

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_20948509.opus
  • src: "синій сапфір дорогоцінний камінь першого порядку"
  • res: "сині сяптієр до рогутінний камінь першого порядку"

WER: 0.666667, CER: 0.250000, loss: 18.099066

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_21582290.opus
  • src: "чи вони зберігаються"
  • res: "чого не зберігаються"

Worst WER:

WER: 2.000000, CER: 0.125000, loss: 3.093334

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_27046034.opus
  • src: "нульових"
  • res: "ну льових"

WER: 2.000000, CER: 0.066667, loss: 2.936281

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24815125.opus
  • src: "антиалкогольний"
  • res: "анти алкогольний"

WER: 2.000000, CER: 0.500000, loss: 2.577957

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24755026.opus
  • src: "вмер"
  • res: "ов мер"

WER: 2.000000, CER: 0.100000, loss: 2.057913

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_24754988.opus
  • src: "антибаріон"
  • res: "анти баріон"

WER: 3.000000, CER: 0.133333, loss: 4.383850

  • wav: file:///tmp/codalab/tmpE3l2Z8/run/input/ref/common_voice_uk_25102061.opus
  • src: "антибанківський"
  • res: "анти банків ський"