Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

TTS: U21-landslaget - korleis skal vi handtera ikkje-samiske akronym? #36

Open
snomos opened this issue Nov 6, 2023 · 3 comments
Open
Assignees
Labels
bug Something isn't working

Comments

@snomos
Copy link
Member

snomos commented Nov 6, 2023

Her er eit døme frå innlesingskorpuset vårt:

I tillegg er det klart at VG skal vise kvalifiseringskampene til det norske U21-landslaget for herrer.

Problemet er U21. I ein norsk tekst så er det rimeleg at talet blir lese på norsk, ikkje på samisk. Eg har lagt til eiga transkribering slik:

U21:U-tjueen # ;

(usikker på korleis vi skal handtera U-en enno, men inntil vidare er det slik).

Det går bra ganske langt, heilt til:

New surface form: U21-
Expanding because of ACR
Using lemma: U21
1. looking up normaliser
2.a Using normalised form: U-tjueen
2.b regenerating lookup: U-tjueen+v1+N+Prop+Cmp
3. Couldn't regenerate, reanalysing lemma: U-tjueen
U21-	U21-	# "U21" v1 N Prop Sem/Org ACR Cmp/SplitR Cmp "U21-"MIDTAPE <W:0.0> @>N #14->14

Transkriptor gjev U-tjueen som eg har lagt inn, men i og med at U-tjueen ikkje ligg i den leksikalske fst-en, går ikkje den forma igjennom, og programmet fell tilbake til originalen.

Kva er den beste algoritmen? Han må vera så generell som mogleg.

  • ta output frå transkriptoren uansett, sjølv om dei ikkje let seg generera? Då vil vi i det minste ha noko.

Synspunkt, @flammie @kathiasi @ilm024 ?

@snomos snomos added the bug Something isn't working label Nov 6, 2023
@flammie
Copy link
Contributor

flammie commented Nov 6, 2023

tror den fallback til transkriptor-versjon var en del av problematikk i issue #35. Om vi gjorde den så kommer det 3-4 vers ioner ut av den der 200 genitiv.

@snomos
Copy link
Member Author

snomos commented Nov 6, 2023

Ja, men då var det underliggjande problemet at vi ikkje kunne generera fordi taggstrengen var feil. No er det problemet løyst, så kanskje vi kan vurdera eit slikt alternativ i alle fall?

@flammie
Copy link
Contributor

flammie commented Nov 6, 2023

det kan vi enkelt pröve, den nyeste version skriver ut normaliserte lemma om generering feiler

@snomos snomos changed the title U21-landslaget - korleis skal vi handtera ikkje-samiske akronym? TTS: U21-landslaget - korleis skal vi handtera ikkje-samiske akronym? Dec 8, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants