Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

TTS: Sifferinterval bør lesast som "frå X til Y" #31

Open
snomos opened this issue Sep 13, 2023 · 3 comments
Open

TTS: Sifferinterval bør lesast som "frå X til Y" #31

snomos opened this issue Sep 13, 2023 · 3 comments
Assignees
Labels
bug Something isn't working

Comments

@snomos
Copy link
Member

snomos commented Sep 13, 2023

For tekst som denne:

Muhtem suohkanijn li badjel 10 % viesádijn álldarin 40-79 jage diabiehtta sládja 2.

bør 40-79 lesast som frå X til Y, dvs med rett kasus på dei to tala. Slik det er no blir tala gjort om til X strek Y, som er forståeleg men veldig merkeleg. Her er noverande normalisering (med analyse):

: 
"<álldarin>"
	"áldar" N Sem/Feat-phys Ess "álldar>X5in"MIDTAPE <W:0.0> @<SPRED #8->3
	"áldar" N Sem/Feat-phys Sg Ine "álldar>X5in"MIDTAPE <W:0.0> @<ADVL #8->3
: 
"<40-79>"
	"nielljalåk tjanássáhtso gietjavlåkaktse" Num Arab Sg Gen "40∑-79>"MIDTAPE <W:0.0> @>N #9->15 "nielljalåk tjanássáhtso gietjavlåkaktse"phon
		"40-79" Num Arab Sg Gen "40∑-79>"MIDTAPE <W:0.0> @>N #9->15
	"nielljalåk tjanássáhtso gietjavlåkaktse" Num Arab Sg Nom "40∑-79>"MIDTAPE <W:0.0> @SUBJ> #9->15 "nielljalåk tjanássáhtso gietjavlåkaktse"phon
		"40-79" Num Arab Sg Nom "40∑-79>"MIDTAPE <W:0.0> @SUBJ> #9->15
: 
"<jage>"
	"jahke" N Sem/Time Sg Gen "jahke>Q1"MIDTAPE <W:0.0> @Num< #10->10
: 

Eg føreslår at vi heller deler opp denne teksten i tre segment, omtrent slik:

"<40>"
	"40" A Arab Ord Attr CLBfinal "40"MIDTAPE <W:0.0>
	"40" Num Arab Err/Orth Ess "40>"MIDTAPE <W:0.0>
	"40" Num Arab Err/Orth Sg Acc "40>"MIDTAPE <W:0.0>
	"40" Num Arab Err/Orth Sg Com "40>"MIDTAPE <W:0.0>
	"40" Num Arab Sg Ela Attr "40"MIDTAPE <W:0.0>
	"40" Num Arab Sg Gen "40>"MIDTAPE <W:0.0>
	"40" Num Arab Sg Ill Attr "40"MIDTAPE <W:0.0>
	"40" Num Arab Sg Ine Attr "40"MIDTAPE <W:0.0>
	"40" Num Arab Sg Nom "40>"MIDTAPE <W:0.0>
	"40" Num Sem/ID "40"MIDTAPE <W:0.0>
"<->"
	"-" PUNCT "∑-"MIDTAPE <W:0.0>
"<79>"
	"79" A Arab Ord Attr CLBfinal "79"MIDTAPE <W:0.0>
	"79" Num Arab Err/Orth Ess "79>"MIDTAPE <W:0.0>
	"79" Num Arab Err/Orth Sg Acc "79>"MIDTAPE <W:0.0>
	"79" Num Arab Err/Orth Sg Com "79>"MIDTAPE <W:0.0>
	"79" Num Arab Sg Ela Attr "79"MIDTAPE <W:0.0>
	"79" Num Arab Sg Gen "79>"MIDTAPE <W:0.0>
	"79" Num Arab Sg Ill Attr "79"MIDTAPE <W:0.0>
	"79" Num Arab Sg Ine Attr "79"MIDTAPE <W:0.0>
	"79" Num Arab Sg Nom "79>"MIDTAPE <W:0.0>
	"79" Num Sem/ID "79"MIDTAPE <W:0.0>
:\n

og at vi med utgangspunkt i bindestreken mellom to tal (og ev konteksten før og etter tala) vel dei kasusa som blir riktige for slike uttrykk når vi disambiguerer. Då kan vi seinare konvertera dei arabiske tala til tekst med rett kasus.

Kva synest de, @lynnda-hill , @ilm024 og @kathiasi ?

@snomos snomos added the bug Something isn't working label Sep 13, 2023
@snomos snomos changed the title Sifferinterval bør lesast som "frå X til Y" TTS: Sifferinterval bør lesast som "frå X til Y" Oct 23, 2023
@ilm024
Copy link
Contributor

ilm024 commented Sep 3, 2024

hvordan gjør jeg dette? Altså ikke disambigueringa, men deler opp i tre segment?

@snomos
Copy link
Member Author

snomos commented Sep 3, 2024

Før vi diskuterer korleis: er de samde i at vi gjer det på denne måten, dvs deler opp rundt bindestreken?

I disambigueringa så må vi òg ta omsyn til korleis bindestreken sjølv skal lesast. I dømet over så skal han ikkje lesast i det heile Imen blir uttrykt med frå- og til-kassus på tala, dvs som eit talområde). I andre tilfelle skal bindestreken kanskje lesast som minus. Dette krev at vi òg har ei analyse av bindestreken som opnar for minus-lesinga.

@ilm024
Copy link
Contributor

ilm024 commented Sep 10, 2024

Akkurat for denne setninga fungerer ikke de løsning "frå X til Y", fordi "jage"kommer rett etter, hadde det ikke vært "jage" etter så hadde det funket.

Muhtem suohkanijn li badjel lågev prosenta viesádijn álldarin nielljalåges gitta gietjavlåkaktsáj diabiehtta sládja 2.
*Muhtem suohkanijn li badjel lågev prosenta viesádijn álldarin nielljalåges gitta gietjavlåkaktsáj jage diabiehtta sládja 2.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants