Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

«7 and »7 go to phonology.xfst to get their 7 stripped ( #3

Open
albbas opened this issue Apr 20, 2020 · 2 comments
Open

«7 and »7 go to phonology.xfst to get their 7 stripped ( #3

albbas opened this issue Apr 20, 2020 · 2 comments
Labels
enhancement New feature or request low priority

Comments

@albbas
Copy link
Contributor

albbas commented Apr 20, 2020

This issue was created automatically with bugzilla2github

Bugzilla Bug 2659

Date: 2020-04-20T13:31:57+02:00
From: Trond Trosterud <<trond.trosterud>>
To: Sjur Nørstebø Moshagen <<sjur.n.moshagen>>

Last updated: 2020-04-21T15:51:04+02:00

@albbas
Copy link
Contributor Author

albbas commented Apr 20, 2020

Comment 13922

Date: 2020-04-20 13:31:57 +0200
From: Trond Trosterud <<trond.trosterud>>

«» are modeled as «+LEFT:«7 in , in order to distinguish them «» used as derivation affix markers (?). Here is where they origin:

grep 7 main/giella-shared/all_langs/src/morphology/stems/punctuation.lexc
«+PUNCT+LEFT:«7 PunctEnd ;
»+PUNCT+RIGHT:»7 PunctEnd ;

They are then removed in the kal phonology:

grep 7 main/langs/kal/src/morphology/phonology.xfscript
define SevenQuotation «7 -> « , »7 -> » ;

Now, let us see whether there are better ways of doing this. Sjur?

@albbas
Copy link
Contributor Author

albbas commented Apr 21, 2020

Comment 13929

Date: 2020-04-21 15:51:04 +0200
From: Trond Trosterud <<trond.trosterud>>

Brevveksling mellom Tino og meg (sjå nedanfor).
Resultatet er at eg sjekkar inn ein versjon av phonology.xfscript
som ikkje inneheld regelen
define SevenQuotation «7 -> « , »7 -> » ;

Resultatet er som Tino refererer til (og «, » blir fjerna når hfst-tokenise blir køyrd utan -g). Det s


Tino:

Kal kan bygges igen, men rettelsen med » og « er forsvundet, så tokeniser virker ikke igen. Samme fejl som før.

Et sanity check er at køre dette:
$ echo '»inussuaq«.' | hfst-tokenise -g tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst

Det korrekte output er:

""
"inuk" SUAQ Der/nn N Abs Sg <W:0.0>
"inussuaq" N Abs Sg <W:0.0>

"<.>"
"." CLB <W:0.0>
:\n

Lige nu giver den dette forkerte output i stedet:
"<>"
"«" PUNCT LEFT <W:0.0>
"»" PUNCT RIGHT <W:0.0>

""
"inuk" SUAQ Der/nn N Abs Sg <W:0.0>
"inussuaq" N Abs Sg <W:0.0>

"<.>"
"." CLB <W:0.0>
"<>"
"«" PUNCT LEFT <W:0.0>
"»" PUNCT RIGHT <W:0.0>
:\n
"<>"
"«" PUNCT LEFT <W:0.0>
"»" PUNCT RIGHT <W:0.0>

-- Tino Didriksen

Her er mine testresultat (nedanfor).

Slik eg forstår Tino vil vi ha

som analyse for hermeteikna. Eg visste ikkje at det var det vi ville ha, men har no sjekka inn den versjonen (A) som gjev os det resultatet.

Trond

A. utan «7 -> 0 i fonologien:
analysatoren fungerer men tokeniser fungerer ikkje.

Versjonen av phonology.xfscript utan «7 -> «
fungerer på følgjande måte:

Brukt med hfst-lookup fungerer den korrekt:
« «+PUNCT+LEFT 0,000000

Brukt med tokeniser fjernar den hermeteiknet:
e "«illu»"|hfst-tokenise -cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst

""
"ih" Interj LU <W:0.0>
"illu" N Abs Sg <W:0.0>
:»\n

B. med «7 -> 0 i fonologien:
analysatoren fungerer ikkje men tokeniser fungerer.

Brukt med tokeniser fjernar den hermeteiknet:
e "«illu»"|hfst-tokenise -cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst

""
"ih" Interj LU <W:0.0>
"illu" N Abs Sg <W:0.0>
:»\n
(base) tf-hsl-m0016:kal ttr000$ see misc/kal-7-debug
(base) tf-hsl-m0016:kal ttr000$ hufkv
^C
(base) tf-hsl-m0016:kal ttr000$ hukal
«
« «+? inf

(base) tf-hsl-m0016:kal ttr000$ e "«illu»"|hfst-tokenise -cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst
"<>"
"«" PUNCT LEFT <W:0.0>
"»" PUNCT RIGHT <W:0.0>

""
"ih" Interj LU <W:0.0>
"illu" N Abs Sg <W:0.0>

"<>"
"«" PUNCT LEFT <W:0.0>
"»" PUNCT RIGHT <W:0.0>
:\n
"<>"
"«" PUNCT LEFT <W:0.0>
"»" PUNCT RIGHT <W:0.0>


Hvis » kan få en ægte analyse fra tokeniser ville det være bedst, men det kan den så vidt jeg ved ikke i første omgang. Vi har et wrapper script kal-tokenise der kører dem igen som enkelte tokens som så giver en analyse.

Problemet var at de tomme cohorts fra tokeniseren ødelagde alt udenoms. Nu er de væk, så alt er godt igen. Hvad de har med «» at gøre aner jeg ikke.

Rå output der er brugbart:
$ echo "«illu»" | hfst-tokenise -g tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst

""
"ih" Interj LU <W:0.0>
"illu" N Abs Sg <W:0.0>
:»\n

Med wrapper script:
$ echo "«illu»" | ./tools/shellscripts/kal-tokenise
"<«>"
"«" PUNCT LEFT
""
"ih" Interj LU
"illu" N Abs Sg
"<»>"
"»" PUNCT RIGHT

Hvis det er muligt at få det færdige output fra tokeniser, så vil vi da selvfølgelig gerne det. Men der har indtil videre været mange ting som tokeniseren ikke kan, så derfor har vi kal-tokenise til at rette op på det.

Men altså, det virker nu.

-- Tino Didriksen

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request low priority
Projects
None yet
Development

No branches or pull requests

1 participant