Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Fjern dobbeltgenererte former av samansetjingar i MT - ± bindestrek #23

Closed
snomos opened this issue May 2, 2024 · 12 comments
Closed
Assignees
Labels
bug Something isn't working

Comments

@snomos
Copy link
Member

snomos commented May 2, 2024

Frå @leneantonsen:

problem med at # blir til bindestrek

Det blir altså bindestrek som eit alternativ til null, og det gjev doble former i teksten som MT genererer. Det er sjølvsagt ikkje ok.

@snomos snomos added the bug Something isn't working label May 2, 2024
@snomos snomos changed the title Fjern dobbeltgenererte former av dynamiske samansetjingar i MT - med og utan bindestrek Fjern dobbeltgenererte former av samansetjingar i MT - med og utan bindestrek May 2, 2024
@snomos snomos changed the title Fjern dobbeltgenererte former av samansetjingar i MT - med og utan bindestrek Fjern dobbeltgenererte former av samansetjingar i MT - ± bindestrek May 2, 2024
@snomos
Copy link
Member Author

snomos commented Jun 11, 2024

Dette er eit problem berre om ein har uvekta FST-ar. Med ein vekta FST, konfigurert slik:

./configure --enable-apertium --with-backend-format=openfst-tropical

så blir resultatet dette:

echo 'goltelesijjie<n><sg><nom>' | hfst-lookup -q tools/mt/apertium/generator-mt-apertium-norm.hfstol
goltelesijjie<n><sg><nom>	goltelesijjie	0.000000
goltelesijjie<n><sg><nom>	goltele-sijjie	10.000000

og då kan ein enkelt filtrera vekk alle andre enn den analysen med lågast vekt, anten med CG-reglar, eller allereie med lookup:

echo 'goltelesijjie<n><sg><nom>' | hfst-lookup -q -b 1 tools/mt/apertium/generator-mt-apertium-norm.hfstol
goltelesijjie<n><sg><nom>	goltelesijjie	0.000000

@snomos
Copy link
Member Author

snomos commented Jun 11, 2024

For at dette skal fungera i produksjonssystem krevst det sjølvsagt at:

  1. generatoren er vekta
  2. det finst ein mekanisme for å filtrera vekk former med ikkje-minst vekt

@snomos
Copy link
Member Author

snomos commented Jun 11, 2024

Etter testing så ser @leneantonsen og eg at ting fungerer lokalt for oss begge. Det som då står att er å sjekka om det er feil i bygginga for apertium-serveren. Kan du sjekka det, @unhammer ?

@snomos
Copy link
Member Author

snomos commented Jun 11, 2024

Feilen ligg ikkje i lang-sma, men eg ventar med å lata att denne saka til @unhammer har stadfest at feilen er retta annan stades.

@unhammer
Copy link
Contributor

unhammer commented Jun 11, 2024

$ apt-cache show giella-sma|grep Version
Version: 0.2.0+g12648~1045a5f1-1~sid1

$ git log 1045a5f1 -n1
commit 1045a5f1a272b58a3d89660996d95aa08e232df1
Author: Sjur N Moshagen <sjurnm@mac.com>
Date:   Thu Apr 11 17:47:11 2024 +0300

    Retta skrivefeil i stammen, som stoppa make check

så siste gong ei lang-sma-pakke blei bygd i Tino sitt system er april 1045a5f .

Er det slik at

  • lang-sma frå nyaste kjeldekode gir korrekt output (ingen dobbeltformer frå mt-generator)
  • apertium-sme-sma likevel genererer dobbeltformer sjølv om det blir bygd med lang-sma frå nyaste kjeldekode
    ?

@snomos
Copy link
Member Author

snomos commented Jun 11, 2024

Lang-sma gjev korrekte former med nyaste og eldre versjonar dersom:

  • fst-en blir bygd i eit vekta format
  • generatoren blir beden om berre å skriva ut den beste forma etter vekt

Men eg veit ikkje om det fyrste punktet stemmer for Tino sitt byggjesystem, og heller ikkje om det andre punktet stemmer for oppsettet på serveren.

@unhammer
Copy link
Contributor

På gtweb køyrer berre det Lene lastar opp, så viss det fungerer for ho, så burde det fungera på gtweb.

Det ser ut som giella-sma.deb blir bygd med
$ ./configure --build=x86_64-linux-gnu --prefix=/usr '--includedir=${prefix}/include' '--mandir=${prefix}/share/man' '--infodir=${prefix}/share/info' --sysconfdir=/etc --localstatedir=/var --disable-option-checking --disable-silent-rules '--libdir=${prefix}/lib/x86_64-linux-gnu' --runstatedir=/run --disable-maintainer-mode --disable-dependency-tracking --without-forrest --with-hfst --enable-tokenisers --without-xfst --enable-reversed-intersect --enable-spellers --enable-hfst-mobile-speller --enable-alignment --disable-minimised-spellers --enable-syntax --enable-analysers --enable-generators --enable-apertium --enable-grammarchecker --with-backend-format=foma --enable-dicts --enable-oahpa --enable-morpher --disable-hfst-desktop-spellers
jf. http://apertium.projectjj.com/apt/logs/giella-sma/sid-amd64.log

@TinoDidriksen
Copy link
Member

...right, gramtool kræves jo nu af mange sprog. Den har jeg packaged, men glemt faktisk at bruge i builds.

@snomos
Copy link
Member Author

snomos commented Jun 12, 2024

Det ser ut som giella-sma.deb blir bygd med
[...]
--with-backend-format=foma

Dette er problemet. For at analysatorane som blir bygde skal fungera korrekt med MT, så må den delen av ./configure-argumenta vera --with-backend-format=openfst-tropical. Etter det burde MT-servaren fungera korrekt for SMA.

@TinoDidriksen
Copy link
Member

giella-sma rebuilt with gtgramcheck and backend-format=openfst-tropical. Se om det virker.

@flammie
Copy link
Contributor

flammie commented Aug 20, 2024

det skulle fungere med foma backend nå også fra 169c636, mt/apertium blir alltid bygt med openfst men det del av reweight som disambiguerer bindestrek uten +Cmp tagg i https://github.com/giellalt/lang-sma/blob/main/src/Makefile.am#L26-L27 var ikke i bruk uten openfst

@snomos
Copy link
Member Author

snomos commented Aug 26, 2024

@leneantonsen fungerer ting som dei skal no? Kan denne feilmeldinga avsluttast? Det er elles same feil som er meldt tidlegare i Bugzilla, og som no finst som #32 .

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

4 participants