-
Notifications
You must be signed in to change notification settings - Fork 3
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
hashtag til bindestrek i sma (Bugzilla Bug 2678) #32
Comments
Comment 13991Date: 2020-09-15 16:23:09 +0200 Dette gjelder hashtag til bindestrek i sma. Hvordan skal vi unngå at de kommer med i MT og til paradigmet i NDS? Slik ser det ut NDS-paradigmet: MT: Vi har diskutert dette før, men jeg fant ikke bz. Jeg mener at konklusjonen var å legge til vekt? Det er ingen vekt no hdsmaNorm saemiengielie+N+Sg+Acc |
Comment 14041Date: 2020-10-09 10:37:46 +0200 For å få vektar må ein nytta eit fst-format som støttar vektar. Dessverre er det formatet samtidig det som bruker lengst tid på å kompilera. Vi har no endra standardkonfigurasjonen slik at om du skriv: ./configure (altså utan ekstra spesifiseringar) så får du hfst, i foma-format. Dette er den raskaste måten å kompilera hfst-analysatorar på, og konkurrerer med Xerox i kompileringsfart (men med stor variasjon mellomspråk - xerox er jamnt over ein god del raskare, men twolc-integreringa har vi fått optimalisert med hfst slik at den er mykje raskare enn xerox). For å få vekter så må du skriva dette: ./configure --with-backend-format=openfst-tropical Men då tek altså kompileringa lenger tid. Merk at du etter å ha gjort dette må skriva Eg vil føreslå at i det daglege arbeidet så nyttar vi standardoppsettet (som er utan vekter), men at for NDS og andre verkty så byggjer vi fst-ane med vekter. Den bygginga bør vera automatisert. Med vekter så ser døma dine slik ut for meg: echo hijven+A+Attr+Der/laakan+Adv | hfst-lookup -q src/generator-gt-norm.hfstol echo saemiengielie+N+Sg+Acc | hfst-lookup -q src/generator-gt-norm.hfstol Er dette slik det skal vera? |
Comment 14042Date: 2020-10-09 11:06:59 +0200 Spørsmål til Kevin: Vil dette være en løsning for Apertium MT? Kan vi kompilere slik at vektene er med og at den med vekt 10,000000 eller mer filtreres bort? (jeg synes å huske at det var problemer med denne løsningen for Apertium tidligere, men det kan ha endret seg) Spørsmål til Chiara: Vil dette være en løsning for NDS? Kan vi filtrere bort formene med vekt 10,000000 eller mer filtreres bort? Jeg regner med at med at ord med flere sammensetninger vil få vekter som 20,0000 og 30,00000 ? |
Comment 14043Date: 2020-10-09 11:09:00 +0200 (In reply to Lene Antonsen from comment #2)
Ja. |
Comment 14072Date: 2020-10-23 09:30:14 +0200 (In reply to Lene Antonsen from comment #2)
Vekter er allereie brukt i sme-nob iallfall, i analysatoren: $ echo vuolla|hfst-lookup -q sme-nob.automorf.hfst $ echo vuollavuollavuolla|hfst-lookup -q sme-nob.automorf.hfst for å prioritera leksikaliserte oppslag: $ echo koronavirus|hfst-proc --weight-classes 1 sme-nob.automorf.hfst $ echo koronavirus|hfst-proc --weight-classes 2 sme-nob.automorf.hfst Det ser ut som sme-sma.autogen.hfst allereie er vekta: $ hfst-summarise -v /usr/share/apertium/apertium-sme-sma/sme-sma.autogen.hfst |grep -i weight så då er det vel berre å køyra på? |
Comment 14075Date: 2020-10-23 10:49:30 +0200 Kevin: hva mener du med: echo lullisámegiella|apertium -d. sme-sma |
Comment 14078Date: 2020-10-23 12:23:45 +0200 Altså å legga til vekt på den varianten du ikkje vil generera |
Comment 14079Date: 2020-10-23 12:53:54 +0200 (In reply to Kevin Brubeck Unhammer from comment #6)
Vil dette fungere hvis jeg skriver: Eller må Makefila endres? I tilfelle at den må endres, hvem gjør det? |
Comment 14080Date: 2020-10-23 16:02:27 +0200 Det fungerte bare med en ny configure i min maskin! Dette bør legges inn i automatisk jobb hos Tino, og evt andre steder |
Comment 14085Date: 2020-10-26 15:19:22 +0100 Jeg har fornyet dict-generatorer og analysatorer, og lagt på gtdict-server med slik configure: Nå blir det generering med vekter, dvs at Chiara kan for bøyningsparadigmet filtrere bort dem som har vekt mer enn 0,00000 |
Comment 14086Date: 2020-10-26 15:20:45 +0100 Slik ser det ut nå på gtdict.uit.no: echo åarjelsaemiengïele+N+Sg+Nom |hfst-lookup /opt/smi/sma/bin/generator-dict-gt-norm.hfstol
|
Dette er no i boks, jf #23 . |
This issue was created automatically with bugzilla2github
Bugzilla Bug 2678
Date: 2020-09-15T16:23:09+02:00
From: Lene Antonsen <<lene.antonsen>>
To: Sjur Nørstebø Moshagen <<sjur.n.moshagen>>
CC: @argese.chiara@gmail.com, lene.antonsen, sjur.n.moshagen, thomas.omma, trond.trosterud, @unhammer@fsfe.org
Last updated: 2020-10-26T15:20:45+01:00
The text was updated successfully, but these errors were encountered: