Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

hashtag til bindestrek i sma (Bugzilla Bug 2678) #32

Closed
albbas opened this issue Sep 15, 2020 · 12 comments
Closed

hashtag til bindestrek i sma (Bugzilla Bug 2678) #32

albbas opened this issue Sep 15, 2020 · 12 comments
Labels
bug Something isn't working

Comments

@albbas
Copy link
Contributor

albbas commented Sep 15, 2020

This issue was created automatically with bugzilla2github

Bugzilla Bug 2678

Date: 2020-09-15T16:23:09+02:00
From: Lene Antonsen <<lene.antonsen>>
To: Sjur Nørstebø Moshagen <<sjur.n.moshagen>>
CC: @argese.chiara@gmail.com, lene.antonsen, sjur.n.moshagen, thomas.omma, trond.trosterud, @unhammer@fsfe.org

Last updated: 2020-10-26T15:20:45+01:00

@albbas
Copy link
Contributor Author

albbas commented Sep 15, 2020

Comment 13991

Date: 2020-09-15 16:23:09 +0200
From: Lene Antonsen <<lene.antonsen>>

Dette gjelder hashtag til bindestrek i sma. Hvordan skal vi unngå at de kommer med i MT og til paradigmet i NDS?

Slik ser det ut NDS-paradigmet:
saemien-gieliem
saemiengieliem saemien-gielide
saemien-geelide
saemiengielide
saemiengeelide

MT:
Tjoerebe badth hijven-laakan/hijvenlaakan gåårvedidh, tjidtjie Biretasse jeahta.

Vi har diskutert dette før, men jeg fant ikke bz. Jeg mener at konklusjonen var å legge til vekt? Det er ingen vekt no

hdsmaNorm
hijven+A+Attr+Der/laakan+Adv
hijven+A+Attr+Der/laakan+Adv hijven-laakan 0,000000
hijven+A+Attr+Der/laakan+Adv hijvenlaakan 0,000000

saemiengielie+N+Sg+Acc
saemiengielie+N+Sg+Acc saemien-gieliem 0,000000
saemiengielie+N+Sg+Acc saemiengieliem 0,000000

@albbas
Copy link
Contributor Author

albbas commented Oct 9, 2020

Comment 14041

Date: 2020-10-09 10:37:46 +0200
From: Sjur Nørstebø Moshagen <<sjur.n.moshagen>>

For å få vektar må ein nytta eit fst-format som støttar vektar. Dessverre er det formatet samtidig det som bruker lengst tid på å kompilera.

Vi har no endra standardkonfigurasjonen slik at om du skriv:

./configure

(altså utan ekstra spesifiseringar) så får du hfst, i foma-format. Dette er den raskaste måten å kompilera hfst-analysatorar på, og konkurrerer med Xerox i kompileringsfart (men med stor variasjon mellomspråk - xerox er jamnt over ein god del raskare, men twolc-integreringa har vi fått optimalisert med hfst slik at den er mykje raskare enn xerox).

For å få vekter så må du skriva dette:

./configure --with-backend-format=openfst-tropical

Men då tek altså kompileringa lenger tid.

Merk at du etter å ha gjort dette må skriva make clean før du kan skriva make.

Eg vil føreslå at i det daglege arbeidet så nyttar vi standardoppsettet (som er utan vekter), men at for NDS og andre verkty så byggjer vi fst-ane med vekter. Den bygginga bør vera automatisert.

Med vekter så ser døma dine slik ut for meg:

echo hijven+A+Attr+Der/laakan+Adv | hfst-lookup -q src/generator-gt-norm.hfstol
hijven+A+Attr+Der/laakan+Adv hijvenlaakan 0,000000
hijven+A+Attr+Der/laakan+Adv hijven-laakan 10,000000

echo saemiengielie+N+Sg+Acc | hfst-lookup -q src/generator-gt-norm.hfstol
saemiengielie+N+Sg+Acc saemiengieliem 0,000000
saemiengielie+N+Sg+Acc saemien-gieliem 10,000000

Er dette slik det skal vera?

@albbas
Copy link
Contributor Author

albbas commented Oct 9, 2020

Comment 14042

Date: 2020-10-09 11:06:59 +0200
From: Lene Antonsen <<lene.antonsen>>

Spørsmål til Kevin: Vil dette være en løsning for Apertium MT? Kan vi kompilere slik at vektene er med og at den med vekt 10,000000 eller mer filtreres bort? (jeg synes å huske at det var problemer med denne løsningen for Apertium tidligere, men det kan ha endret seg)

Spørsmål til Chiara: Vil dette være en løsning for NDS? Kan vi filtrere bort formene med vekt 10,000000 eller mer filtreres bort?

Jeg regner med at med at ord med flere sammensetninger vil få vekter som 20,0000 og 30,00000 ?

@albbas
Copy link
Contributor Author

albbas commented Oct 9, 2020

Comment 14043

Date: 2020-10-09 11:09:00 +0200
From: Sjur Nørstebø Moshagen <<sjur.n.moshagen>>

(In reply to Lene Antonsen from comment #2)

Jeg regner med at med at ord med flere sammensetninger vil få vekter som
20,0000 og 30,00000 ?

Ja.

@albbas
Copy link
Contributor Author

albbas commented Oct 23, 2020

Comment 14072

Date: 2020-10-23 09:30:14 +0200
From: @unhammer@fsfe.org

(In reply to Lene Antonsen from comment #2)

Spørsmål til Kevin: Vil dette være en løsning for Apertium MT? Kan vi
kompilere slik at vektene er med og at den med vekt 10,000000 eller mer
filtreres bort? (jeg synes å huske at det var problemer med denne løsningen
for Apertium tidligere, men det kan ha endret seg)

Vekter er allereie brukt i sme-nob iallfall, i analysatoren:

$ echo vuolla|hfst-lookup -q sme-nob.automorf.hfst
vuolla vuolla<sem_drink> 0,000000
vuolla vuolla 0,000000

$ echo vuollavuollavuolla|hfst-lookup -q sme-nob.automorf.hfst
vuollavuollavuolla vuolla<cmp_sgnom>+vuolla<cmp_sgnom>+vuolla<sem_drink> 20,000000
vuollavuollavuolla vuolla<cmp_sgnom>+vuolla<cmp_sgnom>+vuolla 20,000000
vuollavuollavuolla vuolla<cmp_sgnom>+vuolla<sem_drink><cmp_sgnom>+vuolla<sem_drink> 20,000000
vuollavuollavuolla vuolla<cmp_sgnom>+vuolla<sem_drink><cmp_sgnom>+vuolla 20,000000
vuollavuollavuolla vuolla<sem_drink><cmp_sgnom>+vuolla<cmp_sgnom>+vuolla<sem_drink> 20,000000
vuollavuollavuolla vuolla<sem_drink><cmp_sgnom>+vuolla<cmp_sgnom>+vuolla 20,000000
vuollavuollavuolla vuolla<sem_drink><cmp_sgnom>+vuolla<sem_drink><cmp_sgnom>+vuolla<sem_drink> 20,000000
vuollavuollavuolla vuolla<sem_drink><cmp_sgnom>+vuolla<sem_drink><cmp_sgnom>+vuolla 20,000000

for å prioritera leksikaliserte oppslag:

$ echo koronavirus|hfst-proc --weight-classes 1 sme-nob.automorf.hfst
^koronavirus/koronavirus<sem_state-sick_substnc>/koronavirus$

$ echo koronavirus|hfst-proc --weight-classes 2 sme-nob.automorf.hfst
^koronavirus/koronavirus<sem_state-sick_substnc>/koronavirus/korona<cmp_sggen>+virus<sem_state-sick_substnc>/korona<cmp_sggen>+virus/korona<cmp_sgnom>+virus<sem_state-sick_substnc>/korona<cmp_sgnom>+virus/korona<sem_state-sick><cmp_sggen>+virus<sem_state-sick_substnc>/korona<sem_state-sick><cmp_sggen>+virus/korona<sem_state-sick><cmp_sgnom>+virus<sem_state-sick_substnc>/korona<sem_state-sick><cmp_sgnom>+virus$

Det ser ut som sme-sma.autogen.hfst allereie er vekta:

$ hfst-summarise -v /usr/share/apertium/apertium-sme-sma/sme-sma.autogen.hfst |grep -i weight
Reading from /usr/share/apertium/apertium-sme-sma/sme-sma.autogen.hfst, writing to
Summarizing...
arc type: weighted
weighted: yes

så då er det vel berre å køyra på?

@albbas
Copy link
Contributor Author

albbas commented Oct 23, 2020

Comment 14075

Date: 2020-10-23 10:49:30 +0200
From: Lene Antonsen <<lene.antonsen>>

Kevin: hva mener du med:
så då er det vel berre å køyra på?
Hva skal gjøres for å få unngå slikt:

echo lullisámegiella|apertium -d. sme-sma
åarjel-saemien-gïele/åarjel-saemiengïele/åarjelsaemien-gïele/åarjelsaemiengïele

@albbas
Copy link
Contributor Author

albbas commented Oct 23, 2020

Comment 14078

Date: 2020-10-23 12:23:45 +0200
From: @unhammer@fsfe.org

Altså å legga til vekt på den varianten du ikkje vil generera

@albbas
Copy link
Contributor Author

albbas commented Oct 23, 2020

Comment 14079

Date: 2020-10-23 12:53:54 +0200
From: Lene Antonsen <<lene.antonsen>>

(In reply to Kevin Brubeck Unhammer from comment #6)

Altså å legga til vekt på den varianten du ikkje vil generera

Vil dette fungere hvis jeg skriver:
./configure --with-backend-format=openfst-tropical --with-hfst --enable-apertium

Eller må Makefila endres? I tilfelle at den må endres, hvem gjør det?

@albbas
Copy link
Contributor Author

albbas commented Oct 23, 2020

Comment 14080

Date: 2020-10-23 16:02:27 +0200
From: Lene Antonsen <<lene.antonsen>>

Det fungerte bare med en ny configure i min maskin!
echo lullisámegiella|apertium -d. sme-sma
åarjelsaemiengïele

Dette bør legges inn i automatisk jobb hos Tino, og evt andre steder

@albbas
Copy link
Contributor Author

albbas commented Oct 26, 2020

Comment 14085

Date: 2020-10-26 15:19:22 +0100
From: Lene Antonsen <<lene.antonsen>>

Jeg har fornyet dict-generatorer og analysatorer, og lagt på gtdict-server med slik configure:
./configure --enable-dicts --with-backend-format=openfst-tropical

Nå blir det generering med vekter, dvs at Chiara kan for bøyningsparadigmet filtrere bort dem som har vekt mer enn 0,00000

@albbas
Copy link
Contributor Author

albbas commented Oct 26, 2020

Comment 14086

Date: 2020-10-26 15:20:45 +0100
From: Lene Antonsen <<lene.antonsen>>

Slik ser det ut nå på gtdict.uit.no:

echo åarjelsaemiengïele+N+Sg+Nom |hfst-lookup /opt/smi/sma/bin/generator-dict-gt-norm.hfstol

åarjelsaemiengïele+N+Sg+Nom åarjelsaemiengïele 0,000000
åarjelsaemiengïele+N+Sg+Nom åarjel-saemiengïele 10,000000
åarjelsaemiengïele+N+Sg+Nom åarjelsaemien-gïele 10,000000
åarjelsaemiengïele+N+Sg+Nom åarjel-saemien-gïele 20,000000

@snomos
Copy link
Member

snomos commented Aug 26, 2024

Dette er no i boks, jf #23 .

@snomos snomos closed this as completed Aug 26, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants