-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Cmp-tagger: problemer med Cmp/Sh ( #95
Comments
Comment 14073Date: 2020-10-23 10:23:28 +0200 Cmp-tagger: problemer med Cmp/Sh I MT er det problematisk å lage dynamiske sammensetninger, pga. +Cmp/Sh taggen. echo boradangirji |apertium -d. sme-smj boradangirji boradit+V+TV+Der/NomAct+N+Cmp/SgNom+Cmp#girji+N+Sg+Nom Men det er bårådibmegirjje og boradangirji som harmonerer når det gjelder tagger. For å få bårådimgirjje må Cmp/SgNom endres til Cmp/Sh, noe som er mulig i MT, men problemet er at dette skal gjelde bare ulikestavelsesverb, NomAct-substantiver avledet fra ulikestavelsesverb og firestavelsessubstantiver, og da krever det en større ommøblering av bidixfila, hvor man har egne stier for disse verbene og substantivene. På nordsamisk er ikke boradeapmigirji mulig, derfor er Cmp/Sh default og ikke uttrykt i tagger. Også på lulesamisk er Cmp/Sh default, men den lange formen er også mulig. Hvis det ikke hadde vært samme tagger, så kunne man brukt +Use/NG, dvt. kunne man ha +Cmp/Sh som en tilleggstagg i analysen, men som ikke er obligatorisk i genereringa. En annen mulighet er å endre sme, slik at taggene er som i smj, men i MT vil det da være problemer hvis innputt er et tostavelsesverb og output er et trestavelsesverb, eller motsatt, noe som ofte er tilfellet. |
Comment 14074Date: 2020-10-23 10:39:27 +0200 hvor man har egne stier for disse verbene og substantivene. skulle være |
Comment 14077Date: 2020-10-23 11:00:34 +0200 Ein måte å gjera dette på er ved å gjera alle taggane for samansetjingsform (+Cmp/SgNom, +Cmp/Sh, osb) valfrie ved generering, og fjerna dei frå analysen som blir sendt til generatoren. Då vil ein få alle former. Deretter, om ein gjev ulik vekt til dei, slik at +Cmp/SgNom har høgare vekt enn +Cmp/Sh, og ein alltid vel versjonen med lågast vekt vil ein få +Cmp/Sh om det finst ei slik form, men +Cmp/SgNom om det ikkje finst. Det vil òg gjera det lett å handtera skilnader mellom språka når det gjeld val av kasus (Nom vs Gen vs GenPl). Dette må testast ut, men for meg ser det ut til å kunna gje dei resultata vi vil ha. |
Comment 14081Date: 2020-10-23 17:01:45 +0200 For Cmp/Sh: Kunne man la default typen være umarkert, og heller legge til tagg for den som ikke er vanlig, feks. Cmp/Long? Når det gjelder å gjøre alle Cmp-taggene ikke-obligatoriske, er jeg litt mer skeptisk. Jeg tror at de samiske språkene for en stor del følger samme sammensetningsregler for +Cmp/SgNom og +Cmp/SgGen, f.eks. ietniepermisjovne vs. ietniengïele, maananvåågne, Når det gjelder Pl+Gen + Sg+Gen så kunne man evt. lage transferregel som viser til semtagg for mennesker, hvis det er forskjell mellom språkene. Det er problematisk å ikke ha styring på det, fordi f.eks. mánná, kan lage sammensetning både som mánná-, máná- og mánáid-. |
Comment 14082Date: 2020-10-23 17:03:12 +0200 Presisering: |
Denne er vel løst @leneantonsen? bårådimgirjje bårådit+V+TV+Der/NomAct+N+Cmp/SgNom+Cmp#girjje+N+Sg+Nom 0,000000 Jeg lukker buggen. |
This issue was created automatically with bugzilla2github
Bugzilla Bug 2695
Date: 2020-10-23T10:23:28+02:00
From: Lene Antonsen <<lene.antonsen>>
To: Inga Lill Sigga Mikkelsen <<inga.l.mikkelsen>>
CC: lene.antonsen, linda.wiechetek, sjur.n.moshagen, thomas.omma, trond.trosterud
Last updated: 2020-10-23T17:03:12+02:00
The text was updated successfully, but these errors were encountered: