Skip to content

Latest commit

 

History

History
64 lines (41 loc) · 1.75 KB

Hyfforddi.md

File metadata and controls

64 lines (41 loc) · 1.75 KB

Creu Peiriannau Moses-SMT

Hyfforddi gyda data corpora gan yr Uned Technolegau Iaith

Os hoffwch chi hyfforddi gan ddefnyddio data gan yr Uned Technolegau Iaith, sy'n dod o ffynonellau megis Cofnod y Cynulliad a'r corpws Ddeddfwriaeth, yna mae tri gorchymyn syml i'w defnyddio.

Yn gyntaf mae angen estyn y data rydym yn bwriadu ei ddefnyddio:

moses@ubuntu:~/moses-smt$ make run 
# python moses.py fetchcorpus -e CofnodYCynulliad

Pwrpas yr ail orchymyn yw hyfforddi a dynodi'r cyfeiriad cyfieithu (e.e. o Gymraeg i Saesneg, neu o Saesneg i'r Gymraeg). Byddwch angen cyfrifiadur gyda dros 4Gb o gof. Bydd y broses yn cymryd rhai oriau i gwblhau.

I hyfforddi peiriant cyfieithu gan ddefnyddio data CofnodYCynulliad i gyfieithu o Saesneg i'r Gymraeg:

# python moses.py train -e CofnodYCynulliad -s en -t cy

Ac yna i'w gychwyn:

# python moses.py start -e CofnodYCynulliad -s en -t cy

Gweler y dudalen canlynol am rhagor ar sut gellir rhedeg Moses-SMT

Hyfforddi gyda data corpora eich hun

Rhaid gosod eich testun fel ffeiliau testun cyfochrog o fewn is-ffolder sydd wedi ei henwi ar ôl enw eich peiriant newydd;

e.e. os yw'r data yn dod o hen gyfieithiadau 'Marchnata', yna defnyddiwch y gorchymyn canlynol :

# mkdir -p moses-models/Marchnata/corpus

Rhowch y ffeil Cymraeg o fewn ffeil gyda enw'r corpws a'r estyniad '.cy'.

Rhowch y data Saesneg o fewn ffeil gyda enw'r corpws a'r estyniad '.en'.

# ls moses-models/Marchnata/corpus
Marchnata.cy  Marchnata.en

Mae'r broses hyfforddi yn debyg i'r camau ochod, gweler :

# python moses.py train -e Marchnata -s en -t cy

Ac yna i'w chychwyn:

# python moses.py start -e Marchnata -s en -t cy