Skip to content

Corpws o sgyrsiau cymorth Cysgliad | A Corpus of support chat messages for the Cysgliad software

License

Notifications You must be signed in to change notification settings

techiaith/corpws-sgwrsfot-cysgliad

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 

Repository files navigation

See below for English

Corpws Sgwrsfot Cysgliad

Cefndir

Dyma Gorpws Sgwrsfot Cysgliad, sy'n gorpws o sgyrsiau Cymorth Cysgliad. Mae Cymorth Cysgliad yn rhyngwyneb sgyrsiol sydd wedi ei greu i helpu defnyddwyr Cysgliad gyda'u hymholiadau technegol ynghylch y pecyn. Mae defnyddwyr yn cael at y rhyngwyneb trwy bori https://www.cysgliad.com/. Mae'r data yn cynnwys ymholiadau'r defnyddwyr ynghyd ag atebion gan dechnegwyr cig a gwaed Uned Technolegau Iaith Prifysgol Bangor. Er tegwch i’r cyfranwyr rydym wedi anonymeiddio enwau, enwau sefydliadu, rhifau ffôn, cyfeiriadau a chyfeiriadau e-bost ac ati yn y data.

Dylid nodi nad oes elfen awtomataidd yn bod i'r sgwrsfot, hynny yw nid oes 'bot' sy'n ateb neu'n ymateb i gwestiynau’r defnyddwyr yn bodoli. Yn hytrach, y bwriad yw defnyddio'r corpws hwn yn y dyfodol i hyfforddi sgwrsfot awtomatig ar gyfer Cysgliad a fydd hefyd yn sail ar gyfer sgwrsfotiaid eraill ar gyfer cynnyrch arall yn y man.

Yn wreiddiol, casglwyd y data dros gyfnod o 29 mis, rhwng mis Mai 2020 a mis Hydref 2022. Diweddarwyd y corpws ym mis Mehefin 2023, gan ychwanegu data a gasglwyd rhwng mis Hydref 2022 a mis Mehefin 2023 at y corpws. Diweddarwyd y corpws eto ym mis Gorffennaf 2024. Y tro hwn ychwanegwyd data a gasglwyd rhwng mis Mehefin 2023 a mis Gorffennaf 2024 at y corpws.

Ffurf a Chynnwys y Corpws

Mae'r corpws ar ffurf testun plaen ac yn cynnwys 2326 o frawddegau, gyda phob brawddeg ar linell newydd.

Y Dyfodol

Rydym yn bwriadu ychwanegu deunydd i'r corpws hwn yn rheolaidd wrth i'r nifer o bobl sy'n cysylltu trwy’r rhyngwyneb gynyddu. Fel y nodwyd uchod, pobl cig a gwaed sy'n ymateb i ymholiadau'r defnyddwyr trwy'r rhyngwyneb, ond rhagwelwn y bydd cynnwys y corpws hwn yn cael ei ddefnyddio i hyfforddi sgwrsfot awtomatig yn y dyfodol.

Diolchiadau

Rydym yn ddiolchgar i Lywodraeth Cymru am ariannu’r gwaith hwn fel rhan o broject Technoleg Testun, Lleferydd a Chyfieithu ar gyfer yr Iaith Gymraeg.

Cysgliad Chatbot Corpus

Background

This is the Cysgliad Chatbot Corpus, which is a corpus of Cysgliad Support chats. Cysgliad Support is a conversational interface that has been created to help Cysgliad users with their technical queries regarding the package. Users access the interface through https://www.cysgliad.com/. The data includes the users' inquiries together with answers from human technicians employed by Bangor University's Language Technologies Unit. Out of respect to the contributors, we have anonymised names, organization names, telephone numbers, addresses and email addresses etc. in the data.

It should be noted that the chatbot has no automated elements, that is no 'bot' answers or responds to the users' questions. Rather, the intention is to use this corpus in the future to train an automatic chatbot for Cysgliad, which in turn will also be the basis for other chatbots for another product in the future.

Originally, the data was collected over a period of 29 months, between May 2020 and October 2022. The corpus was then updated in June 2023, when data collected between October 2022 and June 2023 was added to the corpus. The corpus was updated again in July 2024. This time data collected between June 2023 and July 2024 was added to the corpus.

Form and Content of the Corpus

The corpus is in plain text format and contains 2326 sentences, with each sentence on a new line.

The Future

We plan to add material to this corpus regularly as the number of people connecting through the interface increases. As stated above, real people respond to the users' queries through the interface, but we anticipate that the content of this corpus will be used to train an automatic chatbot in the future.

Acknowledgments

We are grateful to the Welsh Government for funding this work as part of the Text, Speech and Translation Technology project for the Welsh Language.