Skip to content

syimyuzya/guangyun0704

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

有女同車《〈廣韻〉全字表》原表

互聯網最初的《廣韻》字音公開資料、韻典網建站之初的資料源之一,有女同車《〈廣韻〉全字表》,再次上線。

由於原檔為 MS Access 資料庫格式,今難以讀取,雖另有純文字版但格式有疏失致使無法機讀;故在此額外提供一版經過修正更易機讀的 TXT 格式。

內容

  • original/:有女同車於北大中文論壇所發佈原始檔案
    • Kuankhiunn0704.mdb:原始資料,為 MS Access 資料庫格式,今已不易讀取
    • Kuankhiunn0704.txt:由原檔轉出而成的純文字格式,以 | 分隔字段,然而資料內容文字亦含有 | 字符致使混淆
    • readme.txt:隨原資料所附說明檔
  • scripts/:重製可機讀版純文字檔時用到的腳本等
    • build.py:腳本本體
    • mdbdump.csv:用 mdbtools 提取的 MDB 原檔內容,由於 mdbtools 的不足,Unicode BMP 以外的字符無法正確提取,但可用於修正純文字資料時作參照之用
  • Kuankhiunn0704-semicolon.txt:重製版純文字檔,將原 TXT 版字段分隔符改為用 ;,由於內容文字不含 ; 故該版沒有歧義
  • version0605-readme.txt:有女同車於北大中文論壇所發貼文(已佚,此為別處轉貼版本),內含舊版全字表 readme(推測為)全文,對原表內容有更多解釋,並講述了該項目之緣起

特別注意

原資料第 1891「頃」小韻之「舊版備注」字段,其在純文字版原檔(UTF-8 編碼)中內容為三字節:ED A1 A5,如果直接解析 UTF-8 會得到「D865」是不合法的 Unicode 碼位。該碼位實為 UTF-16 代理對(surrogate pair)的前一碼,後一碼丟失,無從查證。而察 MDB 版,mdbtools 提取得到一個 ?,說明其確實在 0xFFFF 以內且為不合法碼位,很可能也是 D865。

為了不影響程序讀取,在新提供的 Kuanghiunn0704-semicolon.txt 中,其被替換為一個 U+FFFD。

責權聲明

本版與原版相同,使用者允許複製、再發佈和修改其內容。切勿將其用於一切贏利目的。整理者對資料的正確性不提供任何擔保,使用者風險自負。

About

有女同車《〈廣韻〉全字表》原表

Resources

Stars

Watchers

Forks

Languages