互聯網最初的《廣韻》字音公開資料、韻典網建站之初的資料源之一,有女同車《〈廣韻〉全字表》,再次上線。
由於原檔為 MS Access 資料庫格式,今難以讀取,雖另有純文字版但格式有疏失致使無法機讀;故在此額外提供一版經過修正更易機讀的 TXT 格式。
original/
:有女同車於北大中文論壇所發佈原始檔案Kuankhiunn0704.mdb
:原始資料,為 MS Access 資料庫格式,今已不易讀取Kuankhiunn0704.txt
:由原檔轉出而成的純文字格式,以|
分隔字段,然而資料內容文字亦含有|
字符致使混淆readme.txt
:隨原資料所附說明檔
scripts/
:重製可機讀版純文字檔時用到的腳本等build.py
:腳本本體mdbdump.csv
:用 mdbtools 提取的 MDB 原檔內容,由於 mdbtools 的不足,Unicode BMP 以外的字符無法正確提取,但可用於修正純文字資料時作參照之用
Kuankhiunn0704-semicolon.txt
:重製版純文字檔,將原 TXT 版字段分隔符改為用;
,由於內容文字不含;
故該版沒有歧義version0605-readme.txt
:有女同車於北大中文論壇所發貼文(已佚,此為別處轉貼版本),內含舊版全字表 readme(推測為)全文,對原表內容有更多解釋,並講述了該項目之緣起
原資料第 1891「頃」小韻之「舊版備注」字段,其在純文字版原檔(UTF-8 編碼)中內容為三字節:ED A1 A5
,如果直接解析 UTF-8 會得到「D865」是不合法的 Unicode 碼位。該碼位實為 UTF-16 代理對(surrogate pair)的前一碼,後一碼丟失,無從查證。而察 MDB 版,mdbtools 提取得到一個 ?
,說明其確實在 0xFFFF 以內且為不合法碼位,很可能也是 D865。
為了不影響程序讀取,在新提供的 Kuanghiunn0704-semicolon.txt 中,其被替換為一個 U+FFFD。
本版與原版相同,使用者允許複製、再發佈和修改其內容。切勿將其用於一切贏利目的。整理者對資料的正確性不提供任何擔保,使用者風險自負。