Skip to content

Latest commit

 

History

History
36 lines (23 loc) · 1.1 KB

File metadata and controls

36 lines (23 loc) · 1.1 KB

漢語常用字詞表

資料格式

  • char.txt:包含單字
  • word.txt:包含詞語及成詞單字
  • all.txt:包含上述所有內容

資料來源

  • 香港考試及評核局《教師語文能力評核(普通話)參照使用常用字表》
  • 香港考試及評核局《教師語文能力評核(普通話)參照使用普通話詞語表》

使用香港字表的原因有二:

  • 字表使用繁體字,若要使用簡體字只需使用程式轉爲簡體;相反,若字表爲簡體字,則轉爲繁體時需要人工校對「一簡對多繁」
  • 用詞較爲書面化,不含北方話口語及粵語用詞,因此適用場景更加廣泛

資料修正

本表在原資料的基礎上作出以下修正:

  • 轉換爲 OpenCC 標準用字
  • 加入「台」字之組詞「天台山」

構建

python scripts/extract_char.py
python scripts/extract_word.py
python scripts/extract_all.py

其他

《普通話詞語表(表二)》中「着數」注音 zhāoshù,實際可能爲粵語用詞「着數」zoek6 sou3,義爲利益、好處,對應普通話 zhuóshù。