Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

CNS 11643 中的笔顺表 #9

Open
qinglee opened this issue Sep 12, 2016 · 4 comments
Open

CNS 11643 中的笔顺表 #9

qinglee opened this issue Sep 12, 2016 · 4 comments
Assignees

Comments

@qinglee
Copy link
Contributor

qinglee commented Sep 12, 2016

台湾的 CNS 11643 数据中有较为完整的笔顺表(CNS_strokes_sequence.txt),似乎可以考虑用他来排序。

转换后(cns11643_strokeorder.txt)发现,目前共有 75005 个 Unicode 汉字笔顺信息,覆盖到扩展 D 区,比海峰五笔码表的 70297 个要多。

发现的主要问题是:

  1. 两岸字形标准不同,一些笔画也会不同。
  2. 相比海峰的数据,有 113 个汉字数据缺失(miss.txt)。
  3. 存在一些错误,比如 CNS 11643 的第 F 平面,有诸如以下的大量错误:
F   2121    25111212341252
F   2122    25111212341252
F   2123    25111212341252
F   2124    25111212341252
F   2125    25111212341252
@leo-liu
Copy link
Owner

leo-liu commented Sep 13, 2016

嗯,这个数据很有用。不过用来代替或整合似乎并不好。
更合适的方式大概是增加一套台湾字形标准繁体中文的笔画、部首排序方式,并提供选项。

@leo-liu leo-liu self-assigned this Sep 13, 2016
@leo-liu
Copy link
Owner

leo-liu commented Sep 14, 2016

嗯,如果做大陆、台湾双标的话,注音也可以用上。

25111212341252 这个笔顺不知道是哪里来的,有 6888 个码位,全部分布在 CNS 的 F 字面。而在他家网站上却显示 F 字面的笔顺已经完全完成了。网站上去查这些字,也显示的是错误的笔顺,看起来是这部分数据有错误。好在都是僻字,也容易排除。

@qinglee
Copy link
Contributor Author

qinglee commented Sep 16, 2016

注音可以直接从汉语拼音转换而来吧,比如 ICU 库的转换表,这样也便于统一,不用 CNS 的数据也可以,CNS 倒也提供了完整的转换表(CNS_pinyin.txt)。

@leo-liu
Copy link
Owner

leo-liu commented Sep 18, 2016

转换是小事,主要还是两岸读音不同。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants