Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

User Define 辞典 #50

Open
strategist922 opened this issue Apr 20, 2017 · 3 comments
Open

User Define 辞典 #50

strategist922 opened this issue Apr 20, 2017 · 3 comments

Comments

@strategist922
Copy link

您好,
最近想透过R做断字断词及语意情感分析, 找了不少分词辞典及情感辞典
看到网上另一个词库分享, 但是里面的字段格式不太能理解, 不知道各位是否可以指点一下呢?
Download URL:
http://down.51cto.com/data/269758
档案字段格式长这样:

1 扭在 nz 6ff026e67cc327c2 2 930 1 0 3
2 拟在 nz 3ad73d9dc29b7c54 2 10092 0 0 3
3 捻针 nz 52w76148h1f9cei9 2 308 1 0 3
4 怒发冲冠 nfcg 9jue6c3a96b5eoif 4 9313 1 0 3
5 农副产品 nfcp adc3aa31df8f47dd 4 7450 1 0 3
6 女房东 nfd 78foi563e45ga896 3 7108 1 0 3
7 暖风机 nfj bbe96g73c89c3298 3 5116 1 0 3
8 年富力强 nflq 6df5a2e8ba64c9a3 4 13740 1 0 3
9 逆耳忠言 nezy 8h65g473e5e5g52e 4 2285 1 0 3
10 难分难解 nfnj 47a6ce306f3i3d2w 4 7382 1 0 3
11 难分难舍 nfns 7i3eb71865g69aa5 4 6718 1 0 3
12 闹翻天 nft cbe4d1c47ie345a2 3 2694 1 0 3
13 女服务员 nfwy a9cc81f8f08fac43 4 12386 1 0 3
14 逆反心理 nfxl a3i3ba1d2a8ed348 4 6096 1 0 3
15 农副业 nfy c1969cd63ic682bb 3 5468 1 0 3
16 年复一年 nfyn fd18eb2b7afbc1ed 4 27804 1 0 3

@qinwf
Copy link
Owner

qinwf commented Apr 20, 2017

您好,我不清楚这些数据各列的含义。

您可以先用 readLines 读取文件,然后按空格将行分开,提取出第二列,词条这一列。

然后按照 jiebaR 的词典格式写入新的一个文件。

用户词典两列,格式为词条 空格 词性,系统词典 dict 参数的词典文件三列,格式为词条 空格 词频 空格 词性

你可以打开 jiebaR::DICTPATH,jiebaR::USERPATH 这两个路径来查看默认词典的格式。

@strategist922
Copy link
Author

您好,
您提到"系统词典 dict 参数的词典文件三列,格式为词条 空格 词频 空格 词性。
Windows下空格是用space or tab?

@qinwf
Copy link
Owner

qinwf commented May 4, 2017

space

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants