新词发现算法的基本实现以及分布式实现

基于Java实现。

该项目是基于Hadoop框架的一个Java文件集合，用于构建一个分布式的新词发现和简单的分析框架。实现原理是通过检查一个一元词组，并与二元词组进行对比，考虑到构成背景的溯源。

本项目中的mapred部分主要有三个作业：

第一个作业用于计算每个词语的前景核背景数量；
第二个作业将一元词组和二元词组的次数联结起来；
第三个作业计算"phraseness"和"informativeness"的统计数据，用于识别最有意义的词语。

To run the job:

    hadoop jar PhraseFinding.jar -D unigram=/path/to/unigram/file -D bigram=/path/to/bigram/file -D output=/output/dir [-D reducers=10]

其中，unigram是一元语法或者单个词语，bigram是二元语法或者双词

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
doc		doc
src/main		src/main
.gitignore		.gitignore
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

新词发现算法的基本实现以及分布式实现

About

Releases

Packages

Languages

ml-distribution/phrase-finding

Folders and files

Latest commit

History

Repository files navigation

新词发现算法的基本实现以及分布式实现

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages