TextClassification

使用搜狗语料库进行文本分类实验

ReadData.py：完成从文件中读取文本的功能，并且使用jieba模块进行分词，返回{catalog:{filename:[wordlist]}}这样的结构。

FeatureFiltering.py：对ReadData模块读入的训练数据进行词频、文档频率的统计，计算每个词对应的反文档频率idf，并且按照反文档频率从大到小进行排序，输出topK=2000的词作为表示每个文档的特征。返回feature的结构为[(word, idf value), ...]。

Training.py：计算每一个文档对应的tfidf向量，返回结构为{docName: tfidf vector, ...}。 KNNPredict.py：使用KNN算法对文本类别进行预测，计算预测结果的准确率。

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.gitattributes		.gitattributes
.gitignore		.gitignore
FeatureFiltering.py		FeatureFiltering.py
KNNPredict.py		KNNPredict.py
README.md		README.md
ReadData.py		ReadData.py
Training.py		Training.py
__init__.py		__init__.py
configuration.py		configuration.py
main.py		main.py
naive_bayes.py		naive_bayes.py

Provide feedback