为了更好地方便计算机专业的同学记笔记,更加高效的使用在线笔记,本文将爬取的CSDN已分类的146141篇热门博客作为数据基础,选用支持向量机作为分类算法训练出文本分类器,利用该分类器自动预测笔记分类。 同时使用Python后端框架Django设计并完成了云笔记簿系统的主要功能。 本文主要完成的工作有以下三点:
-
在数据集获取方面,使用Selenium+BeautifulSoup爬取了CSDN已分类的热门博客,包括Python、Java、前端、数据库、网络安全、5G、操作系统、运维、移动应用开发等13个类别共计146141篇博客的内容。
-
在文本分类模型训练方面,使用SVM分类算法训练出分类器,为了寻找更优参数,本文使用了网格搜索与交叉验证,得出适用于svm模型的较好参数分别为:kernel=rbf,C=10,gamma=0.1。 然后在同一个数据集下,使用多种机器学习分类算法训练出不同的文本分类器,并对分类器的分类效果做了对比和分析。
-
在系统功能实现方面,使用Django完成了接口API的开发,实现了用户管理和笔记管理,能根据用户提交的笔记内容预测所属分类并抽取出文本摘要和生成词云图。
在工程设计与实现方面,使用了B/S体系架构,该系统包括用户管理和笔记管理两大模块。主要用到的相关技术包括Django、Selenium、特征降维、SVM分类算法。