本项目中提供了针对不同的信息进行检索功能,如下图1我们设置了通过作者的名字(AUTHOR)、作者感兴趣的领域(STUDY FIELDS)和关键技术(KEY WORDS)来检索我们需要的信息,结果返回的是符合我们搜索的作者列表,如图2并展示出来我们通过搜索作者名词得到的相关作者的基本信息,例如作者的姓名、H-index、发表文章数量、发表文章被引用数量、担任职位、作者所属单位和作者感兴趣的领域。
对于通过作者的人名搜索功能,我们作者的人名是支持拼音、英文名称和中文名称的。例如周志华可以输入为:周志华、Zhihua Zhou、ZhihuaZhou等方式我们通过获取作者的名称(无论是中文、英文、拼音、或则不规范的名称)后我们通过分词、纠正、翻译可以得到正确的人名,然后通过在neo4j查询获得作者的ID,通过查询作者的数据库中对应的ID,最后可以获得作者得相关得信息并进行展示。如何没有查询到,将会提示没有这条信息在数据库中。
对于通过作者感兴趣的领域进行搜索功能,我们现在只支持英文搜索,输入完整的领域名称,后台将会进行分词和纠错功能,对于分词,就是纠正的是用户搜索的输入不加入空格。而对于纠错功能是纠正用户搜索的过程中单词输入错误,而系统将会按照自己的数据预测出用户输入的最大可能的正确输入。这里搜索的领域名称,是已经确定的,我们通过分析我们的数据获取尽可能多的领域的名称保存为我们的数据字典,用户输入后经过我们的分词和纠错,就可以对其进行匹配,如果匹配成功,就会展示在该领域下的所有作者和作者的相关信息。否则将会提示没有这条信息在数据库中。
对于通过关键技术搜索的功能,现在也是只支持英文搜索,我们可以通过我们了解到的技术,进行搜索,返回的结果会按照匹配的程度高低从大到小的排列。这里后台也提供了相应的分词和纠错功能,对于分词,也就是纠正了用户搜索的输入不加空格的问题。而对于纠错功能也就是按照我们已经搜集的数据进行概率预测,修正我们单词。这里搜索的关键技术使用的模糊查询,我们通过模糊匹配图数据库中存在摘要的文章,这里我们假设关键技术是存在于文章的摘要中。如何匹配成功,就会展示在该领域下的所有作者和作者的相关信息。否则将会提示没有这条信息在数据库中。