Skip to content

liaoran123/TxtReSearch

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ReSearch--考据级搜索引擎微服务系统

使用技术golang+goleveldb
内建小白数据库系统(考据级全文索引数据库系统),内置“全文索引”,无需分词库,却永远没有搜索不到的词。

简介

ReSearch,从原“乾隆大藏经搜索引擎”和“四库全书搜索引擎”逐渐完善改进而成。
可用于整理大量的资料并且具备考据级别的搜索功能的系统。
也可仅作搜索中介用,如:站内搜索;企业搜索引擎等等。

天下没有搜索不到的词

自主研发的遍历分词技术,搜索引擎突破性技术,无需分词库,搜索成功率是100%。

现在搜索引擎存在的问题

分词库是搜索引擎的核心。分词库就是搜索引擎的眼睛。没有眼睛什么都看不见,什么都搜索不到。
然而分词库基本上都难以完善,也不可能做到完整的。所以必定存在有些词搜索不到结果。
特别是新词,新词第一时间是不可能搜索得到的,因为分词库里没有。
新词搜索不到,就等于扼杀了创新的动力,特别是在电商领域里。
即使分词库管理第一时间将新词加入库,但是要搜索到,就必须要经历将所有大量的原数据遍历处理才能得出结果。
数据量越大的系统,加入新词就越谨慎,时间就越慢。

遍历分词技术

ReSearch,则摒弃分词库。
如果分词库是其他搜索引擎的眼睛,这个眼睛是肉眼。而遍历分词的眼睛则是天眼。
其他分词技术会因为分词库的不完善,会导致搜索不到结果的概率。也就是做不到搜索成功率是100%。

举个极端的例子:
将一篇文章全部倒过来,然后也用倒过来的词搜索。
其他分词技术估计什么都搜索不到。
遍历分词技术,无论如何,搜索成功率都是100%。

高精准

可以自定义搜索粒度。
通用的搜索引擎如Google,百度,搜索粒度是整篇文章。
ReSearch,可以自定义到段落,句子等等。
通常定义精准粒度为句子。

高性能

百亿级数据,毫秒级响应。
因为无需分词库,不需要解析分词,比其他分词技术的搜索引擎性能更高。
实时添加实时搜索。

部署成本低

10G级别的文本数据,只需几十M内存。

极简部署

打开对应系统的可执行文件即可运作。



About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published