Popular repositories Loading
-
CninfoDistributedSpider
CninfoDistributedSpider Public针对巨潮资讯网上市公司公告的分布式爬虫,采用scrapy和kafka的分布式架构。可以爬取爬取指定上市公司列表、指定时间段内的所有公告并保存PDF。后续会加入搜索引擎功能
-
HadoopLink
HadoopLink PublicHadoopLink是基于Hadoop及BaseMR进一步封装而来的工作链框架。该框架省去了您生成Job,JobControl,ContrlledJob的繁杂重复代码。同时您可以非常便捷的通过注释设置MapReduce任务之间的依赖关系。HadoopLink支持多个任务链并行运行,不同任务链的可以进行定时执行设置。
Java 11
-
-
MutipleContentExtractor
MutipleContentExtractor Public通用html正文内容抽取工具。双层次网页正文抽取的单机开源版本,第一层次精确识别正文xpath进行抽取。一旦抽取失败转入基于行块分布的暴力抽取。由于有双重保证,正文抽取精度和成功率都达到了一个很高的比率。
Java 4
-
-
Something went wrong, please refresh the page to try again.
If the problem persists, check the GitHub status page or contact support.
If the problem persists, check the GitHub status page or contact support.