Skip to content

Latest commit

 

History

History
15 lines (15 loc) · 879 Bytes

README.md

File metadata and controls

15 lines (15 loc) · 879 Bytes

Lucene 搜索引擎

涉及到

  • Maven仓库管理(需要什么jar包,自动帮你下)
  • Spring Boot(能自动化构建工程,不像SSM要手配)

参考

模块

爬虫 (Spyder)

  • 爬虫要链接目标地址,所以在网上搬了一段简单的HTTPClient工具类来用
  • 目标地址首页 bilibili 还是HTTPS链接,所以需要构造SSL证书类,同理网上复制一段能用的就完事
  • 注意要给请求添加一下 User-Agent
  • Jsoup 解析HTML
  • 由于B站的首页是懒加载,所以转用Selenium作为Client,它可以执行模拟页面下拉的脚本
  • Maven安装Selenium,电脑安装对应版本的浏览器Driver