Skip to content

Ninnka/chrome-extension-xpathcrawler

Repository files navigation

这是一个关于爬虫获取格式化数据的 Chrome 扩展项目。

Functions-Provided

  • 点击页面的元素可以根据所点击的元素所在的节点生成xpath和css-selector
    • 生成绝对严格模式的xpath
    • 生成最近模糊模式的xpath(根据层级限制)
    • 生成绝对严格模式的css-selector
    • 生成最近模糊模式的css-selector(根据层级限制)
  • 设置最近模糊模式的层级为0级(既不会进行最近模糊判断)
    • 层级1为在当前节点所在的层级中进行最近模糊判断
    • 层级2为在当前节点的父级所在的层级中进行最近模糊判断
    • 往上以此推类
  • 上传的对象根据所选类型选择不同模式的xpath或css-selector
  • 点击元素弹出弹窗,按住输入框的特定区域可拖动弹窗
  • 提供多种键盘快捷键功能
    • 对于不方便点击的与元素,提供 alt + x 键选择鼠标所在元素的功能
    • 提供 shift + x 键选择当前所选元素的父节点
    • 提供 ctrl + x 键选择当前所选元素的第一个非文本非空白非注释子节点
    • 提供 shift + ctrl + x 键选择当前所选元素的同级前一个兄弟节点
    • 提供 shift + alt + x 键选择当前所选元素的同级后一个兄弟节点
  • 页面独立功能开关
  • 提供a标签跳转白名单,拥有白名单关键词的hraf可以跳转并且跳转打开后强制开启功能
  • popup界面提供'选择规则','修改数据','修改服务器地址','提交预览','获取规则数据','全部取消'的功能入口
    • 选择规则:获取后台提供的特定数据结构,以table的形式显示在页面中,需要勾选后才能成功选择页面节点生成xpath和css-selector
    • 修改规则:可以修改和删除获取到的规则中的seletors
    • 修改内容:可以修改已经填加的数据的字段内容,也可以删除
    • 修改服务器地址:若服务器变动,可以直接修改服务器的域名地址
    • 提交预览:以json个格式化字符串的形式显示已选择的数据,点击提交按钮可以提交数据
    • 获取规则数据:可以单独更新规则数据
    • 需要获取数据:设定开启功能时必需从后台获取特定的数据
    • 不需要获取数据:设定开启功能时不需要从后台获取特定的数据
    • 全部取消:删除所有已选的的数据
  • 允许设置同名的key值
    • 同名的key值的情况下,xpath会被组合成数组,添加时允许对数组内的成员进行位置调动
  • 上传的数据结构中的key值对应的type目前都为xpath(以后可能会有css-seletor)
  • 输入弹窗内修改xpath(严格和模糊)时,可以看到不同的高亮预览
  • 简化xpath,减少xpath长度

Functions-Deprecated(Tmp)

  • 选择已选择的数据为父区域(DOM结构必须为父子结构),在该区域下生成数据对象
  • 在已选择数据中选择父区域(DOM结构必须为父子结构),该区域下建立新的区域对象

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •  

Languages