Replies: 2 comments 1 reply
-
我去,第一次见到如此详细的反馈。欢迎提PR来完善这个表格识别哈。 |
Beta Was this translation helpful? Give feedback.
-
博主这个提pr了嘛,是不是已经在release里面了呀 |
Beta Was this translation helpful? Give feedback.
-
我去,第一次见到如此详细的反馈。欢迎提PR来完善这个表格识别哈。 |
Beta Was this translation helpful? Give feedback.
-
博主这个提pr了嘛,是不是已经在release里面了呀 |
Beta Was this translation helpful? Give feedback.
-
1.ocr的识别框明显边界比表格模型的清晰,可以match后得到xmin,ymin,xmax,ymax修正表格识别框
2.判断contained逻辑修正为非包含区域面积/整体面积 < 阈值,会比 >= 稳定性更高
3.发现有场景logic_point的r_s = 1.5002. r_e = 1.4897,导致四舍五入后 r_e < r_s,需要增加一个阈值先判断是不是同一行
4.发现没有合并同行同列两个识别框,导致数据丢失
5.发现html输出时,完全依赖排序的顺序,没有利用上逻辑行列信息,导致输出表格错位
6.ocr的box排序规则修正逻辑可以优化为判断 y 轴的 containes, 同2的判断,比固定10更准确,目前已经遇到反例了
最后,因为最近也在搞文档rag的东西,写了很多包括pdf解析,layout导出了layoutlmv模型的onnx,可以看到https://www.modelscope.cn/models/jockerK/layoutlmv3-onnx
以及正在弄的先分类有线无线表格,再进行识别,非常认同rappid的目标和方案,也用了很多相关项目,希望能跟作者共建rappid生态
Beta Was this translation helpful? Give feedback.
All reactions