如何让paddleocr只识别中文？ #14421

xunyao4dev · 2024-12-18T11:40:38Z

xunyao4dev
Dec 18, 2024

刚才看了下教程，我看是需要用到pretrained的模型文件，如果预训练的文件本来就支持中英文，那岂不是我再怎么训练不都能识别到非中文的部分？

GreatV · 2024-12-18T11:42:59Z

GreatV
Dec 18, 2024
Maintainer

要让PaddleOCR只识别中文，您可以通过以下方法调整模型和配置：

1. 调整识别字典

在PaddleOCR中，识别模型会根据字典文件中的字符集进行预测，因此您需要确保字典中只包含中文字符（以及可能需要的标点符号）。字典文件的路径通常在配置文件中定义，典型路径为ppocr/utils/ppocr_keys_v1.txt。

下载或创建一个只包含中文字符的字典文件。
在配置文件中指定这个新的字典文件路径，例如：
```
character_dict_path: ./ppocr/utils/chinese_keys.txt
```

2. 使用中文预训练模型

PaddleOCR提供了支持中文的预训练模型，例如ch_PP-OCRv3_rec。您可以直接使用这些模型，或者在其基础上进行微调。如果模型检测到非中文字符的部分，可能是因为字典文件中包含了其他字符或检测模型的误差导致。

确保下载的是中文识别模型，例如：

wget https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_rec_infer.tar

3. 微调模型

如果预训练模型中包含其他字符，您可以通过微调模型来强化其对中文的专注。以下是微调的步骤：

准备数据集：只包含中文文字的训练数据。
配置和训练：
- 修改配置文件，将字典路径改为中文字典。
- 使用pretrained_model加载中文预训练模型，进行微调。

4. 调整检测模型

虽然识别模型可以限制为只识别中文，但检测模型可能会将非中文区域框出来。这时可以通过以下方式优化：

收集数据：确保训练数据中的检测框仅覆盖中文区域。
调整后处理参数：
- det_db_box_thresh：调小该值可以降低漏检，但可能会带来额外的误检。
- det_db_unclip_ratio：调整文本框的扩展比例，避免框选到非中文区域。

5. 过滤非中文内容

如果无法完全避免检测到非中文区域，可以在识别的后处理阶段过滤掉非中文字符。这可以通过正则表达式来实现：

import re

def filter_non_chinese(text):
    return re.sub(r"[^\u4e00-\u9fa5]", "", text)

# 假设识别结果为result
result['text'] = filter_non_chinese(result['text'])

注意事项

如果模型的预训练字典中包含中文和其他字符，训练时即使调整字典，也可能出现模型继续识别非中文字符的现象。这是因为模型的权重已经学习了其他字符的特征。因此，微调是最佳解决方案。
PaddleOCR的检测和识别模块是独立的，您可以仅调整识别模块的字典和模型，无需重新训练检测模块。

通过上述方法，可以有效实现PaddleOCR只识别中文的目标。如果还有其他问题，可以参考PaddleOCR官方文档或示例代码。

Response generated by feifei-bot | chatgpt-4o-latest

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

如何让paddleocr只识别中文？ #14421

{{title}}

Replies: 1 comment

{{title}}

Select a reply

如何让paddleocr只识别中文？ #14421

xunyao4dev Dec 18, 2024

Replies: 1 comment

GreatV Dec 18, 2024 Maintainer

1. 调整识别字典

2. 使用中文预训练模型

3. 微调模型

4. 调整检测模型

5. 过滤非中文内容

注意事项

xunyao4dev
Dec 18, 2024

GreatV
Dec 18, 2024
Maintainer