该脚本主要用于对各类数据集进行切分,提供给进行训练,预计未来会集成到PaddleX中,欢迎大家使用PaddleX。 目前,已经支持ImageNet格式、COCO格式、VOC格式和Seg格式的数据集的切分,具体的数据格式见数据格式。
按需安装以下依赖
pycocotools安装指导
git clone https://github.com/mamingjie-China/split_dataset.git
cd split_dataset
git checkout develop
直接下载zip文件链接,解压缩后进入文件夹
python split.py --form COCO --split_dataset dataset_path --val_percent 0.2 --test_percent 0.1
参数 | |
---|---|
--form | 数据集格式类型 (VOC、COCO、ImageNet、Seg) |
--split_dataset | 数据集文件夹的路径 |
--val_percent | 验证集切分的比例(如0.2,不可为0) |
--test_percent | [可选] 测试集切分的比例(如0.1,可以为0) |
--save_dir | [可选] 切分生成的文件的路径(默认与数据集路径相同) |
- 项目官网: https://www.paddlepaddle.org.cn/paddle/paddlex
- PaddleX用户交流群: 1045148026