Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

欢迎开发者加入零售商品识别数据集的收集工作 #1

Open
thomas-yanxin opened this issue Jul 2, 2022 · 0 comments
Open
Labels
good first issue Good for newcomers help wanted Extra attention is needed

Comments

@thomas-yanxin
Copy link
Member

前言

虽然目前业界开源的零售场景下的商品识别数据集众多,各个数据集的数据量也较为庞大,但依旧存在很多痛点问题,例如样本不均衡、中文标签缺失等等。

我们渴望汇集众多开发者的力量,开源出产业级的、SKU级别的、在业界具有较大影响力的零售商品识别数据集,能够为我国零售的产业变革做出自己的一份贡献!

数据集格式

数据集格式参考:【零售行业商品特征学习数据集

  • 训练集合(train dataset):用来训练模型,使模型能够学习该集合的图像特征。
  • 底库数据集合(gallery dataset):用来提供图像检索任务中的底库数据,该集合可与训练集或测试集相同,也可以不同,当与训练集相同时,测试集的类别体系应与训练集的类别体系相同。
  • 测试数据集合(query dataset):用来测试模型的好坏,通常要对测试集的每一张测试图片进行特征提取,之后和底库数据的特征进行距离匹配,得到识别结果,后根据识别结果计算整个测试集的指标。
    训练集、底库数据集和测试数据集均使用 txt 文件指定,训练数据集 train_list.txt文件内容格式如下所示:
# 采用"空格"作为分隔符号
...
train/10/1283.jpg 10 624
train/10/1284.jpg 10 625
train/10/1285.jpg 10 626
train/10/1286.jpg 10 627
...

验证数据集(本数据集中既是 gallery dataset,也是 query dataset)test_list.txt 文件内容格式如下所示:

...
test/103/743.jpg 103 743
test/103/744.jpg 103 744
test/103/745.jpg 103 745
test/103/746.jpg 103 746
...

注:

  1. 每行数据使用“空格”分割,三列数据的含义分别是训练数据的路径、训练数据的label信息、训练数据的unique id;
  2. 本数据集中由于 gallery dataset 和 query dataset 相同,为了去掉检索得到的第一个数据(检索图片本身无须评估),每个数据需要对应一个 unique id(每张图片的 id 不同即可,可以用行号来表示 unique id),用于后续评测 mAP、recall@1 等指标。yaml 配置文件的数据集选用 VeriWild。
    根据以上描述对数据集进行处理,并将数据集修改为如下目录格式:
├── classlabel.txt	# 数据label和对应商品名称
├── gallery_label.txt	# 图片地址及对应的商品名称
├── gallery		# 底库图片
├── test		# 测试集图片
├── test_list.txt	# 测试集图片地址及对应的商品名称
├── train		# 训练集图片
└── train_list.txt	# 训练集图片地址及对应的商品名称
@thomas-yanxin thomas-yanxin added help wanted Extra attention is needed good first issue Good for newcomers labels Jul 2, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
good first issue Good for newcomers help wanted Extra attention is needed
Projects
None yet
Development

No branches or pull requests

1 participant