关于internlm-xcomposer2-vl模型预处理时build_mlp.py中使用torch.nn.functional.interpolate的bicubic模式的问题 #338

lzcchl · 2024-06-26T02:45:21Z

机缘巧合下发现的，即使是比较新版本的torch（我是2.1.2）也是存在这个问题的，就是resize后的图像像素会有较大的不平滑，这样会不会影响VIT模型的效果，进而导致影响整个对话效果？
这个我在torch的issues找到的 https://github.com/pytorch/vision/issues/2950，虽然这里是torchvision.transforms.Resize，但实质上还是调用torch.nn.functional.interpolate。
我测试下来的效果：可以看到下面torch.nn.functional.interpolate在右上的白色小车部分（可能还有其他不明显的位置）有黑色点，这明显是不平滑的。
原图：

pil resize 到宽高一半大小：

torch.nn.functional.interpolate 到宽高一半大小：

torch.nn.functional.interpolate 参数antialias=True 到宽高一半大小：

我的测试代码在下方，修改img_dir就可以跑，你可以快速验证我说的这个问题。
pil_torch_rsz.py.txt

LightDXY · 2024-07-05T05:29:22Z

hi, thanks for the comments, 插值图像在4khd里仅作为global image，模型靠后面没有resize的local图像去看细节，所以对结果的影响应该不大

mm-assistant bot assigned yhcao6 Jun 26, 2024

LightDXY closed this as completed Jul 5, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于internlm-xcomposer2-vl模型预处理时build_mlp.py中使用torch.nn.functional.interpolate的bicubic模式的问题 #338

关于internlm-xcomposer2-vl模型预处理时build_mlp.py中使用torch.nn.functional.interpolate的bicubic模式的问题 #338

lzcchl commented Jun 26, 2024 •

edited

Loading

LightDXY commented Jul 5, 2024

关于internlm-xcomposer2-vl模型预处理时build_mlp.py中使用torch.nn.functional.interpolate的bicubic模式的问题 #338

关于internlm-xcomposer2-vl模型预处理时build_mlp.py中使用torch.nn.functional.interpolate的bicubic模式的问题 #338

Comments

lzcchl commented Jun 26, 2024 • edited Loading

LightDXY commented Jul 5, 2024

lzcchl commented Jun 26, 2024 •

edited

Loading