Fix linalg vector norm backward bug #8015

BBuf · 2022-04-13T09:57:17Z

之前linalg.vector_norm在ord=0的情况下，是用ScalarLogicalNotEqual+ReduceSum来做的，这会导致在反向的时候后向图断掉。这里修改新增了一个Unary算子NotEqualZero解决了这个问题。

需要说明的是pytorch的linalg.vector_norm在ord=0的时候求梯度是直接用的flow.zeros_like来设置，见：https://github.com/pytorch/pytorch/pull/59135/files#diff-4adbd88239afcd60e8198aab65d4f5e43b62314e34b80551e997a1ea503adea5L231-L232 。导致只要ord=0，那么输入的梯度就永远都是0。但这明显是不符合这个api的语义的，倾向于这是一个pytorch bug。所以我还是坚持我们的做法，感觉我们这样才是正确的。

例子：

import torch as flow
from torch import linalg as LA
import numpy as np
a = flow.tensor([1.0]).cuda()
a.requires_grad=True
res = LA.vector_norm(a, ord=0)

print(res)
res.sum().backward()
print(a.grad)

pytorch输出0, oneflow输出1. 按照语义来看，梯度确实应该是1.

Flowingsun007 · 2022-04-13T10:22:45Z

pytorch输出0, oneflow输出1. 按照语义来看，梯度确实应该是1.

感觉可以试试其他框架譬如paddle的？

BBuf · 2022-04-13T12:26:44Z

pytorch输出0, oneflow输出1. 按照语义来看，梯度确实应该是1.

感觉可以试试其他框架譬如paddle的？

好

BBuf · 2022-04-13T12:27:54Z

pytorch输出0, oneflow输出1. 按照语义来看，梯度确实应该是1.

感觉可以试试其他框架譬如paddle的？

看了一下，paddle没这个接口

liufengwei0103 · 2022-04-14T03:00:53Z

pytorch输出0, oneflow输出1. 按照语义来看，梯度确实应该是1.

感觉可以试试其他框架譬如paddle的？

看了一下，paddle没这个接口

我用paddle试了一下，也是0

MARD1NO · 2022-04-14T03:25:11Z

oneflow/user/kernels/math_unary_elementwise_func.h

@@ -153,6 +153,13 @@ struct AtanhFunctor<float> {
  }
 };

+template<>
+struct NotEqualZeroFunctor<float> {
+  static OF_DEVICE_FUNC float Forward(const float x) { return x != 0; }


应该用 static_cast(0.0)，你这样是拿着float和int比较吧

* fix reduce_sum scalar check bug * fix linalg vector norm and clip grad bug * fix comment * auto format by CI * Fix linalg vector norm backward bug (#8015) * has multi definition bug * fix bug * fix commnet * fix bug Co-authored-by: mergify[bot] <37929162+mergify[bot]@users.noreply.github.com> Co-authored-by: oneflow-ci-bot <ci-bot@oneflow.org>

BBuf added 2 commits April 13, 2022 16:43

has multi definition bug

ba870fc

fix bug

bc99e84

BBuf requested review from hjchen2, jackalcooper and daquexian as code owners April 13, 2022 09:57

fix commnet

5b4662d

BBuf changed the base branch from master to fix_linalg_vector_norm_and_clip_grad_bug April 13, 2022 09:58

Flowingsun007 approved these changes Apr 13, 2022

View reviewed changes

BBuf added automerge bug api labels Apr 14, 2022

BBuf merged commit a2f3499 into fix_linalg_vector_norm_and_clip_grad_bug Apr 14, 2022

BBuf deleted the fix_linalg_vector_norm_backward_bug branch April 14, 2022 01:41

MARD1NO reviewed Apr 14, 2022

View reviewed changes

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix linalg vector norm backward bug #8015

Fix linalg vector norm backward bug #8015

BBuf commented Apr 13, 2022 •

edited

Loading

Flowingsun007 commented Apr 13, 2022

BBuf commented Apr 13, 2022

BBuf commented Apr 13, 2022

liufengwei0103 commented Apr 14, 2022

MARD1NO Apr 14, 2022

Fix linalg vector norm backward bug #8015

Fix linalg vector norm backward bug #8015

Conversation

BBuf commented Apr 13, 2022 • edited Loading

Flowingsun007 commented Apr 13, 2022

BBuf commented Apr 13, 2022

BBuf commented Apr 13, 2022

liufengwei0103 commented Apr 14, 2022

MARD1NO Apr 14, 2022

Choose a reason for hiding this comment

BBuf commented Apr 13, 2022 •

edited

Loading