当前位置：首页 > 面试题库 >

为什么我们需要在PyTorch中调用zero_grad（）？

红鸿运

2023-03-14

问题内容：

zero_grad()训练期间需要调用该方法。但是文档不是很有帮助

|  zero_grad(self)
|      Sets gradients of all model parameters to zero.

为什么我们需要调用此方法？

问题答案：

在中PyTorch，我们需要在开始进行反向传播之前将梯度设置为零，因为PyTorch
会在随后的向后传递中 累积梯度
。在训练RNN时这很方便。因此，默认操作是在每次调用时累积（即求和）梯度loss.backward()。

因此，理想情况下，当您开始训练循环时，应该zero out the gradients正确进行参数更新。否则，梯度将指向预期方向以外的其他方向，即朝向
最小值 （或 最大化 ，如果达到最大化目标）。

这是一个简单的示例：

import torch
from torch.autograd import Variable
import torch.optim as optim

def linear_model(x, W, b):
    return torch.matmul(x, W) + b

data, targets = ...

W = Variable(torch.randn(4, 3), requires_grad=True)
b = Variable(torch.randn(3), requires_grad=True)

optimizer = optim.Adam([W, b])

for sample, target in zip(data, targets):
    # clear out the gradients of all Variables 
    # in this optimizer (i.e. W, b)
    optimizer.zero_grad()
    output = linear_model(sample, W, b)
    loss = (output - target) ** 2
    loss.backward()
    optimizer.step()

或者，如果您要进行 香草梯度下降 ，则：

W = Variable(torch.randn(4, 3), requires_grad=True)
b = Variable(torch.randn(3), requires_grad=True)

for sample, target in zip(data, targets):
    # clear out the gradients of Variables 
    # (i.e. W, b)
    W.grad.data.zero_()
    b.grad.data.zero_()

    output = linear_model(sample, W, b)
    loss = (output - target) ** 2
    loss.backward()

    W -= learning_rate * W.grad.data
    b -= learning_rate * b.grad.data

注意
：在张量上调用时，会发生梯度的
累积（即求和
）。.backward()``loss

类似资料：

为什么我们在Windows中需要CURLOPT_SSL_VERIFYPEER

问题内容：我将稍微解释一下我的脚本，以便您可以理解我的问题。基本上我做了一个脚本来检查SOCKS5是还是。当我在上面测试我的脚本时，它运行良好，但是当我在Windows上对其进行测试时，直到我将以下行添加到：谁能向我解释为什么我在Windows中需要此行，而在Linux服务器上却不需要？问题答案： SSL证书上的此cURL手册页介绍了连接到SSL / TLS受保护主机时证书验证的过程
为什么我们需要使用flatMap？

问题内容：我开始使用RxJS，但我不明白为什么在此示例中我们需要使用类似or 的函数；数组的数组在哪里？如果有人可以直观地解释正在发生的事情，那将非常有帮助。问题答案：当您有一个Observable的结果是更多Observable时，可以使用flatMap。如果您有一个由另一个可观察对象产生的可观察对象，则您不能直接过滤，缩小或映射它，因为您有一个可观察对象而不是数据。如果您生成一个可观
为什么我们需要ng-click？

问题内容： Angular应用使用属性而不是事件。为什么是这样？问题答案： ng-click包含一个角度表达式。Angular表达式是在Angular 范围的上下文中求值的，该范围绑定到具有ng- click属性的元素或该元素的祖先。 Angular表达式语言不包含流控制语句，也不能声明变量或定义函数。这些限制意味着模板只能访问由控制器或指令提供的变量和运行功能。
我们为什么需要单子？

以我的拙见，关于“什么是单子”这个著名问题的答案，尤其是投票最多的答案，试图解释什么是单子，而没有明确解释为什么单子是真正必要的。它们能被解释为一个问题的解决方案吗？
为什么我们需要字典

为什么我们需要字典？计算机最适合使用数字，而人类最适合使用姓名。我们创建了DNS以便记住主机名而不是IP地址。字典以相同的方式使用，因此我们可以记住AVP名称而不是类型编号。当FreeRADIUS解析请求或生成响应时，会查阅字典。但是，字典与DNS不同，因为RADIUS客户端不知道FreeRADIUS使用的这些“友好”名称。永远不会在RADIUS客户端和RADIUS服务器之间交换AVP名称。
为什么我们需要使用基数？

问题内容：基数实际上是什么意思？我们为什么需要它？问题答案：您可能并不总是希望将整数解析为以10为底的数字，因此提供基数可以指定其他数字系统。基数是一位数字的值数。十六进制为16。八进制为8，二进制为2，依此类推… 在该函数中，您可以执行一些操作来提示基数而不提供基数。如果用户输入的字符串与其中一个规则匹配，但没有明确规定，则这些方法也可能对您不利。例如：

相关阅读

为什么我们需要使用外键？为什么我们在Hadoop堆栈中需要ZooKeeper？为什么我们在Python中需要“ finally”子句？为什么我们需要Java中的弱引用 setUp / tearDown（@ Before / @ After）为什么我们在JUnit中需要它们？

相关文章

关于ChatGPT，我们到底在担心什么？为什么要使用数据库为什么要使用A/B测试？为什么使用CouchDB？为什么使用DevOps？

相关问答

为什么我们需要Avro模式演进为什么我们需要观察者模式？为什么我们需要java中的匿名函数[closed]WebFlux：为什么我需要在CRUD中使用flatMap 为什么我们需要使用标记接口？[重复]

相关工具

PyTorch PyTorch Geometry pytorch-cheatsheet pytorch-tutorial pytorch-book

相关文档

PyTorch 中文文档我们一起学 istio 技术 PyTorch 1.0 中文文档 & 教程那些年我们一起学 XSS React Bits 你需要了解的知识点