sgd 参数详解_关于torch.optim的灵活使用详解(包括重写SGD,加上L1正则)

新闻动态 NEWS

NEWS
新闻动态

公司动态您所在的位置是：首页 > 新闻动态 > 公司动态

作者：佚名发布时间：2024-03-12 12:24:03 浏览：次

[返回]

torch.optim的灵活使用详解

1. 基本用法：

要构建一个优化器Optimizer，必须给它一个包含参数的迭代器来优化，然后，我们可以指定特定的优化选项，

例如学习速率，重量衰减值等。

注：如果要把model放在GPU中，需要在构建一个Optimizer之前就执行model.cuda()，确保优化器里面的参数也是在GPU中。

例子：

optimizer=optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

2. 灵活的设置各层的学习率

将model中需要进行BP的层的参数送到torch.optim中，这些层不一定是连续的。

这个时候，Optimizer的参数不是一个可迭代的变量，而是一个可迭代的字典

(字典的key必须包含'params'(查看源码可以得知optimizer通过'params'访问parameters)，

其他的key就是optimizer可以接受的，比如说'lr','weight_decay')，可以将这些字典构成一个list，

这样就是一个可迭代的字典了。

注：这个时候，可以在optimizer设置选项作为关键字参数传递，这时它们将被认为是默认值(当字典里面没有这个关键字参数key-value对时，就使用这个默认的参数)

This is useful when you only want to vary a single option, while keeping all others c