Я реализовал следующую функцию Якоби в Pytorch.Если я не допустил ошибку, он вычисляет якобиан любого тензора относительно любых размерных входных данных:
import torch
import torch.autograd as ag
def nd_range(stop, dims = None):
if dims == None:
dims = len(stop)
if not dims:
yield ()
return
for outer in nd_range(stop, dims - 1):
for inner in range(stop[dims - 1]):
yield outer + (inner,)
def full_jacobian(f, wrt):
f_shape = list(f.size())
wrt_shape = list(wrt.size())
fs = []
f_range = nd_range(f_shape)
wrt_range = nd_range(wrt_shape)
for f_ind in f_range:
grad = ag.grad(f[tuple(f_ind)], wrt, retain_graph=True, create_graph=True)[0]
for i in range(len(f_shape)):
grad = grad.unsqueeze(0)
fs.append(grad)
fj = torch.cat(fs, dim=0)
fj = fj.view(f_shape + wrt_shape)
return fj
Кроме того, я попытался реализовать рекурсивную функцию для вычисления производных n-го порядка:
def nth_derivative(f, wrt, n):
if n == 1:
return full_jacobian(f, wrt)
else:
deriv = nth_derivative(f, wrt, n-1)
return full_jacobian(deriv, wrt)
Я провел простой тест:
op = torch.ger(s, s)
deep_deriv = nth_derivative(op, s, 5)
К сожалению, мне удалось получить гессиан ... но без производных более высокого порядка.Я знаю, что многие производные более высокого порядка должны быть 0, но я бы предпочел, чтобы Pytorch мог аналитически вычислить это.
Одним из исправлений было изменение вычисления градиента на:
try:
grad = ag.grad(f[tuple(f_ind)], wrt, retain_graph=True, create_graph=True)[0]
except:
grad = torch.zeros_like(wrt)
Это принятый правильный способ справиться с этим?Или есть лучший вариант?Или у меня есть причина, по которой моя проблема была совершенно неправильной?