Я использую предварительно обученную модель для оценки позы с помощью Pytorch: https://github.com/microsoft/human-pose-estimation.pytorch
Я использую модель для обнаружения людей и их 17 ключевых точек на изображении, но я не уверен как мне преобразовать выходной тензор в формат пиксельных координат для каждой ключевой точки с оценкой достоверности для каждого человека.
Это код для прогноза:
model.eval()
img_t = ToTensor()(img).unsqueeze(0)
out = model(img_t)
out.shape
Форма вывода это [1, 16, 64, 56]. Я немного заблудился. Любая помощь приветствуется.