Я постараюсь выделить некоторые моменты, которые я нашел в старой книге (ссылка в конце этого ответа).
Прежде всего, вы не можете напрямую сопоставить ось z мировой координаты с координатой вашего изображения (x, y), потому что это проблема один-ко-многим: одна точка пикселя может быть в любом z- точка линии оси. Однако существует множество исследований и алгоритмов оценки этой оси Z только с одной перспективой изображения, а другие с использованием двух перспектив изображения (стереозрение).
Но если у вас уже есть словесная координата оси Z, вы можете вычислить X и Y, используя приведенную выше формулу.
![enter image description here](https://i.stack.imgur.com/Dkbxo.png)
где:
- (x, y) = координаты изображения некоторой точки
- (X0, Y0, Z0) = координаты слова камеры
- (X, Y, Z) = словарные координаты некоторой точки
- α = угол между x и ось X
- θ = угол между осью z и Z
- λ = фокусное расстояние
![enter image description here](https://i.stack.imgur.com/SMk16.png)
Я не специалист по робототехнике, но, возможно, это поможет вам прояснить ваш путь. Я использую изображения из книги ниже (страница 313).
Справочник : ФУ, КС; GONZALEZ, R. C .; ЛИ, C. SG. Робототехника: управление, зрение, зрение и интеллект. [с. Л.]: Макгроу - Хилл, 1987.