Мы писали проект по распознаванию рук в OpenCV 2.3, и его неотъемлемой частью было точно знать, какие функции мы хотим извлечь и из какого объекта ?. Когда вы говорите, что хотите громкость, вам, конечно, нужно работать в трехмерном пространстве или делать довольно жесткие предположения. С точки зрения kinect, вы, конечно, будете работать в трехмерном пространстве, но одноугловая перспектива снова заставит вас сделать некоторые большие предположения.
Я сделал маленький пример с краской. Показано ниже
![enter image description here](https://i.stack.imgur.com/bhqUT.png)
Белые области объекта, это воспринимаемый угол без информации о глубине.
Синий воспринимается как единое целое с глубиной информации.
Красный вообще не информация.
В первом примере вы даже не будете знать, является ли это сферой или кругом, поэтому расчет объема будет близок к невозможному, если вы не знаете, что работаете со сферами.
Во втором примере используется кинект, дающий нам информацию о глубине только на половине этой сферы, я бы резонно предположил, что эта воспринятая полусфера действительно влияет на сферу, и удвоил объем, рассчитанный из текущего информация.
Последний пример - многоугольный. Я использовал аналогичный метод для отслеживания ракеты с бутылкой с водой в трехмерном пространстве. Я дам глубину восприятия до некоторой степени. Но я думаю, что подобный подход может быть использован с несколькими кинектами, давая очень подробный набор данных.
То, что я пытаюсь найти здесь, - это знать типы объектов, с которыми вы столкнетесь, выяснить, чем вы готовы пожертвовать в оборудовании и настройке, чтобы получить более точные данные, и обязательно сделать разумные предположения. на основании бывшего.
Надеюсь, что ответ был полезным (и что мое время, проведенное в краске, стоило того: D)