Я работаю над проблемой распознавания русского языка жестов, и у меня есть некоторые проблемы с моим набором данных. Для решения этой задачи я решил использовать классификационную сеть, идущую после сегментации сети (отделить руку от фона и затем классифицировать ее). После этого я собрал набор данных, используя хроматический ключ, чтобы отделить руку от фона. Он содержит изображения, собранные от 20 человек с помощью 2 веб-камер. Во время записи я не придавал значения тому, что цвета искажаются на одной из камер. Также я использовал indoorCVPR_09 в качестве набора данных фонов, который содержит изображения в помещении. Я обучил Unet на этих данных и получил 92% на тренировочном наборе с метрикой f1. Изображения для сегментаций были потерями функций, была бинарная кросс-энтропия. Также я рассчитал вес на партию из-за дисбаланса класса, потому что без него сеть не сходится. Так что теперь я работаю с этой камерой и у меня возникли некоторые проблемы при выводе. Я заметил причину этой проблемы, когда попытался использовать мою сеть с цветным ключом вместо стены комнаты. Веб-камера автоматически изменила свои внутренние настройки, и сеть начала выделять больше пикселей, а цвета на изображении были смещены на красный.
Я уже пробовал некоторые дополнения изображения, такие как добавление случайной яркости, контрастности, гамма-коррекция, добавление случайного гауссовского шума и размытие.
Я хочу несколько советов, что делать дальше.
Есть ли способ предотвратить изменение восприятия цвета моей веб-камеры?
Есть ли способ узнать, какое преобразование было сделано моей веб-камерой (защитник g объектив 2577) во время записи набора данных, чтобы инвертировать ее?
Может быть, есть какое-то цветовое расширение, которое может помочь?
Как такие проблемы обычно решаются в серьезных исследовательских и коммерческих проектах?