Визуализация нейронной сети для задачи обнаружения - PullRequest
0 голосов
/ 09 мая 2019

В настоящее время я работаю со SqueezeDet для целей обнаружения.Я обучил сеть на синтетических данных, и она работает достаточно хорошо. результаты обнаружения

Для моего проекта я хотел бы иметь возможность визуализировать, какие части ввода более актуальны для процесса обнаружения.Так что в случае обнаружения пешехода я бы предположил, что его пиксель будет важнее, чем, например, окружение.Я попробовал несколько разных методов, но ни один из них не является полностью удовлетворительным.Я провел собственное исследование и не смог найти ни одной статьи, в которой говорилось бы о визуализации для обнаружения объектов.Так что я реализовал VisualBackProp , результаты однако не выглядят многообещающе.Если вместо этого я вычислю релевантность , то все выглядит немного лучше, но все же не так, как ожидалось.Я начал думать, что, возможно, проблемы могут быть связаны со сложностью моих выходных данных, в отношении сети, которая может иметь дело только с классификацией, или, как в документе VisualBackProp, только с предсказанием угла поворота.

Мне было интересно, есть ли у кого-нибудь представление о том, какая техника визуализации лучше всего подходит для задачи обнаружения.

1 Ответ

0 голосов
/ 09 мая 2019

Вы можете попробовать просто увеличить различные области изображения и посмотреть, как это влияет на достоверность обнаружения.Например, вы можете поместить область, содержащую пешехода, на черный фон вместо естественного фона, чтобы увидеть, насколько окружающая среда на самом деле влияет на вещи.Вы также можете добавить умеренный или сильный шум, чтобы выделить области изображения и наблюдать, какие области соответствуют наибольшему изменению достоверности обнаружения.

Точнее, математически вас интересует градиент достоверности данных пикселей WRT обнаружения.В зависимости от используемой вами платформы глубокого обучения, если вы запустите одну итерацию обучения, вы сможете получить градиенты в слое данных (dL / dx), которые будут непосредственно отображать их.Это будет представлять только эффект небольших изменений в пиксельных данных - если вы стремитесь к более макроскопическому пониманию, чем это, я думаю, что мое первое предложение, вероятно, ваш единственный вариант.

...