Как нормализовать характеристики и образцы? - PullRequest
0 голосов
/ 08 апреля 2020

Я реализую извлечение изображений на основе контента (CBIR), основанное на извлечении объектов по гистограмме, HOG и локальному двоичному шаблону. Каждое из этих (нормализованных) извлечений объектов сохраняется отдельно в файле csv для расчета расстояний на следующем шаге. Этот файл выглядит следующим образом:

img_ID0, 0.0, 0.0, 0.0, 0.4, 0.1, ...
img_ID1, 0.0, 0.1, 0.0, 0.2, 0.1, ...
img_ID2, 0.2, 0.0, 0.0, 0.4, 0.0, ...

Я сглаживаю ndarray и нормализую по всему сглаженному массиву. Какой должна быть выборочная нормализация (я не уверен в этом, поэтому, пожалуйста, исправьте меня)

Теперь, как будет выглядеть функциональная нормализация? Особенно, если у меня действительно нет "именованных" столбцов? Должен ли я нормализоваться по (не сплющенному) изображению или позже по сплющенным массивам по столбцам по всем изображениям?

Литература просто говорит, что эта функция широко используется, но все же зависит от приложения. CBIR кажется очень расплывчатым по этому поводу.

1 Ответ

0 голосов
/ 08 апреля 2020

Предположим, что ваши данные до нормализации выглядят так:

img_ID0, feat1_val, feat2_val, feat3_val,...
img_ID1, feat1_val, feat2_val, feat3_val,...
img_ID2, feat1_val, feat2_val, feat3_val,...

Каждая строка - это новое изображение (= образец), а каждый столбец - это особенность. В этом случае нормализация по выборке будет нормализоваться вдоль каждой строки («Каково относительное значение признака X по сравнению с признаком Y для образца N?»), А нормализация по признакам будет нормализация вдоль каждого столбца («Каково относительное значение признака X для образца N по сравнению с образцом M?»).

Уплощение массива перед нормализацией, как вы сделали, было бы еще одним типом нормализации. Также см. https://stats.stackexchange.com/questions/354774/should-i-normalize-featurewise-or-samplewise

...