Весовая политика для модели несбалансированного тензорного потока - PullRequest
0 голосов
/ 02 ноября 2019

Я хочу обучить модель DNNClassifier с тензорным потоком из несбалансированного набора данных. Каждый образец имеет значение «качество», которое представляет относительную релевантность образца. Я предполагаю, что могу использовать вес, чтобы представить эту актуальность. Я прочитал весовые характеристики умножаются с потерей. В этом случае «хорошие» образцы могут иметь небольшой вес. Это точно?

Ответы [ 2 ]

0 голосов
/ 02 ноября 2019

Как правильно указал Панкадж Кабра, неясно, что вы имеете в виду под «хорошими» образцами. Если вы хотите придать им больше значения, вам следует больше взвесить эти примеры;напротив, если это самые многочисленные выборки, и вы не хотите, чтобы сеть была смещена к ним только потому, что их больше, тогда вам нужно взвесить их меньше.

Наиболее классические подходы к выполнениюэто два:

  1. мультиплеер потери веса на выборку в соответствии с его классом. Это означает, что если вы оцениваете потери в более многочисленном классе, вы должны умножить его значение на меньший вес;наоборот, если вы имеете дело с наименьшим классом, то вес должен быть больше. Например, вы можете использовать веса, рассчитанные как: w_class = 1.0/(number_of_samples_for_this_class).
  2. выборочные сбалансированные мини-партии, в которых числовые значения двух классов одинаковы.
0 голосов
/ 02 ноября 2019

Что вы подразумеваете под "хорошими образцами"? В несбалансированном случае у вас будет 2 вида сэмплов: больше по количеству и меньше по количеству.

Вес для тех, кто больше, должен быть меньше, а для тех, что меньшедолжно быть больше. Мы в основном делаем модель более ориентированной на небольшое количество образцов, увеличивая их потери.

...