Имеет ли смысл использовать sample_weights для сбалансированных наборов данных? - PullRequest
0 голосов
/ 20 января 2020

У меня ограниченные знания о sample_weights в библиотеке sklearn, но, насколько я знаю, она обычно используется для балансировки несбалансированных наборов данных во время обучения. Что меня интересует, так это то, что если у меня уже есть идеально сбалансированный набор данных бинарной классификации (т. Е. Равное количество единиц и 0 в столбце метка / Y / класс), можно ли добавить вес выборки к нулям, чтобы придать большее значение о правильном прогнозировании 1-х?

Например, допустим, я действительно хочу, чтобы моя модель предсказывала лунки 1-х, и можно прогнозировать 0-е, даже если они оказываются 1-ми. Будет ли установка sample_weight 2 для 0 и 1 для 1 будет правильной вещью здесь, чтобы придать большее значение правильному предсказанию 1? Или это имеет значение? И затем я предполагаю, что во время обучения функция оценки f1 обычно считается лучшей метрикой c для использования?

Спасибо за ввод!

1 Ответ

0 голосов
/ 23 января 2020

ОТВЕТ

После нескольких раундов тестирования и дополнительных исследований я обнаружил, что да, имеет смысл добавить больший вес к 0 с помощью сбалансированного набора данных двоичной классификации , если ваша цель состоит в том, чтобы уменьшить вероятность чрезмерного предсказания 1. Я провел две отдельные тренировки, используя вес 2 для 0 и 1 для 1, а затем снова наоборот, и обнаружил, что моя модель предсказывала меньше 1, когда вес был применен к 0, что было моей конечной целью.

На случай, если это кому-нибудь поможет.

Кроме того, я использую функцию оценки сбалансированной точности SKLearn для этих тестов, которая принимает среднее значение точности каждого отдельного класса.

...