Как использовать опцию классов баланса для autoML в интерфейсе потока? - PullRequest
0 голосов
/ 03 ноября 2019

Я пытаюсь использовать autoML в интерфейсе потока для задачи классификации.

Мой столбец ответов имеет тип данных enum со значениями 1 и 0.

Мой набор данныхдействительно неуравновешенный, около 0,5% строк имеют 1 ответ.

Я хочу попробовать опцию классов сальдо, но каждый раз, когда я пытаюсь это сделать, программа выдает ошибки.

Если я проверяю опцию классов сальдо, я должен также вводить значенияв поле ввода class_sampling_factors? Если так, что я вставлю?

Документация гласит:

"class_sampling_factors: (DRF, GBM, DL, Naive-Bayes, AutoML) Укажите коэффициенты избыточной / недостаточной выборки для каждого класса (в лексикографическом порядке). по умолчанию эти соотношения автоматически вычисляются во время обучения, чтобы получить баланс классов. Этот параметр применим только для задач классификации и при включенном balance_classes. "

Но кажется, что функция не запускается, если я не введу что-либо в.

Я пытался вставить 200,0, 1, а также 1,0,200,0, но ни один из них, похоже, не работал.

1 Ответ

0 голосов
/ 03 ноября 2019

При использовании «Классы баланса» не требуется указывать параметр «Коэффициенты выборки классов».

Я только что проверил на H2O 3.26.0.9, что вы можете успешно запустить AutoML с отмеченными «Классами баланса» и оставив поле «Коэффициенты выборки классов» пустым, используя набор данных HIGGS (подмножество 10k),Я также ввел 1.0,0.5 для «Факторов выборки класса», и это сработало. Я не вижу сообщений об ошибках в более старых версиях H2O (не уверен, какую версию вы используете), поэтому, возможно, ошибка вызвана чем-то другим?

Вот вывод потока, сгенерированный обеими опциями:

enter image description here

enter image description here

...