H2o Flow UI: Как работает Split Frame для мультиклассового набора данных? - PullRequest
0 голосов
/ 08 июля 2019

Я только что установил интерфейс потока воды. У меня есть CSV со следующими метками.

Label | Count
0     | 9340
1     | 400
2     | 349

Я импортировал свой файл и проанализировал его. После того, как я разделил кадр (в соотношении 80:20), я загрузил 2 CSV-файла, чтобы проверить количество меток.

Но раскол не разделяется на то, что я ожидал.

Я ожидал, что данные будут разбиты следующим образом:

Class | Expected 0.8 | Actual 0.8 | Expected 0.2 | Actual 0.2
0     | 7472         | 7418       | 1868         | 1882
1     | 320          | 610        | 80           | 159
2     | 279          | 15         | 69           | 5

Как я могу разделить мои данные на ожидаемое значение, которое я хотел выше, чтобы я мог использовать их в качестве обучающего и проверяющего фрейма для построения модели?

1 Ответ

0 голосов
/ 09 июля 2019

Опция разделенной рамки H2O-3 не предназначена для точного разделения.

H2O-3 спроектирован так, чтобы быть эффективным на больших данных, используя вероятностный метод разделения, а не точное разделение. Например, при указании разделения 0,75 / 0,25, H2O-3 будет производить тест / разделение поезда с ожидаемым значением 0,75 / 0,25, а не точно 0,75 / 0,25. В небольших наборах данных размеры результирующих разбиений будут отклоняться от ожидаемого значения больше, чем в больших данных, где они будут очень близки к точным.

...