H2O «ВЫХОД - СРЕДСТВА КЛАСТЕРА» неправильно отображает метрики - PullRequest
0 голосов
/ 22 января 2019

(примечание: это связано с вопросом, который я разместил ранее H2O (с открытым исходным кодом) для средней K-кластеризации )

Я использую K-Means для нашего набора данных около 100 функций (некоторые из них являются временными метками)

(1) Я проверил раздел «OUTPUT - CLUSTER MEANS», и в поле временной метки было указано значение «1.4144556086883196e + 22». Наш файл меток времени содержит данные за 2018 год, а время Unix 2018 года похоже на «1541092918000». Следовательно, это не может быть то большое число «1.4144556086883196e + 22». Мое понимание чисел в разделе «ВЫХОД - СРЕДСТВА КЛАСТЕРА» должно быть близко к необработанным данным (до стандартизации). Правильно?

(2) Что касается стандартизации, можете ли вы использовать этот пример https://github.com/h2oai/h2o-3/blob/master/h2o-genmodel/src/test/resources/hex/genmodel/algos/kmeans/model.ini#L21-L27 и скажите мне, как входные данные преобразуются в стандартизированное значение? Скажем, у меня есть необработанный вектор значения (a, b, c, d, 1.8), я оставляю только последний элемент и опускаю другие. Как я могу узнать, находится ли он близко к центру 2 ниже в этом примере. Можете ли вы показать мне, как H2O конвертирует необработанные данные, используя standardize_means, standardize_mults и standardize_modes. Я уверен, что H2O имеет способ вычислить стандартизированное значение из выходных данных модели, но я не могу найти место и формулу. center_2 = [2,0, 0,0, -0,5466317772145349, 0,04096506994984166, 2,1628815416218337]

Спасибо.

1 Ответ

0 голосов
/ 24 января 2019

1) Я не уверен, где вы видите метку времени в Flow или если вы имеете в виду, что ваш набор данных содержит метку времени, которую H2O-3 преобразовал. В любом случае, похоже, вы столкнулись с ошибкой. Временные метки, которые вы видите в H2O-3, являются миллисекундами со времени эпохи Unix, поэтому вам нужно разделить на 1000, прежде чем использовать конвертер времени Unix (например, вы можете использовать https://currentmillis.com/). Но, опять же, учитывая, что число настолько велико, Я склоняюсь к ошибке - любой код, который вы можете предоставить, чтобы сделать его воспроизводимым, был бы великолепен.

1a) Когда вы проверяете standardize в потоке в дополнение к «ВЫХОДУ - СРЕДСТВУ КЛАСТЕРА» (который не стандартизирован), вы увидите «ВЫХОД - СТАНДАРТИЗИРОВАННОЕ СРЕДСТВО КЛАСТЕРА», поэтому нестандартный вывод должен отражать единицу измерения вашего вход.

2) Стандартизация в H2O-3 описана здесь (которая гласит: «стандартизирует числовые столбцы, чтобы иметь нулевое среднее значение и единичную дисперсию».). Предоставленная вами ссылка указывает на модель для тестирования, которая была сохранена как MOJO, и я не уверен, что имеет смысл использовать ее в качестве примера. Но в целом способ стандартизации для H2O-3 заключается в определении стандартизации.

...