Я использую H2O для анализа набора данных, но я не уверен, как правильно выполнить перекрестную проверку моего набора данных. У меня есть несбалансированный набор данных, поэтому я бы хотел провести стратифицированную перекрестную проверку (где выходная переменная используется для балансировки групп в каждом разделе).
Однако, кроме того, у меня также есть проблема, что многие из моих строк являются повторениями (способ реализации весов без фактического наличия весов). Независимо от источника этой проблемы, я уже видел, что в некоторых случаях вы можете выполнять перекрестную проверку, если некоторые строки должны храниться вместе. Это швы для использования fold_column. Тем не менее, невозможно сделать оба одновременно?
Если раствора H2O нет, как я могу априори вычислить сгиб и использовать его на H2O?