Как создать расслоенный обучающий набор, валидацию и тестовый набор на pyspark? - PullRequest
0 голосов
/ 19 сентября 2019

У меня есть небольшой набор данных (140 КБ), который я хотел бы разделить на набор валидации, набор тестов валидации с использованием целевой переменной и другое поле для сглаживания этих расщеплений.

1 Ответ

0 голосов
/ 20 сентября 2019

В Pyspark вы можете использовать функцию randomSplit (), чтобы разделить набор данных на обучающий и тестовый наборы данных.Это может принимать до двух аргументов, которые являются весами и семенем. Мы используем Seed, потому что мы хотим, чтобы одинаковые выходные данные. В весах вы можете указать плавающее число. Если он не суммирует 1, он нормализует весовые коэффициенты. Используется для указания того, какой процент отданные пойдут в обучающую, проверочную и тестовую части.

Пример кода

data.randomSplit([0.8,0.1,0.1],785)
...