В Pyspark вы можете использовать функцию randomSplit (), чтобы разделить набор данных на обучающий и тестовый наборы данных.Это может принимать до двух аргументов, которые являются весами и семенем. Мы используем Seed, потому что мы хотим, чтобы одинаковые выходные данные. В весах вы можете указать плавающее число. Если он не суммирует 1, он нормализует весовые коэффициенты. Используется для указания того, какой процент отданные пойдут в обучающую, проверочную и тестовую части.
Пример кода
data.randomSplit([0.8,0.1,0.1],785)