Question

У меня есть небольшой набор данных (140 КБ), который я хотел бы разделить на набор валидации, набор тестов валидации с использованием целевой переменной и другое поле для сглаживания этих расщеплений.

Sagar Dubey · Answer 1 · 20 сентября 2019

В Pyspark вы можете использовать функцию randomSplit (), чтобы разделить набор данных на обучающий и тестовый наборы данных.Это может принимать до двух аргументов, которые являются весами и семенем. Мы используем Seed, потому что мы хотим, чтобы одинаковые выходные данные. В весах вы можете указать плавающее число. Если он не суммирует 1, он нормализует весовые коэффициенты. Используется для указания того, какой процент отданные пойдут в обучающую, проверочную и тестовую части.

Пример кода

data.randomSplit([0.8,0.1,0.1],785)

Как создать расслоенный обучающий набор, валидацию и тестовый набор на pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как создать расслоенный обучающий набор, валидацию и тестовый набор на pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы