Можем ли мы использовать np.random.rand () для разделения данных на обучающие и тестируемые? Каковы преимущества использования sklearn - train_test_split - PullRequest
0 голосов
/ 13 февраля 2020

Я новичок в машинном обучении. Я делаю онлайн-курс по машинному обучению.

В моей лаборатории следующие 2 варианта используются для разделения набора данных на тренировку и тестирование. Может ли кто-нибудь, пожалуйста, позвольте мне объяснить преимущества использования одного над другим.

Вариант 1:

msk = np.random.rand(len(df)) < 0.8
train = cdf[msk]
test = cdf[~msk]

Вариант 2:

from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.15, random_state=1)

Я понимаю, что Вариант 1 ручной способ разделения данных на обучающие и тестовые данные и вариант 2 - это замена варианта 1 с использованием библиотеки обучения scikit.

Любым способом, который я хотел подтвердить.

Заранее спасибо

...