Я новичок в машинном обучении. Я делаю онлайн-курс по машинному обучению.
В моей лаборатории следующие 2 варианта используются для разделения набора данных на тренировку и тестирование. Может ли кто-нибудь, пожалуйста, позвольте мне объяснить преимущества использования одного над другим.
Вариант 1:
msk = np.random.rand(len(df)) < 0.8
train = cdf[msk]
test = cdf[~msk]
Вариант 2:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.15, random_state=1)
Я понимаю, что Вариант 1 ручной способ разделения данных на обучающие и тестовые данные и вариант 2 - это замена варианта 1 с использованием библиотеки обучения scikit.
Любым способом, который я хотел подтвердить.
Заранее спасибо