Правильно ли тестировать производительность модели по всему набору данных? - PullRequest
0 голосов
/ 27 февраля 2020

Набор данных разделен на обучающие и тестовые наборы с использованием функции train_test_split () в соотношении 75:25.

Модель обучается на наборе данных x_train и y_train. (Модели классификаторов, такие как гауссовские наивные байесы, случайный лес, k ближайших соседей, et c)

Можем ли мы теперь протестировать модель, используя полный набор данных, т. е. x и y? Или мы должны использовать только x_test и y_test для тестирования модели?

1 Ответ

1 голос
/ 27 февраля 2020

train_test_split () предназначен для того, чтобы предоставить вам более простой способ создания обучающих и тестовых подмножеств из вашего исходного набора данных. x_train и y_train представляют тренировочные данные и целевые данные, полезные для обучения модели, подобной упомянутой, для окончательного тестирования на тестовых подмножествах.

это для обучения, то есть для практики. тестирование всего набора данных неверно, потому что ваша модель будет смещена на данные, на которых она обучалась из x_train y_train. Вы должны протестировать свои модели на никогда ранее не замеченных данных y_test

...