Учебные данные имеют больше столбцов, чем тестовые данные - PullRequest
0 голосов
/ 06 апреля 2019

У меня есть тренировочные данные с 16 столбцами и тестовые данные с 14 столбцами, а последние два целевых столбца из тренировочных данных отсутствуют в тестовых данных (что очень важно). Также данные испытаний уже предоставлены и данные обучения также приведены. Подход, о котором я думал, состоит в том, чтобы начать с объединения данных поезда и теста, а затем разделить данные на X_Train, Y_Train, X_Test и Y_Test. Это хороший способ сделать или есть другой способ начать?

Я еще не закодировал это. Но прежде чем я смогу это сделать, мне нужен совет, чтобы начать его.

Спасибо

Ответы [ 2 ]

1 голос
/ 06 апреля 2019

Для оценки вашей модели вы можете просто разделить ваш тренировочный набор на обучение и тестирование (используя 20% для тестирования) и использовать перекрестную проверку.

Ваш тестовый набор бесполезен для оценки, если он не содержит целевой переменной.Я думаю, что это задание или конкурс, который ты принимаешь?Потому что они всегда дают вам набор тестов с сохранением целей для вашей оценки

1 голос
/ 06 апреля 2019

Ну, я не знаю, какую задачу вы хотите решить, но кажется, что вы хотите обучить модель в своем наборе обучающих данных, а затем предсказать цели вашего тестового набора данных (вот почему у вас их нет).

Если вы хотите оценить, насколько хорошо ваша модель работает на этапе обучения, вы можете разделить свои тренировочные данные на реальный набор тренировок и набор проверок с помощью test_train_split(X_train,y_train). Если точность проверки достаточно высока, вы берете свою обученную модель и набираете model.predict(X_test) на ней

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...