набор обучающих и тестовых данных представлен в виде 4 разных наборов данных - PullRequest
0 голосов
/ 14 октября 2019

Я новичок в Python и буду очень признателен за помощь.

Речь идет о логистической регрессии (машинное обучение). У меня нет проблем до обучения алгоритму.

Наборы данных следующие:

Кадр данных cost_train содержит целевую переменную0 и 1 двоичная классификация.

cost_train =..
(13900 observations)
cost_test =... 
(5400 observations)
invoices_train =..
(6000000 observations)
invoices_test =...
(105000 observations)

Короче говоря, нет необходимости применять train_test_split. Моя первая идея состояла в том, чтобы объединить 3 других фрейма данных с фреймом данных cost_train, но после нескольких дней борьбы я понял, что он не сработает.

Я буду очень признателен за любые советы или решения.

1 Ответ

1 голос
/ 16 октября 2019

Прежде всего, я предполагаю, что invoices_train & invoices_test - ваши наборы функций, так как они не упомянуты. Вы можете использовать функции pandas concat () & merge () , чтобы объединить все 4 фрейма данных. Но у вас должно быть одинаковое количество строк в вашем наборе функций и наборе меток. В противном случае в вашем наборе меток будут нулевые значения. Вы можете сначала объединить invoices_train & invoices_test с одним набором данных как X, используя concat (). Затем сопоставьте cost_train & cost_test с другим единичным набором данных как y. Затем вы можете объединить X & y, используя merge (). Это один из подходов. Для получения более подробной информации посетите документацию для панд .

Но поскольку вы используете sklearn train_test_split , вам не нужнообъединить X & Y, потому что вы можете предоставить X, Y непосредственно в качестве параметров функции.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...