Целевое кодирование в модели Python - PullRequest
0 голосов
/ 24 октября 2018

Я сделал модель на Python, и это использует целевое кодирование.Я использовал набор данных с 25000 строками, и он разделен на наборы обучающих и тестовых данных.Модель действительно работает нормально.Однако сейчас я хочу запустить модель на абсолютно свежих данных - скажем, только одна строка данных в файле Excel.Мне нужно знать код для этого и буду очень признателен, если кто-то может помочь.Я немного новичок в Python.Вот часть кода, которую я написал для создания обучающих и тестовых наборов данных из 25000 строк и обучения модели при обучении и прогнозировании на тесте.Однако мне нужен код, который запускает эту модель и использует целевое кодирование для прогнозирования свежих данных.Если мне нужно опубликовать больше кода для большей ясности, пожалуйста, дайте мне знать.

train_x, test_x, train_y, test_y = train_test_split (X, y, test_size = 0.2)

rf = RandomForestClassifier (n_jobs = -1) rf.fit (train_x.values, train_y.values)

pred_train = rf.predict (train_x.values) pred = rf.predict (test_x.values)

Спасибо

1 Ответ

0 голосов
/ 24 октября 2018

Возможно, вы захотите посмотреть раздел комментариев в этой записной книжке - здесь

"После того, как мы применяем целевое кодирование к данным поезда и к цели. Мы можем получить результат дляодна категория, такая как столбец A, имеет a, b, c. Затем мы вычисляем среднее значение каждого a, b, c в столбце A и применяем его к тестовым данным. Затем мы применяем его для тестирования с использованием функции pd.merge. "

...