Случайный лесной предиктор - PullRequest
0 голосов
/ 07 февраля 2020

Я пытаюсь построить прогноз, используя Случайный Лес.

У меня есть (например, для простоты) список людей; и список городов, которые они посещают.

например.

X    y
Kate London
Kate London
Kate New York
Amy Berlin
Amy Paris
Amy Berlin

И я пытаюсь предсказать, где человек может go на основании предыдущих поездок. Я назначил уникальный идентификатор каждому человеку и каждому городу для целей Случайного леса.

df_1 = df_imp.assign(X=(df_imp['X']).astype('category').cat.codes)
df_2 = df_1.assign(y=(df_imp['y']).astype('category').cat.codes)

from sklearn.model_selection import train_test_split

X = df_2['X']
y = df_2['y']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

from sklearn.ensemble import RandomForestClassifier

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=0)

Как создать выход, который связывает уникальный идентификатор с исходным именем?

...