Я пытаюсь построить прогноз, используя Случайный Лес.
У меня есть (например, для простоты) список людей; и список городов, которые они посещают.
например.
X y
Kate London
Kate London
Kate New York
Amy Berlin
Amy Paris
Amy Berlin
И я пытаюсь предсказать, где человек может go на основании предыдущих поездок. Я назначил уникальный идентификатор каждому человеку и каждому городу для целей Случайного леса.
df_1 = df_imp.assign(X=(df_imp['X']).astype('category').cat.codes)
df_2 = df_1.assign(y=(df_imp['y']).astype('category').cat.codes)
from sklearn.model_selection import train_test_split
X = df_2['X']
y = df_2['y']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
from sklearn.ensemble import RandomForestClassifier
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=0)
Как создать выход, который связывает уникальный идентификатор с исходным именем?