Sklearn - Random Forest Fit - строка с плавающей точкой и метки не совпадают с образцами - PullRequest
0 голосов
/ 27 марта 2020

Я подхожу к концу сценария, который принимает некоторые текстовые данные (комментарии) и оценивает, является ли комментарий хорошим или нет (адекватным / неадекватным, как угодно). Я пытаюсь понять важность функции, и у меня есть следующее:

label = 'check'
ignore_cols = [label, 'comment', 'comment_clean']
features = [c for c in df.columns if c not in ignore_cols]

X_train, X_test, y_train, y_test = train_test_split(df[features], df[label], test_size = 0.20, random_state = 42)
#X_train = pd.get_dummies(df[features])
#X_train = X[:, None]

rf = RandomForestClassifier(n_estimators = 100, random_state = 42)
rf.fit(X_train, y_train)`

Первая проблема, которую я получаю, состоит в том, что 2 из столбцов в моем наборе данных X являются строками. Я обхожу это с помощью первой закомментированной строки: X_train = pd.get_dummies (df [features]). Когда я это делаю, я получаю еще одну ошибку, утверждая, что мои метки не соответствуют количеству образцов. Затем я использую вторую закомментированную строку: X_train = X [:, None], но теперь она возвращает меня к следующему столбцу типа: string. Есть ли способ обойти это, или лучший способ объяснить эти две проблемы? Они мешают мне запустить функцию подгонки. Большое спасибо за вашу помощь!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...