Я подхожу к концу сценария, который принимает некоторые текстовые данные (комментарии) и оценивает, является ли комментарий хорошим или нет (адекватным / неадекватным, как угодно). Я пытаюсь понять важность функции, и у меня есть следующее:
label = 'check'
ignore_cols = [label, 'comment', 'comment_clean']
features = [c for c in df.columns if c not in ignore_cols]
X_train, X_test, y_train, y_test = train_test_split(df[features], df[label], test_size = 0.20, random_state = 42)
#X_train = pd.get_dummies(df[features])
#X_train = X[:, None]
rf = RandomForestClassifier(n_estimators = 100, random_state = 42)
rf.fit(X_train, y_train)`
Первая проблема, которую я получаю, состоит в том, что 2 из столбцов в моем наборе данных X являются строками. Я обхожу это с помощью первой закомментированной строки: X_train = pd.get_dummies (df [features]). Когда я это делаю, я получаю еще одну ошибку, утверждая, что мои метки не соответствуют количеству образцов. Затем я использую вторую закомментированную строку: X_train = X [:, None], но теперь она возвращает меня к следующему столбцу типа: string. Есть ли способ обойти это, или лучший способ объяснить эти две проблемы? Они мешают мне запустить функцию подгонки. Большое спасибо за вашу помощь!