В Интернете я видел примеры, когда RandomForestClassifier используется для обучения числовых значений c и проверки числовых значений c. Кроме того, я видел, что RandomForestClassifier используется для обучения помеченных данных и тестирования помеченных данных. Все это имеет смысл для меня. Сейчас я погружаюсь в НЛП и смотрю на набор данных, который имеет много языка (все комментарии клиентов) и подсчет рейтингов, которые клиенты размещают на веб-сайте. Я пытаюсь провести какой-то анализ настроений в колонке комментариев и посмотреть, смогу ли я предсказать положительные, нейтральные или отрицательные настроения. Это правильный подход? Есть ли лучший способ решения такой проблемы?
Вот код, который я тестирую.
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer (max_features=2500, min_df=7, max_df=0.8, stop_words=stopwords.words('english'))
processed_features = vectorizer.fit_transform(wd_list).toarray()
# split into traing set and test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(wd_list, labels, test_size=0.2, random_state=0)
# we need to train the model
from sklearn.ensemble import RandomForestClassifier
text_classifier = RandomForestClassifier(n_estimators=200, random_state=0)
text_classifier.fit(X_train, y_train)
В самой последней строке кода я получаю эту ошибку:
ValueError: could not convert string to float: 'i love smell cleanser scent wipes seems different'