У меня есть фрейм данных с двумя текстовыми полями и другими функциями, такими как этот формат:
message feature_1 feature_2 score text
'This is the text' 4 7 10 extra text
'This is more text' 3 2 8 and this is another text
Теперь моя цель состоит в том, чтобы предсказать оценку, и при попытке преобразовать этот фрейм данных в матрицу возможностей, чтобы передать его в мою модель машинного обучения, вот что я сделал:
# Create vectorizer for function to use
vectorizer = TfidfVectorizer()
# combine the numerical features with the TFIDF generated matrix
X = sp.sparse.hstack( (vectorizer.fit_transform(df.message),
df[['feature_1', 'feature_2']].values, vectorizer.fit_transform(df.text)),
format='csr')
Теперь при печати формы моей матрицы X я получил 2x13, но когда я проверяю X_columsn, вот так:
X_columns = vectorizer.get_feature_names() + df[['feature_1', 'feature_2']].columns.tolist()
Я не получаю все слова в корпусе, он приносит мне только слова, существующие в df.text
, и атрибут других функций без слов в df.message
.
['and', 'another', 'extra', 'is', 'text', 'this', 'feature_1', 'feature_2']
Как я могу сделать так, чтобы X содержал все мои функции для работы с кадрами !!