Я использую следующий метод для обучения линейного регрессора для предсказания ретвитов твитов.Я использую «текст» в качестве функции и «retweet_count» в качестве цели для прогнозирования.Однако в моих данных есть несколько дополнительных функций, таких как hasMedia, hasHashtag, follow_count, sentiment (которые являются числовыми функциями).Как я могу объединить эти функции с ' text ', который был преобразован в вектор tfidf?
Я уже пробовал объединять кадры данных панд.И тогда, когда я даю новые данные испытаний, функции не совпадают.Пожалуйста, проверьте мой вопрос в Несоответствие атрибутов между данными обучения и тестирования в sklearn - линейная регрессия
def predict_retweets(dataset):
tfidf = TfidfVectorizer(tokenizer=identity_tokenizer, stop_words='english', lowercase=False)
keyword_response = tfidf.fit_transform(dataset['text']).toarray()
X = keyword_response
y = dataset['retweet_count']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
regressor = LinearRegression()
regressor.fit(X_train, y_train)
y_pred = regressor.predict(X_test)
df = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
print(df)
return None
Образец данных
