Как совместить дополнительные функции с вектором tfidf - PullRequest
0 голосов
/ 14 декабря 2018

Я использую следующий метод для обучения линейного регрессора для предсказания ретвитов твитов.Я использую «текст» в качестве функции и «retweet_count» в качестве цели для прогнозирования.Однако в моих данных есть несколько дополнительных функций, таких как hasMedia, hasHashtag, follow_count, sentiment (которые являются числовыми функциями).Как я могу объединить эти функции с ' text ', который был преобразован в вектор tfidf?

Я уже пробовал объединять кадры данных панд.И тогда, когда я даю новые данные испытаний, функции не совпадают.Пожалуйста, проверьте мой вопрос в Несоответствие атрибутов между данными обучения и тестирования в sklearn - линейная регрессия

def predict_retweets(dataset):
    tfidf = TfidfVectorizer(tokenizer=identity_tokenizer, stop_words='english', lowercase=False)

    keyword_response = tfidf.fit_transform(dataset['text']).toarray()

    X = keyword_response
    y = dataset['retweet_count']

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

    regressor = LinearRegression()

    regressor.fit(X_train, y_train)
    y_pred = regressor.predict(X_test)

    df = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})

    print(df)

    return None

Образец данных

enter image description here

...