Я использую sklearn для проекта, и у меня есть два столбца для прогнозирования. Один столбец - text
, представляющий собой серию статей, а другой - equal_cnts
, представляющий собой действительное число. Я пытаюсь создать модель, которая обучается как тексту, так и числам, используя SVM, но мне трудно понять, как использовать обе функции.
vect = CountVectorizer(ngram_range=(1, 2))
tfidf = TfidfTransformer()
svm = svm.SVC(kernel='linear', C = 100, gamma = 0.1)
text_clf = Pipeline([('vect', vect), ('tfidf', tfidf), ('svm', svm)])
scores = cross_val_score(text_clf, pd.concat([df['text'], df['equal_cnt']], axis = 1), df['empirical'], cv=10)
В настоящее время я пытаюсь сделать выше, где конвейер предназначен для обработки текста, а модель проверяется на точность по df["empirical"]
.