Как мне применить Tfidf_vectorizer ко всему столбцу панд? - PullRequest
1 голос
/ 24 июня 2019

Прежде всего, я новичок в НЛП, так что я мог понять концепцию неправильно или что-то в этом роде

Я пытаюсь найти способ векторизации всего столбца в виде одного текста, а затем после получения результатов я хотел бы подогнать модель, которую я использую, к своему целевому набору.

В настоящее время я использую конвейер для векторизации моих столбцов данных, но я считаю, что они векторизуются 1 к 1, вместо того, чтобы объединять все столбцы вместе, а затем делать это.

Вот преувеличенный пример моего набора данных:

   data                                                 target
1 "conventional normal breast cancer test"              breast cancer test
2 "regular and conventional normal lung cancer test"    lung cancer test

По сути, я хотел бы дать терминам "грудь" и "легкие" высокий балл tfidf, потому что он уникален, и я не хочу, чтобы моя модель ошибочно принимала эти 2 типа данных, потому что они кажутся похожими

Мой текущий код:

vectorizer = feature_extraction.text.TfidfVectorizer(ngram_range=(1, 3),
                         analyzer='word',)

pipe = pipeline.Pipeline([
('vectorizer', vectorizer),
('clf', linear_model.LogisticRegression())])

pipe.fit(X_train, y_train)

y_predicted = pipe.predict(X_test)
...