имя определить при расчете TF-IDF - PullRequest
2 голосов
/ 07 августа 2020

У меня есть набор данных, содержащий набор статей. Я объединил метаданные и файлы json и создал фрейм данных. Вот мой код:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

import pandas as pd
import numpy as np 

vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(merged_df['Title'][39100])

print(X.shape)

query = "How to prevent covid19"
query_vec = vectorize.transform([query])
result = cosine_similarity(X,query_vec).reshape((-1,))

for i in result.argsort()[-10:][::-1]:
    print(merged_df.iloc['Title'][i,0], "--", merged_df.iloc['Title'][i,1])

Я хочу вычислить TFIDF заголовка для обработки запроса, который помогает мне найти некоторые соответствующие документы. Почему он предлагает имя "merged_df" не определено?

1 Ответ

1 голос
/ 07 августа 2020

В вашем коде merged_df нигде не определено. Фрейм данных никогда не создается, поэтому не определен.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...