У меня есть набор данных, содержащий набор статей. Я объединил метаданные и файлы json и создал фрейм данных. Вот мой код:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd
import numpy as np
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(merged_df['Title'][39100])
print(X.shape)
query = "How to prevent covid19"
query_vec = vectorize.transform([query])
result = cosine_similarity(X,query_vec).reshape((-1,))
for i in result.argsort()[-10:][::-1]:
print(merged_df.iloc['Title'][i,0], "--", merged_df.iloc['Title'][i,1])
Я хочу вычислить TFIDF заголовка для обработки запроса, который помогает мне найти некоторые соответствующие документы. Почему он предлагает имя "merged_df" не определено?