У меня есть кадр данных, который выглядит следующим образом:
question answer
Why did the chicken cross the road? to get to the other side
Who are you? a chatbot
Hello, how are you? Hi
.
.
.
Что я хотел бы сделать, это использовать TF-IDF для обучения этому набору данных. Когда пользователь вводит фразу, вопрос, наиболее соответствующий этой фразе, будет выбран с использованием косинусного сходства. Таким образом, я могу создать значения TF-IDF для предложений в наборе данных поезда, но как мне использовать это, чтобы найти показатель косинусного сходства для новой фразы, введенной пользователем?
from sklearn.feature_extraction.text import TfidfVectorizer
v = TfidfVectorizer()
x = v.fit_transform(intent_data["sentence"])