Я пытаюсь реализовать функцию подобия, используя
- N-грамм
- TF-IDF
- Cosine Similaity
Пример
Концепция:
words = [...]
word = '...'
similarity = predict(words,word)
def predict(words,word):
words_ngrams = create_ngrams(words,range=(2,4))
word_ngrams = create_ngrams(word,range=(2,4))
words_tokenizer = tfidf_tokenizer(words_ngrams)
word_vec = words_tokenizer.transform(word)
return cosine_similarity(word_ved,words_tokenizer)
Я искал в Интернете простую и безопасную реализацию, но не смог найти такую, в которой бы использовались известные пакеты Python как sklearn, nltk, scipy и т. Д.
большинство из них используют "сделанные самостоятельно" вычисления.
Я стараюсь избегать написания кода каждый шаг вручную, и я предполагаю, что есть простое решение для всего этого «конвейера».
любая помощь (и код) будет принята с благодарностью. tnx:)