TF-IDF как взять только список слов - PullRequest
0 голосов
/ 18 января 2019

Я знаю, что мы можем использовать список стоп-слов в tf-idf, но есть ли способ взять только список слов и пренебречь остальными?
Например, здесь я объявляю список стоп-слов:
vectorizer = TfidfVectorizer(stop_words="english")
Если я хочу просто принять во внимание предложения кошка и собака , я хочу что-то вроде:
vectorizer = TfidfVectorizer(keep_words=["cat", "dog"])
Моя цель - сделать кластеризацию текста с учетом только определенных слов?
Есть ли решение?

1 Ответ

0 голосов
/ 18 января 2019

Да. скажем, у вас есть массив слов

words = ['you','me','we']
TfidfVectorizer(vocabulary=words)

Вы можете использовать словарный аргумент для передачи только выбранных слов.

...