Я знаю, что мы можем использовать список стоп-слов в tf-idf, но есть ли способ взять только список слов и пренебречь остальными? Например, здесь я объявляю список стоп-слов: vectorizer = TfidfVectorizer(stop_words="english") Если я хочу просто принять во внимание предложения кошка и собака , я хочу что-то вроде: vectorizer = TfidfVectorizer(keep_words=["cat", "dog"]) Моя цель - сделать кластеризацию текста с учетом только определенных слов? Есть ли решение?
vectorizer = TfidfVectorizer(stop_words="english")
vectorizer = TfidfVectorizer(keep_words=["cat", "dog"])
Да. скажем, у вас есть массив слов
words = ['you','me','we'] TfidfVectorizer(vocabulary=words)
Вы можете использовать словарный аргумент для передачи только выбранных слов.