Для извлечения скрытых тем из вашего (предположительно большого) набора данных отзывов клиентов вы использовали бы метод моделирования тем.LDA (скрытое распределение Дирихле) - это часто используемый алгоритм для определения тем в основном тексте.
Может помочь помнить о следующих двух принципах
- Каждый документ (обзор клиента)представляет собой смесь тем
- Каждая тема представляет собой смесь слов
Пример кода (с использованием Gensim, очень широко используемой библиотеки Python для моделирования тем)
import gensim
from pprint import pprint
# .. Data preparation code ..
model = gensim.models.ldamodel.LdaModel(corpus, id2word=dictionary, num_topics=10)
pprint(model.print_topics())
В print_topics()
выше напечатаны ключевые слова для каждой темы (в зависимости от их важности).Существуют альтернативные способы сделать это, опубликованные несколькими пользователями SO здесь .
Возможно, вы захотите обратиться к этому подробному учебнику для полного примера кода.
Возможно, вы захотите обратиться к этому вопросу о моделировании темы в обзорах отелей.
Надеюсь, это вам поможет.