Одной из стратегий, которую вы можете использовать, является анализ обратной связи с помощью LDA для выявления общих тем. Затем вы можете использовать темы для сопоставления между двумя таблицами.
LDA анализирует то, что называется «корпусом» документов. Документ используется здесь абстрактно. Каждый пример refer_feedback
или feedback
может сформировать корпус.
Следуют два разных подхода, которые могут работать:
корпус от refer_feedback
Каждый пример refer_feedback
будет документом в вашем корпусе для этого подхода. Количество тем, которые вы ищете, равно количеству уникальных подкатегорий.
Используйте nltk , чтобы удалить стоп-слова и выполнить лемматизация . Используйте gensim , чтобы выполнить LDA для результатов, чтобы получить модель ваших тем. Используйте эту модель тем для классификации feedback
по мере поступления.
корпус от feedback
Если вам не хватает refer_feedback
примеров или вы пробуете первый подход, и он не работает, попробуйте собрать корпус из большого набора feedback
примеров. При таком подходе количество тем определить не так просто, но было бы полезно начать с чего-то, близкого к числу имеющихся у вас подкатегорий.
Снова используйте ntlk
, чтобы удалить стоп-слова и выполнить лемматизацию. Постройте модель LDA.
Далее вам нужно вручную сопоставить темы, сгенерированные моделью, с подкатегориями. Сохраните это отображение.
Когда поступит обратная связь в будущем, используйте ldamodel, чтобы найти наиболее вероятные темы, а затем сопоставьте тему с подкатегорией, чтобы назначить соответствующие поля.