Получить темы из нового документа на основе обученной модели LDA - PullRequest
1 голос
/ 01 ноября 2019

Я видел похожие вопросы, но они работают только с PySpark.

Я прошел этот пример LDA на документах Spark, но я не нашел способа, какиспользуйте эту модель для обнаружения тем (из основанных тем) в новом тексте или документе.

Например: если я использую подмножество данных Reuters, что означает, что у меня есть следующие темы:

comp.graphics             rec.motorcycles     sci.crypt        sci.space           talk.religion.misc
comp.sys.ibm.pc.hardware  rec.sport.baseball  sci.electronics  talk.politics.guns
rec.autos                 rec.sport.hockey    sci.med          talk.politics.misc

Тогда у меня есть модель, которая знает 13 тем, и если я передам совершенно новый документ модели о диабете, я должен вернуться к наиболее подходящим темам, например: sci.med

Возможно ли этодостичь этого? Если да, то как мне это сделать?

...