Я видел похожие вопросы, но они работают только с PySpark.
Я прошел этот пример LDA на документах Spark, но я не нашел способа, какиспользуйте эту модель для обнаружения тем (из основанных тем) в новом тексте или документе.
Например: если я использую подмножество данных Reuters, что означает, что у меня есть следующие темы:
comp.graphics rec.motorcycles sci.crypt sci.space talk.religion.misc
comp.sys.ibm.pc.hardware rec.sport.baseball sci.electronics talk.politics.guns
rec.autos rec.sport.hockey sci.med talk.politics.misc
Тогда у меня есть модель, которая знает 13 тем, и если я передам совершенно новый документ модели о диабете, я должен вернуться к наиболее подходящим темам, например: sci.med
Возможно ли этодостичь этого? Если да, то как мне это сделать?