Выводить темы с помощью молотка, используя сохраненное состояние темы - PullRequest
0 голосов
/ 19 июля 2011

Я использовал следующую команду для создания тематической модели из некоторых документов:

bin/mallet train-topics --input topic-input.mallet --num-topics 100 --output-state topic-state.gz

Однако я не использовал опцию --output-model для создания сериализованного объекта тренера тем. Можно ли каким-то образом использовать файл состояния для вывода тем для новых документов? Обучение идет медленно, и мне понадобится несколько дней для переподготовки, если мне придется создавать сериализованную модель с нуля.

Ответы [ 3 ]

1 голос
/ 25 февраля 2013

Мы не использовали инструменты командной строки, поставляемые с молотком, мы просто использовали API молотка для создания сериализованной модели для выводов нового документа.Два момента требуют специального уведомления:

  • Вам необходимо сериализовать трубы, которые вы использовали сразу после окончания обучения (для моего случая это SerialPipes)
  • И, конечно, модель нужнатакже будет сериализован после того, как вы закончите обучение (в моем случае это ParallelTopicModel)

Пожалуйста, уточните в документации по Java:

0 голосов
/ 02 августа 2013

Если вы хотите увидеть, как новые документы вписываются в ранее обученную модель темы, то, боюсь, нет простой команды, которую вы можете использовать, чтобы сделать это правильно. Класс cc.mallet.topics.LDA в исходном коде mallet 2.0.7 предоставляет такую ​​утилиту, попытайтесь понять ее и использовать в своей программе. P.S., если память мне не изменяет, есть проблема с реализацией функции в этом классе:

public void addDocuments(InstanceList additionalDocuments, 
                         int numIterations, int showTopicsInterval,
                         int outputModelInterval, String outputModelFilename,
                         Randoms r)

Вы должны переписать его.

0 голосов
/ 30 сентября 2011

Восстановление модели из файла состояния представляется новой функцией в молотке 2.0.7 в соответствии с примечаниями к выпуску .

Возможность восстановления моделей из сжатых "государственных" файлов. Из нового TopicTrainer, используйте аргумент --input-state [имя_файла]. Обратите внимание, что вы можете вручную редактировать этот файл. Любой токен с темой, установленной на -1, будет немедленно пересчитывается при загрузке.

...