У меня есть следующая команда mallet (для v 2.0.8 (3,2016 мая)) в Linux 2.6.32-696.18.7.el6.x86_6 и среде выполнения Java SE (сборка 1.7.0_05-b06):
bin/mallet train-topics --input html/$1/topic --num-topics $1 \
--output-doc-topics result \
--output-topic-docs top.gz
--optimize-interval 10 \
--num-threads 20 \
--output-topic-keys keys.txt \
--optimize-interval 10
но после 1000 итераций я получаю только такой вывод:
<1000> LL/token: -8.98037
Total time: 1 hours 47 minutes 18 seconds
Exception in thread "main" java.lang.ClassCastException: java.net.URI cannot be cast to java.lang.String
at cc.mallet.topics.ParallelTopicModel.printTopicDocuments(ParallelTopicModel.java:1773)
at cc.mallet.topics.tui.TopicTrainer.main(TopicTrainer.java:281)
Любые предложения о том, как это означает или как избежать проблемы? Есть ли способ продолжить?
Даниэль Фенберг
NBER