Я запускаю следующую команду для импорта помеченных данных:
bin/mallet import-file --input training.in --output training.out --stoplist-file stop-words.txt --label-as-features --keep-sequence --line-regex '([^\t]+)\t([^\t]+)\t(.*)'
И я использую следующее для создания слов, связанных с указанными метками:
mallet/bin/mallet run cc.mallet.topics.LabeledLDA --input training.out --output-topic-keys topic-llda.keys
Я смотрел на использование классификации с
bin/mallet train-classifier --input training.in --cross-validation 10
http://mallet.cs.umass.edu/classification.php
Могу ли я использовать это?Если так, то как?Если нет, могу ли я отредактировать файл LabeledLDA.java для проведения перекрестной проверки в 10 раз?