Молоток: актуальные N-граммы - PullRequest
2 голосов
/ 27 марта 2012

Я хочу запустить молоток, используя опцию --use-ngrams true, но не могу заставить его работать.Я импортировал свои данные, используя:

./bin/mallet import-dir --input path --output topic-input.mallet --keep-seqence -- removed stopwords

Теперь я хочу обучить актуальную модель ngram:

bin/mallet train-topics --input topic-input.mallet --use-ngrams true --num-topics 30 --xml-topic-report topic-report.xml

Но я получаю эту ошибку:

Exception in thread "main" java.lang.ClassCastException: cc.mallet.types.FeatureSequence cannot be cast to cc.mallet.types.FeatureSequenceWithBigrams
at cc.mallet.topics.TopicalNGrams.estimate(TopicalNGrams.java:78)
at cc.mallet.topics.tui.Vectors2Topics.main(Vectors2Topics.java:249)

Как видите, я запускаю mallet как инструмент командной строки и предпочел бы не использовать его API для работы.Есть предложения?

1 Ответ

3 голосов
/ 28 марта 2012

Нашел ответ:

вы должны импортировать каталог, для которого вы хотите запустить моделирование актуальных ngram, используя аргумент '--keep-sequence-bgirams' (например,

./bin/mallet import-dir --input path --output topic-input.mallet --keep-sequence-bigrams --remove-stopwords

И затем вы запускаете модель темы как:

bin/mallet train-topics --input topic-input.mallet --use-ngrams true --num-topics 30 --xml-topic-report topic-report.xml
...