Я следовал поваренной книге Hadoop MapReduce , чтобы создать наивную байесовскую классификационную модель Махоута для набора 20news-data .Важные и важные команды, которые я выполнил (после внесения некоторых изменений, поскольку сейчас я использую Mahout 0.13, книга немного устарела), чтобы получить окончательный результат теста, были (по порядку):
1. hadoop fs -put 20_newsgroups / * 20news-all
2. mahout seqdirectory -i 20news-all -o 20news-seq
3. mahout seq2sparse -i 20news-seq -o 20news-vector
4. mahout split -i 20news-vector / tfidf-vectors -tr 20news-train-vector -te 20news-тест-векторов -rp 40 -ow -seq -xm последовательно
5. mahout trainnb -i 20news-поезд-векторов -o модель -li labelindex
6. mahout testnb -i 20news-train-vectors -m модель -l labelindex -o 20news-testing
После этого я получил результат:
![Mahout Test Output(testnb) result](https://i.stack.imgur.com/LITa2.png)
Все хорошо.
Мой вопрос заключается в том, могу ли я классифицировать некоторую текстовую строку, скажем, "Ситуация на Ближнем Востоке продолжает оставаться нестабильной, что-то ... xyz ....." или какой-то файлкоторая содержит приведенную выше строку с использованием команды mahout и основана на модели, которую я создал на шаге 5.?
ПРИМЕЧАНИЕ : я хочу, чтобы вывод был темой, которой он являетсяклассифицируется как sci.electronics.