Как классифицировать некоторый текст в Mahout после построения наивной модели Байеса? - PullRequest
0 голосов
/ 24 апреля 2019

Я следовал поваренной книге Hadoop MapReduce , чтобы создать наивную байесовскую классификационную модель Махоута для набора 20news-data .Важные и важные команды, которые я выполнил (после внесения некоторых изменений, поскольку сейчас я использую Mahout 0.13, книга немного устарела), чтобы получить окончательный результат теста, были (по порядку):

1. hadoop fs -put 20_newsgroups / * 20news-all

2. mahout seqdirectory -i 20news-all -o 20news-seq

3. mahout seq2sparse -i 20news-seq -o 20news-vector

4. mahout split -i 20news-vector / tfidf-vectors -tr 20news-train-vector -te 20news-тест-векторов -rp 40 -ow -seq -xm последовательно

5. mahout trainnb -i 20news-поезд-векторов -o модель -li labelindex

6. mahout testnb -i 20news-train-vectors -m модель -l labelindex -o 20news-testing

После этого я получил результат:

Mahout Test Output(testnb) result

Все хорошо.

Мой вопрос заключается в том, могу ли я классифицировать некоторую текстовую строку, скажем, "Ситуация на Ближнем Востоке продолжает оставаться нестабильной, что-то ... xyz ....." или какой-то файлкоторая содержит приведенную выше строку с использованием команды mahout и основана на модели, которую я создал на шаге 5.?

ПРИМЕЧАНИЕ : я хочу, чтобы вывод был темой, которой он являетсяклассифицируется как sci.electronics.

...