Махоут - Наивный Байес - PullRequest
2 голосов
/ 14 ноября 2011

Я попытался развернуть 20- пример группы новостей с mahout, похоже, работает нормально. Из любопытства хотелось бы углубиться в статистику модели,

например: каталог bayes-model содержит следующие подкаталоги,

trainer-tfIdf trainer-thetaNormalizer тренажер-гири

, который содержит файлы части-0000. Я хотел бы прочитать содержимое файла для лучшего понимания, команда cat, кажется, не работает, она печатает мусор.

Любая помощь приветствуется.

Спасибо

Ответы [ 3 ]

5 голосов
/ 14 ноября 2011

Файлы 'part-00000' создаются Hadoop и имеют формат SequenceFile Hadoop, содержащий значения, относящиеся к Mahout.Вы не можете открыть их как текстовые файлы, нет.Вы можете найти служебный класс SequenceFileDumper в Mahout, который попытается вывести содержимое в виде текста на стандартный вывод.

Что касается того, с чего эти значения должны начинаться, это промежуточные результаты многоступенчатого Hadoopвычисления на основе Mahout.Вы можете прочитать код, чтобы лучше понять, что это такое.Каталог tfidf, например, содержит промежуточные вычисления, относящиеся к частоте терминов.

3 голосов
/ 08 февраля 2012

Вы можете читать файлы part-0000 с помощью опции -text файловой системы hadoop. Просто зайдите в каталог hadoop и наберите следующее

`bin/hadoop dfs -text /Path-to-part-file/part-m-00000`

part-m-00000 будет напечатано в STDOUT.

Если это выдает ошибку, вам может потребоваться добавить переменную HADOOP_CLASSPATH в ваш путь. Например, если после запуска вы получите

текст: java.io.IOException: WritableName не может загрузить класс: org.apache.mahout.math.VectorWritable

затем добавьте соответствующий класс в переменную HADOOP_CLASSPATH

export HADOOP_CLASSPATH=/src/mahout/trunk/math/target/mahout-math-0.6-SNAPSHOT.jar

Это сработало для меня;)

0 голосов
/ 24 марта 2012

Чтобы прочитать part-00000 (файлы последовательности), вам нужно использовать утилиту "seqdumper". Вот пример, который я использовал для своих экспериментов:

MAHOUT_HOME $: bin / mahout seqdumper -s ~ / Группирование / эксперименты-v1 / t14 / tfidf-векторы / частичный г-00000 -o ~ / vectors-v2-1010

-s - файл последовательности, который вы хотите преобразовать в простой текст

-o - выходной файл

...