Не удается прочитать сгенерированные файлы последовательности Mahout с потоковой передачей - PullRequest
1 голос
/ 01 декабря 2011

Я пытаюсь передать файл последовательности, сгенерированный одним из примеров Mahout, чтобы увидеть его содержимое:

    hadoop jar hadoop-streaming-0.20.2-cdh3u0.jar \
    -input /tmp/mahout-work-me/20news-bydate/bayes-test-input-output/ \
    -output /tmp/me/mm \
    -mapper "cat" \
    -reducer "wc -l" \
    -inputformat SequenceFileAsTextInputFormat

Задание успешно запускается и в конечном итоге умирает с:

11/11/30 21:08:39 INFO streaming.StreamJob:  map 0%  reduce 0%
11/11/30 21:09:17 INFO streaming.StreamJob:  map 100%  reduce 100%
java.lang.RuntimeException: java.io.IOException: WritableName can't load class: org.apache.mahout.common.StringTuple

Интересно, что-то не так с моим файлом потоковой jar, если мне нужно явно указать на jar Mahout, который имеет этот класс (попытался установить HADOOP_CLASSPATH в местоположение mahout-core-0.5-cdh3u2.jar, но не сработал), илиможет быть, даже что-то еще?

Любая помощь приветствуется.Спасибо.

1 Ответ

2 голосов
/ 01 декабря 2011

Добавить эту опцию:

-libjars mahout-core-0.5-cdh3u2.jar
...