Запуск примера сортировки в Hadoop (кластер с одним узлом) - PullRequest
0 голосов
/ 31 марта 2011

Я установил Hadoop single-node cluster 0.20.2 на Ubuntu 10.04 и запустил пример, используя материал учебника, который я нашел на этом сайте:

http://www.dscripts.net/wiki/setup-hadoop-ubuntu-single-node

Теперь яя пытаюсь запустить Sort example на Hadoop.В качестве входных данных нужны последовательные файлы.Может ли кто-нибудь, пожалуйста, help меня running the Sort example?(или давая мне больше информации о том, как генерировать последовательные файлы в качестве входных данных).

Заранее спасибо ..; -)

Ответы [ 2 ]

1 голос
/ 29 апреля 2011

Запуск теста сортировки

Чтобы использовать пример сортировки в качестве эталона, создайте 10 ГБ / узел случайных данных, используя RandomWriter.Затем отсортируйте данные, используя пример сортировки.Это обеспечивает критерий сортировки, который масштабируется в зависимости от размера кластера.По умолчанию в примере сортировки используется число 1,0 * для количества сокращений, и в зависимости от кластера вы можете получить лучшие результаты при емкости 1,75 *.

Команды:

$> bin/hadoop jar hadoop-*-examples.jar randomwriter /path/randFiles
$> bin/hadoop jar hadoop-*-examples.jar sort /path/randFiles /path/resultFile

Первая команда сгенерирует несортированные данные в каталоге rand.Вторая команда будет читать эти данные, сортировать их и записывать в каталог rand-sort.

0 голосов
/ 04 апреля 2011

Взгляните на пример RandomWriter .Это задание, которое выводит файл последовательности с использованием случайных данных.Ключом является строка job.setOutputFormat(SequenceFileOutputFormat.class), которая определяет формат вывода.

...