hadoop, отобразить / уменьшить выходной файл (part-00000) и распределенный кеш - PullRequest
1 голос
/ 08 июля 2010

значение output из моей карты / уменьшить - это байтовый массив, который записывается в выходной файл part-00000 (по умолчанию это делает hadoop). мне нужен этот массив для моей следующей функции карты, поэтому я хотел сохранить этот массив в распределенном кэше. Может ли кто-нибудь сказать, как я могу прочитать из выходного файла (part-00000), который не может быть текстовым файлом и хранить в распределенном кэше.

1 Ответ

1 голос
/ 08 июля 2010

Мое предложение:

Создайте новое задание Hadoop со следующими свойствами:

  • Введите каталог со всеми файлами деталей -...
  • Создайте собственный класс OutputFormat, который записывает в ваш распределенный кеш.
  • Теперь сделайте так, чтобы ваша работа выглядела по существу так:

    conf.setInputFormat(SequenceFileInputFormat.class);
    conf.setMapperClass(IdentityMapper.class);
    conf.setReducerClass(IdentityReducer.class);
    conf.setOutputFormat(DistributedCacheOutputFormat.class);
    

Взгляните на учебник по Yahoo Hadoop, поскольку в нем есть несколько примеров по этому вопросу: http://developer.yahoo.com/hadoop/tutorial/module5.html#outputformat

НТН

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...