Apache Hadoop - исключая файлы при повреждении - PullRequest
0 голосов
/ 20 октября 2011

Я обрабатываю несколько файлов журнала сервера (около 40) и собираю кучу метрик с помощью Apache Hadoop.Если один или несколько из этих файлов несовместимы или повреждены, я хотел бы исключить все метрики, собранные из этих файлов, но сохранить метрики из других файлов.

Как вы думаете, какой самый разумный способ сделать это

1 Ответ

0 голосов
/ 20 октября 2011

При загрузке файла добавьте в каждую строку идентификатор, указывающий файл, из которого получена строка (возможно, хэш имени файла). Если вам необходимо сохранить поврежденные или противоречивые данные (и просто избегать их обработки), вы можете исключить строки на основе этого идентификатора. В противном случае вы можете выполнить «чистящую» карту второго прохода / уменьшить, чтобы просто устранить их.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...