Входные файлы Hadoop - PullRequest
       14

Входные файлы Hadoop

0 голосов
/ 03 августа 2009

Есть ли разница между наличием, например, n файлов по 1 строке во входной папке и наличием 1 файла с n строками во входной папке при запуске hadoop?

Если существует n файлов, «InputFormat» просто видит все это как 1 непрерывный файл?

1 Ответ

3 голосов
/ 07 августа 2009

Есть большая разница. Это часто называют «проблемой небольших файлов» и связано с тем, что Hadoop рассчитывает разделить гигантские входные данные на более мелкие задачи, а не собирать небольшие входные данные в более крупные задачи.

Посмотрите на этот пост в блоге от Cloudera: http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/

Если вы можете избежать создания большого количества файлов, сделайте это. Объединить, когда это возможно. Большие разделяемые файлы НАМНОГО лучше для Hadoop.

Однажды я запустил Pig в наборе данных netflix. Потребовались часы, чтобы обработать всего несколько концертов. Затем я объединил входные файлы (я думаю, что это был файл на фильм или файл на пользователя) в один файл - мой результат был за считанные минуты.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...