Question

Есть ли разница между наличием, например, n файлов по 1 строке во входной папке и наличием 1 файла с n строками во входной папке при запуске hadoop?

Если существует n файлов, «InputFormat» просто видит все это как 1 непрерывный файл?

SquareCog · Answer 1 · 07 августа 2009

Есть большая разница. Это часто называют «проблемой небольших файлов» и связано с тем, что Hadoop рассчитывает разделить гигантские входные данные на более мелкие задачи, а не собирать небольшие входные данные в более крупные задачи.

Посмотрите на этот пост в блоге от Cloudera: http://www.cloudera.com/blog/2009/02/02/the-small-files-problem/

Если вы можете избежать создания большого количества файлов, сделайте это. Объединить, когда это возможно. Большие разделяемые файлы НАМНОГО лучше для Hadoop.

Однажды я запустил Pig в наборе данных netflix. Потребовались часы, чтобы обработать всего несколько концертов. Затем я объединил входные файлы (я думаю, что это был файл на фильм или файл на пользователя) в один файл - мой результат был за считанные минуты.

Входные файлы Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Входные файлы Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов