Как хранить множество небольших HTML-файлов в облачном хранилище Google для оптимизации Dataproc? - PullRequest
0 голосов
/ 19 декабря 2018

Мне интересно попробовать Google Cloud Dataproc для задачи разбора HTML.В настоящее время у нас есть много (200M +) небольших файлов HTML в хранилище Google.Мы хотели бы иметь возможность вытягивать все эти файлы в Hadoop (либо MapReduce, либо Spark) для обработки.

Однако я понимаю, что Dataproc будет работать плохо при перечислении и чтении большого количества небольших файлов, и что этов целом верно и для Hadoop.Поэтому мой вопрос заключается в том, как мне связать множество маленьких файлов в большие файлы, которые можно перечислить и эффективно читать?

Я рассмотрел стандартные вещи, такие как TAR / ZIP, но я понимаю, что это не такsplittable и, следовательно, параллелизм ограничен.

Есть ли другой формат, который рекомендуется для чего-то подобного?Я подумал об использовании avro и просто сохранении HTML-кода в виде байтового поля внутри записи avro, но я не думаю, что avro действительно предназначен для такого варианта использования.

1 Ответ

0 голосов
/ 19 декабря 2018

Вы можете использовать Hadoop SequenceFile , чтобы решить эту проблему, как предлагалось здесь .

...