Мне интересно попробовать Google Cloud Dataproc для задачи разбора HTML.В настоящее время у нас есть много (200M +) небольших файлов HTML в хранилище Google.Мы хотели бы иметь возможность вытягивать все эти файлы в Hadoop (либо MapReduce, либо Spark) для обработки.
Однако я понимаю, что Dataproc будет работать плохо при перечислении и чтении большого количества небольших файлов, и что этов целом верно и для Hadoop.Поэтому мой вопрос заключается в том, как мне связать множество маленьких файлов в большие файлы, которые можно перечислить и эффективно читать?
Я рассмотрел стандартные вещи, такие как TAR / ZIP, но я понимаю, что это не такsplittable и, следовательно, параллелизм ограничен.
Есть ли другой формат, который рекомендуется для чего-то подобного?Я подумал об использовании avro и просто сохранении HTML-кода в виде байтового поля внутри записи avro, но я не думаю, что avro действительно предназначен для такого варианта использования.