Какую версию hadoop-aws я должен использовать - PullRequest
0 голосов
/ 27 июня 2018

Я запускаю искровые задания на Yarn на EMR 5.14 (hadoop 2.8.3).

Могу ли я использовать улучшенную версию hadoop-aws (например, 2.9 или 3.1), чтобы воспользоваться недавней оптимизацией в протоколе s3a?

1 Ответ

0 голосов
/ 02 июля 2018

Вы должны придерживаться того, что дает EMR. Их разъем s3: // разработан компанией AWS и, вероятно, ваш самый безопасный вариант.

FWIW, s3a, поскольку в 2.8.3 для производительности ввода. не сильно изменился в более поздних версиях, за исключением 3.1, если оставить значение fs.s3a.experimental.fadvise на normal, он автоматически переключается с оптимизации на последовательный ввод-вывод на случайный ввод-вывод (столбчатые данные) при первом обратном поиске. Лучше всего с самого начала установить для этого свойства значение random, если вы знаете, что все ваши данные хранятся как Parquet / ORC в доступном для сжатия формате (т. Е. Не в gzip). Никакого ускорения в записи тоже нет. Вы получаете уровень согласованности, эквивалентный «непротиворечивому EMR» в Hadoop 2.9+, и высокопроизводительный обработчик вывода в Hadoop 3.1. Но вы не можете попробовать использовать эти функции, опустив более поздние JAR-файлы. это даст вам только следы стека

...