Вы должны придерживаться того, что дает EMR. Их разъем s3: // разработан компанией AWS и, вероятно, ваш самый безопасный вариант.
FWIW, s3a, поскольку в 2.8.3 для производительности ввода. не сильно изменился в более поздних версиях, за исключением 3.1, если оставить значение fs.s3a.experimental.fadvise
на normal
, он автоматически переключается с оптимизации на последовательный ввод-вывод на случайный ввод-вывод (столбчатые данные) при первом обратном поиске. Лучше всего с самого начала установить для этого свойства значение random
, если вы знаете, что все ваши данные хранятся как Parquet / ORC в доступном для сжатия формате (т. Е. Не в gzip). Никакого ускорения в записи тоже нет. Вы получаете уровень согласованности, эквивалентный «непротиворечивому EMR» в Hadoop 2.9+, и высокопроизводительный обработчик вывода в Hadoop 3.1. Но вы не можете попробовать использовать эти функции, опустив более поздние JAR-файлы. это даст вам только следы стека