Если вы используете Jad-файлы Hadoop 2.6, то это ошибка в этой версии s3a; если вы видите это в другом месте, то это может быть проблема конфигурации.
Ваш файл разбивается на один раздел на байт, потому что файловая система говорит "каждый раздел имеет длину в один байт". Это означает, что FileSystem.getBlockSize()
возвращает значение "0" (ср. HADOOP-11584 : s3a Размер блока файла установлен в 0 в getFileStatus ).
Для разъема s3a убедитесь, что вы используете 2.7+, а затем установите fs.s3a.block.size
на что-то вроде 33554432
(т.е. 32MB
), после чего ваш исходный файл вообще не будет разделен.
Если вы можете пойти до 2,8; мы проделали большую работу по ускорению ввода и вывода, особенно в отношении ввода-вывода в формате столбца и его шаблонов поиска.