Apache Spark UI отображает неверный размер вводимого файла - PullRequest
0 голосов
/ 21 октября 2018

Моя Java-программа Spark принимает файл размером 3,7 ГБ.Когда я запускаю программу spark и захожу в интерфейс Spark на порте localhost: 4040 Размер ввода, показанный для этапа загрузки, составляет 7,3 ГБ ???Это действительно сбивает с толку.Почему размер ввода в консоли Spark UI отображается почти вдвое больше, чем фактический размер загружаемого файла?

enter image description here

1 Ответ

0 голосов
/ 24 октября 2018

Размер ввода:

  • Оценивается.
  • Это не размер входного файла, который вы загружаете, а размер входного файла загруженного объекта, который в общем случае требуетбольше памяти для хранения, чем для сериализованных объектов (указатели на реальные объекты, накладные расходы на структуры данных, используемые для загрузки данных).
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...