Как Apache Spark обрабатывает данные, которые не помещаются в память? - PullRequest
0 голосов
/ 22 декабря 2018

Я вернул искровую программу, чтобы найти количество записей из файла памяти 2 ГБ с объемом памяти 1 ГБ, и он успешно запустился.

Но мой вопрос здесь заключается в том, что файл объемом 2 ГБ не может поместиться в 1 ГБ памяти, но все равно как искра обрабатывает файл и возвращает счетчик.

1 Ответ

0 голосов
/ 22 декабря 2018

То, что у вас есть файл 2 Гб на диске, не означает, что он займет столько же, меньше или больше памяти в оперативной памятиДругой момент заключается в том, как ваш файл хранится на диске (формат строки или столбчатый формат).Предположим, что он хранится в формате ORC, тогда он уже будет иметь предварительно вычисленную информацию о таблицах.

Я предлагаю вам проверить свой искровый исполнитель и детали задачи о деталях памяти, чтобы понять, сколько этапов / исполнителей / задач используется.для завершения DAG.

...