Spark материализует свои результаты на диске после случайного воспроизведения. Выполняя эксперимент, я увидел, что задача Spark считала материализованные данные размером 65 МБ за 1 мс (даже было показано, что некоторые задачи читают это за 0 мс :)). У меня вопрос, как Spark может так быстро читать данные с жесткого диска? Это на самом деле чтение этих данных из файла или из памяти?
Ответ от @ zero323 на в этом сообщении Stackoverflow гласит To disk are written shuffle files. It doesn't mean that data after the shuffle is not kept in memory.
Но я не смог найти ни одного официального источника Spark, который говоритчто Spark хранит случайный вывод в памяти, что предпочтительнее при чтении следующей задачей.
Является ли задача Spark чтением случайного вывода с диска или из памяти (если из памяти, я был бы благодарен, если кто-то может указать наофициальный источник).