Мне не удалось найти хороший ответ на этот вопрос.
Насколько я понимаю, в общем, Spark является главным по столбцу в памяти, поэтому сканирование каждого столбца будет быстрее, чем сканирование по всему каждый ряд. Но действительно ли это так, что разные поля одной и той же строки будут размещены на разных машинах, так что для доступа к нескольким строкам потребуется случайное перемешивание?
Я надеюсь, что на каждой машине это будет столбец- основные, но разделенные на ряды между машинами. Однако я не нашел реального ответа на этот вопрос, и очень важно учитывать инстинкт производительности моего кода.