Spark Dataframes: будет ли одна строка целиком на одном кластере? - PullRequest
0 голосов
/ 13 апреля 2020

Мне не удалось найти хороший ответ на этот вопрос.

Насколько я понимаю, в общем, Spark является главным по столбцу в памяти, поэтому сканирование каждого столбца будет быстрее, чем сканирование по всему каждый ряд. Но действительно ли это так, что разные поля одной и той же строки будут размещены на разных машинах, так что для доступа к нескольким строкам потребуется случайное перемешивание?

Я надеюсь, что на каждой машине это будет столбец- основные, но разделенные на ряды между машинами. Однако я не нашел реального ответа на этот вопрос, и очень важно учитывать инстинкт производительности моего кода.

1 Ответ

0 голосов
/ 13 апреля 2020

После проекта Tungsten Spark сохраняет строку как внутреннюю структуру данных вне кучи. Одним примером такой строки является следующее:

enter image description here

Набор таких строк может находиться в одном разделе и находиться на одном узле одновременно ,

Подробнее об управлении памятью в Spark см. Ссылку .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...