Question

Мне не удалось найти хороший ответ на этот вопрос.

Насколько я понимаю, в общем, Spark является главным по столбцу в памяти, поэтому сканирование каждого столбца будет быстрее, чем сканирование по всему каждый ряд. Но действительно ли это так, что разные поля одной и той же строки будут размещены на разных машинах, так что для доступа к нескольким строкам потребуется случайное перемешивание?

Я надеюсь, что на каждой машине это будет столбец- основные, но разделенные на ряды между машинами. Однако я не нашел реального ответа на этот вопрос, и очень важно учитывать инстинкт производительности моего кода.

Anush · Answer 1 · 13 апреля 2020

После проекта Tungsten Spark сохраняет строку как внутреннюю структуру данных вне кучи. Одним примером такой строки является следующее:

Набор таких строк может находиться в одном разделе и находиться на одном узле одновременно ,

Подробнее об управлении памятью в Spark см. Ссылку .

Spark Dataframes: будет ли одна строка целиком на одном кластере?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark Dataframes: будет ли одна строка целиком на одном кластере?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов