Question

Я сохраняю dataFrame, и в интерфейсе spark я вижу, что этот dataframe разделен на мои 7 узлов.

В моей искровой работе есть преобразования с широкими зависимостями. Может ли быть более производительным заставить кеш только в 1 разделе? Чтобы избежать перемешивания?

Спасибо

thebluephantom · Answer 1 · 17 января 2019

Существует баланс между количеством разделов и, следовательно, параллелизмом. Смею сказать, что вы немного вне балки здесь. Значение:

Слишком много разделов не имеет смысла -> слишком много накладных расходов.
Только один раздел будет означать объединение или повторное разделение, и будет отсутствовать параллельная обработка того, что предлагает Spark, чтобы выполнить работу быстрее, например. многие работники параллельно загружают полки супермаркетов быстрее, чем вы, и я делаю это самостоятельно.
Истина находится где-то посередине с точки зрения количества разделов, которые в масштабе необходимо оценить и испытать, и редко можно избежать перетасовки, если вы не основываете разделение на том, что читаете из HDFS / Hadoop Source (например, KUDU) или S3, или из JDBC.

более эффективно кэшировать фрейм данных в разделе или нескольких разделах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

более эффективно кэшировать фрейм данных в разделе или нескольких разделах

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов