более эффективно кэшировать фрейм данных в разделе или нескольких разделах - PullRequest
0 голосов
/ 17 января 2019

Я сохраняю dataFrame, и в интерфейсе spark я вижу, что этот dataframe разделен на мои 7 узлов.

В моей искровой работе есть преобразования с широкими зависимостями. Может ли быть более производительным заставить кеш только в 1 разделе? Чтобы избежать перемешивания?

Спасибо

1 Ответ

0 голосов
/ 17 января 2019

Существует баланс между количеством разделов и, следовательно, параллелизмом. Смею сказать, что вы немного вне балки здесь. Значение:

  • Слишком много разделов не имеет смысла -> слишком много накладных расходов.

  • Только один раздел будет означать объединение или повторное разделение, и будет отсутствовать параллельная обработка того, что предлагает Spark, чтобы выполнить работу быстрее, например. многие работники параллельно загружают полки супермаркетов быстрее, чем вы, и я делаю это самостоятельно.

  • Истина находится где-то посередине с точки зрения количества разделов, которые в масштабе необходимо оценить и испытать, и редко можно избежать перетасовки, если вы не основываете разделение на том, что читаете из HDFS / Hadoop Source (например, KUDU) или S3, или из JDBC.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...