Когда искровой сериализатор используется с API Dataframe - PullRequest
0 голосов
/ 07 июня 2018

Мне интересно, когда используется spark.serializer, если мое приложение использует DataFrame API?

Если я хорошо понимаю:

  • Не для кэширования или тасования.
  • Только для сериализации замыкания и широковещательной переменной.

Это правильно?

1 Ответ

0 голосов
/ 08 июня 2018

spark.serializer используется при работе с СДР и используется для перетасовки данных между рабочим, контрольных точек, сериализации СДР на диск и т. д.

DataFrame имеет собственное столбцовое хранилище для кэширования.Следовательно spark.serializer не оказывает никакого влияния вообще.

Spark использует spark.closure.serializer используется для сериализации переменной закрытия и широковещательной передачи, которая является JavaSerializer.

Чтобы ответить на вашОчки

  1. Да.Поскольку Dataframe использует свое собственное столбцовое хранилище для кэширования.Следовательно spark.serializer не оказывает влияния.

  2. Нет.Для закрытия и трансляции переменных сериализации используется closureSerializer в spark.closure.serializer , который является JavaSerializer .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...