Почему существуют скрытые свойства потоковой передачи Spark? - PullRequest
0 голосов
/ 07 мая 2020

Я только начал изучать Spark, и есть немало вещей, которые меня встревожили. Один из самых простых заключается в том, что, похоже, есть свойства потоковой передачи Spark, которые они не публикуют c в своей документации Spark Streaming Configurations .

Я наткнулся на одно такое свойство, изучая исключение тайм-аута, которое фактически отключило мой диспетчер блоков и оставило мой приемник включенным (что является безумным поведением, которое я еще не понял). Другой пользователь описал то же исключение здесь . Я нашел этот веб-сайт , на котором были рассмотрены некоторые из упомянутых там конфигураций, которые отсутствуют в документации Spark.

Вот (суперсекретные) свойства, которые в принятом ответе предлагалось проверить:

spark.streaming.driver.writeAheadLog.allowBatching true 
spark.streaming.driver.writeAheadLog.batchingTimeout 15000

Почему эти другие свойства не задокументированы? Я слышал, что это обычное дело в Spark. Это правда?

1 Ответ

1 голос
/ 08 мая 2020

Я не могу сказать вам, правда ли это, но поделитесь своим опытом, что я не встречал много недокументированных частей в Spark.

Мне очень помогла книга GitHub Внутреннее устройство Apache Spark от Яцека Ласковски.

Поскольку Spark является открытым исходным кодом, у вас всегда есть возможность:

  • внести недостающие части документации
  • сканировать исходный код (тогда как поиск чего-то, о существовании которого вы не знаете заранее, будет сложной задачей)
...