Я только начал изучать Spark, и есть немало вещей, которые меня встревожили. Один из самых простых заключается в том, что, похоже, есть свойства потоковой передачи Spark, которые они не публикуют c в своей документации Spark Streaming Configurations .
Я наткнулся на одно такое свойство, изучая исключение тайм-аута, которое фактически отключило мой диспетчер блоков и оставило мой приемник включенным (что является безумным поведением, которое я еще не понял). Другой пользователь описал то же исключение здесь . Я нашел этот веб-сайт , на котором были рассмотрены некоторые из упомянутых там конфигураций, которые отсутствуют в документации Spark.
Вот (суперсекретные) свойства, которые в принятом ответе предлагалось проверить:
spark.streaming.driver.writeAheadLog.allowBatching true
spark.streaming.driver.writeAheadLog.batchingTimeout 15000
Почему эти другие свойства не задокументированы? Я слышал, что это обычное дело в Spark. Это правда?