Подкаталоги под каталогом контрольных точек для структурированной потоковой передачи - PullRequest
0 голосов
/ 16 апреля 2019

Каталог контрольных точек для искровой структурированной потоковой передачи создает четыре подкаталога. Для чего они все?

/warehouse/test_topic/checkpointdir1/commits
/warehouse/test_topic/checkpointdir1/metadata
/warehouse/test_topic/checkpointdir1/offsets
/warehouse/test_topic/checkpointdir1/sources

1 Ответ

0 голосов
/ 17 апреля 2019

Из класса StreamExecution doc:

/**
   * A write-ahead-log that records the offsets that are present in each batch. In order to ensure
   * that a given batch will always consist of the same data, we write to this log *before* any
   * processing is done.  Thus, the Nth record in this log indicated data that is currently being
   * processed and the N-1th entry indicates which offsets have been durably committed to the sink.
   */
  val offsetLog = new OffsetSeqLog(sparkSession, checkpointFile("offsets"))

  /**
   * A log that records the batch ids that have completed. This is used to check if a batch was
   * fully processed, and its output was committed to the sink, hence no need to process it again.
   * This is used (for instance) during restart, to help identify which batch to run next.
   */
  val commitLog = new CommitLog(sparkSession, checkpointFile("commits"))

Журнал метаданных предназначен для информации, связанной с запросом. например, в KafkaSource он используется для записи начальных смещений запроса (смещение для каждого раздела)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...