FileNotFoundException - отсутствует checkpoint.parquet в delta_log - PullRequest
0 голосов
/ 25 февраля 2020

У меня есть несколько заданий, которые выполняются каждый день. К сожалению, некоторые из них иногда случайным образом выдают исключение:

java.io.FileNotFoundException: _delta_log/00000000000000000070.checkpoint.parquet

Проблема заключается в том, что эта ошибка не является постоянной, иногда ее выдает работа, иногда не так, чтобы найти причину как поиск иголки в стоге сена.

У меня была похожая проблема несколько месяцев go, я нашел где-то, что обновление Databricks Runtime Version до 5.5 решит проблему. Конечно, это решено, но через несколько месяцев ошибка возвращается, и я не могу найти разумного решения о том, как ее предотвратить.

Нужно ли кому-то форсировать эту проблему и найти решение, как ее предотвратить? ?

Я буду очень благодарен за любые предложения и помощь!

1 Ответ

0 голосов
/ 27 февраля 2020

Это похоже на известную временную проблему с Databricks, и команда Databricks об этом знает.

Вот обходной путь, предложенный командой Databricks:

Отключить очистку журнала. Например,

    %sql
ALTER TABLE 
SET TBLPROPERTIES (
  'delta.enableExpiredLogCleanup' = 'false',
)

Убедитесь, что за 2 дня сгенерировано более 2 контрольных точек (другими словами, более 30 фиксаций).

Увеличьте свойство таблицы Delta "checkpointRetentionDuration" и убедитесь, что во время В этой новой продолжительности создано более 2 контрольных точек (другими словами, более 30 коммитов). Например,

%sql
ALTER TABLE 
SET TBLPROPERTIES (
  'delta.checkpointRetentionDuration' = '7 days',
)

Исправление, предоставленное командой Databricks, состоит в том, чтобы убедиться, что проблема не возникнет снова. Команда Databricks скоро исправит это.

...