Проблема Дельта-таблица потоковой передачи в блоках данных - PullRequest
0 голосов
/ 06 апреля 2020

Я передаю данные из дельта-таблицы (источник) в дельта-таблицу (цель) в Databricks

%python

df = spark.readStream \
          .format("delta") \
          .load(path/to/source) 



query = (df
                .writeStream
                .format("delta")
                .option("mergeSchema", "true")
                .outputMode("append")
                .trigger(once=True) # Every 30 min
                .option("checkpointLocation","{0}/{1}/".format(checkpointsPath,key))           
                .table(tableName)
          )

Но кажется, что в какой-то момент задание начинает обрабатываться "меньше" данные, которые он должен обрабатывать:

enter image description here

Знаете ли вы, есть ли максимальный размер для обработки потоковых данных или что-то подобное?

Я пытаюсь отладить чтение журналов, но не могу найти никаких проблем

...