Я передаю данные из дельта-таблицы (источник) в дельта-таблицу (цель) в Databricks
%python
df = spark.readStream \
.format("delta") \
.load(path/to/source)
query = (df
.writeStream
.format("delta")
.option("mergeSchema", "true")
.outputMode("append")
.trigger(once=True) # Every 30 min
.option("checkpointLocation","{0}/{1}/".format(checkpointsPath,key))
.table(tableName)
)
Но кажется, что в какой-то момент задание начинает обрабатываться "меньше" данные, которые он должен обрабатывать:
Знаете ли вы, есть ли максимальный размер для обработки потоковых данных или что-то подобное?
Я пытаюсь отладить чтение журналов, но не могу найти никаких проблем