Мы должны прослушивать каталог в datalake, и когда добавляется новый файл, модуль данных должен его прочитать и провести некоторый анализ.
Либо мы можем получить кластер заданий и, используя потоковую передачу структуры, непрерывно контролировать каталог. Это решение должно работать, но здесь кластер заданий будет работать вечно. Вместо этого есть способ, которым сама datalake может запускать кластер заданий databricks при добавлении нового файла в его каталог.