Чтобы ответить на ваши вопросы напрямую,
1) Да, Луиджи отлично играет с PySpark, как и любая другая библиотека.Мы, безусловно, запускаем его без проблем - единственное предостережение в том, что вам нужно быть немного осторожнее с import
s и иметь их в функциях класса Luigi, поскольку в фоновом режиме он раскручивает новые экземпляры Python.
2) Есть способы заставить Луиджи хлебать в потоках данных, но это сложно сделать.Реально, вы бы вернулись к выполнению ежечасного цикла cron, чтобы просто вызвать конвейер и обработать новые данные.Этот вид отражает сценарий использования Spotify для Luigi, где они ежедневно выполняют задания для расчета топ-артиста и т. Д.
Как @RonD предлагает, если бы я сейчас строил новый конвейер, я бы пропустил Luigi и сразу пошел бы кРасход воздуха.Если ничего другого, посмотрите историю выпусков.Луиджи действительно долго не работал (потому что он работает для главного разработчика).Принимая во внимание, что AirFlow активно инкубируется Apache.