Можно ли использовать Delta Lake и не зависеть от времени выполнения Databricks? (Я имею в виду, возможно ли использовать дельта-озеро с hdfs и spark только на прем?) Если нет, то не могли бы вы пояснить, почему это так с технической точки зрения?
Согласно документации: https://docs.delta.io/latest/quick-start.html#set -up- apache -искра-с-дельта-озером , озеро дельта было открыто для использования с Apache Spark. Интеграция может быть легко выполнена путем добавления к коду delta lake jar или добавления библиотеки в путь установки spark. Интеграция улья может быть выполнена с помощью: https://github.com/delta-io/connectors.
Согласно этому https://vimeo.com/338100834 можно использовать Delta Lake без Databricks Runtime. Delta Lake - это просто библиотека, которая «знает», как записывать и считывать транзакции в таблицу (набор файлов паркетных файлов), поддерживая специальный журнал транзакций помимо каждой таблицы. Конечно, для работы с такими столами необходим специальный разъем для внешних приложений (например, куст). В противном случае невозможно обеспечить соблюдение гарантий транзакций и согласованности.