Delta Lake без Databricks Runtime - PullRequest
       101

Delta Lake без Databricks Runtime

1 голос
/ 23 марта 2020

Можно ли использовать Delta Lake и не зависеть от времени выполнения Databricks? (Я имею в виду, возможно ли использовать дельта-озеро с hdfs и spark только на прем?) Если нет, то не могли бы вы пояснить, почему это так с технической точки зрения?

Ответы [ 2 ]

1 голос
/ 03 апреля 2020

Согласно документации: https://docs.delta.io/latest/quick-start.html#set -up- apache -искра-с-дельта-озером , озеро дельта было открыто для использования с Apache Spark. Интеграция может быть легко выполнена путем добавления к коду delta lake jar или добавления библиотеки в путь установки spark. Интеграция улья может быть выполнена с помощью: https://github.com/delta-io/connectors.

1 голос
/ 26 марта 2020

Согласно этому https://vimeo.com/338100834 можно использовать Delta Lake без Databricks Runtime. Delta Lake - это просто библиотека, которая «знает», как записывать и считывать транзакции в таблицу (набор файлов паркетных файлов), поддерживая специальный журнал транзакций помимо каждой таблицы. Конечно, для работы с такими столами необходим специальный разъем для внешних приложений (например, куст). В противном случае невозможно обеспечить соблюдение гарантий транзакций и согласованности.

...