Хорошо, Чилакс Бадди, мы получили это!:)
- с использованием Spark SQL Context в блокнотах
ipynb
и scala
:
sql("SET spark.databricks.delta.preview.enabled=true")
sql("SET spark.databricks.delta.merge.joinBasedMerge.enabled = true")
In
SQL dbc notebooks
:
SET spark.databricks.delta.preview.enabled=true
SET spark.databricks.delta.merge.joinBasedMerge.enabled
Когда вы хотите
default the cluster to support Delta
, при вращении кластера в пользовательском интерфейсе в
parameters for Environment variables
в *1027*
только эта строка: spark.databricks.delta.preview.enabled=true
Или последняя и последняя забавная часть.Когда вы вращаете свой кластер
Select 5.0 or above
, мы должны включить Delta по умолчанию для этих парней.
И, наконец, добро пожаловать в Databricks Delta:)
Кроме того, просто чтобы помочь вам сваш код там должен выглядеть следующим образом
%sql create table t as select * from test_db.src_data
USING DELTA
PARTITIONED BY (YourPartitionColumnHere)
LOCATION "/mnt/data/path/to/the/location/where/you/want/these/parquetFiles/to/be/present"
Хорошо, я уверен, что ваш путь будет иметь /mnt/data
, так как вы AZURE databricks
парень.Убедитесь, что вы правильно поняли свою схему, потому что даже если вы отбросите таблицу, данные все равно будут находиться по пути, определенному в вашем DDL.Так что, если вы запустите его заново, это выведет схему из прошлого.В этом случае вы, возможно, захотите удалить свои файлы или иметь на них визуальный файл, используя %fs ls /mnt/data/blah/blah/blah
, и удалить их, если вы знаете, что делаете, используя %fs rm -r /mnt/data/that/blah/path/here
.Поверьте мне, вам это понадобится позже.
Если вы enabling Delta
на кластерах 4.0 there is a 10K limit
для UPSERTS using MERGE INTOs
, если вы хотите over come that USE the 5.0 Beta or official 5.0
, зависит от вашей доступности.
Последний факт, пожалуйста, избавьтесь от всех полуколонок в вашем DDL, нам здесь это не нужно.Это будет мешать вам, когда вы развернетесь не сейчас.
И вы очень приятный друг. !!!!