Таблицы Delta Lake на Databricks с большим объемом данных - PullRequest
1 голос
/ 23 марта 2020

Я пытаюсь реализовать базу данных delta lake (как я слышал некоторые интересные вещи об этом ...) и создал таблицу, используя ссылку ниже. Сейчас я пытаюсь подключить эту таблицу из Power BI и до сих пор был успешным. Я сталкиваюсь с проблемой производительности при чтении из блоков данных или чтении из PBI.

Дополнительная информация о наборе данных: Я добавляю данные в эту дельта-таблицу ежедневно, она содержит более 19 миллионов записей для данных за последние 2 года и ежедневно загружает ~ 300 тыс. Записей.

Ссылочная ссылка

https://docs.databricks.com/delta/intro-notebooks.html#delta -lake-quickstart- python -notebook

Как вы видите ниже, я я сохраняю это обратно в хранилище больших двоичных объектов вместо dbfs или azure хранилища озера данных v2.

Я также пытался оптимизировать таблицу "событий", но не повезло. Пожалуйста, предложите, есть ли лучший способ добиться этого?

пример кода

df.write.format("delta") \
                .partitionBy("dfdatetime")\
                .mode("append")\
                .option("mergeSchema", "true")\
                .save("wasbs://container_name@storageaccountname.blob.core.windows.net/dffolder/")

spark.sql("CREATE TABLE events USING DELTA LOCATION 'wasbs://container_name@storageaccountname.blob.core.windows.net/dffolder/'")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...