Я пытаюсь реализовать базу данных delta lake (как я слышал некоторые интересные вещи об этом ...) и создал таблицу, используя ссылку ниже. Сейчас я пытаюсь подключить эту таблицу из Power BI и до сих пор был успешным. Я сталкиваюсь с проблемой производительности при чтении из блоков данных или чтении из PBI.
Дополнительная информация о наборе данных: Я добавляю данные в эту дельта-таблицу ежедневно, она содержит более 19 миллионов записей для данных за последние 2 года и ежедневно загружает ~ 300 тыс. Записей.
Ссылочная ссылка
https://docs.databricks.com/delta/intro-notebooks.html#delta -lake-quickstart- python -notebook
Как вы видите ниже, я я сохраняю это обратно в хранилище больших двоичных объектов вместо dbfs или azure хранилища озера данных v2.
Я также пытался оптимизировать таблицу "событий", но не повезло. Пожалуйста, предложите, есть ли лучший способ добиться этого?
пример кода
df.write.format("delta") \
.partitionBy("dfdatetime")\
.mode("append")\
.option("mergeSchema", "true")\
.save("wasbs://container_name@storageaccountname.blob.core.windows.net/dffolder/")
spark.sql("CREATE TABLE events USING DELTA LOCATION 'wasbs://container_name@storageaccountname.blob.core.windows.net/dffolder/'")