Запись DataFrame из Azure блокнота данных в Azure DataLake Gen2 Tables - PullRequest
1 голос
/ 16 января 2020

Я создал DataFrame, который я хотел бы написать / экспортировать рядом с моим Azure DataLake Gen2 в таблицах (для этого нужно создать новую таблицу).

В будущем мне также понадобится чтобы обновить эту таблицу Azure DL Gen2 с новыми фреймами данных.

В Azure Блок данных Я создал соединение Azure Блок данных -> Azure DataLake, чтобы увидеть мои мои файлы:

enter image description here

Спасибо за помощь, как написать его в spark / pyspark.

Спасибо!

Ответы [ 2 ]

2 голосов
/ 30 января 2020

Шаги для записи кадра данных из Azure Блокнот данных в Azure Озеро данных Gen2:

Шаг 1: Доступ напрямую с помощью ключа доступа к учетной записи хранения

enter image description here

Step2: Использование DBUTILS для перечисления файлов в учетной записи хранения

enter image description here

Шаг 3: Используйте предварительно установленную точку монтирования DBFS для чтения данных и создания фрейма данных.

enter image description here

Шаг 4: Запись данных в Azure Data Lake Gen2 account

Считайте файл csv авиакомпании и запишите выходные данные в формате паркета для простого запроса

enter image description here

Подробнее см. " Учебное пособие: Azure Хранилище озера данных Gen2, Azure Databricks & Spark ".

Надеюсь это поможет. Дайте нам знать, если у вас есть какие-либо дополнительные вопросы.

1 голос
/ 14 февраля 2020

Я бы предложил вместо записи данных в формате паркета, go для формата Delta, который внутренне использует формат Parquet, но предоставляет другие функции, такие как транзакция ACID. Синтаксис будет

df.write.format("delta").save(path) 
...