«SparkException: задание прервано», когда Коала пишет в хранилище BLOB-объектов Azure. - PullRequest
0 голосов
/ 23 октября 2019

Я использую Koalas (pandas API на Apache Spark) для записи кадра данных в смонтированное хранилище BLOB-объектов Azure. При вызове API df.to_csv Spark генерирует исключение и прерывает работу.

Кажется, что только несколько этапов завершаются с ошибкой:

This request is not authorized to perform this operation using this
permission.

Я обрабатываюданных с помощью Databricks на Azure, используя PySpark. Продукты данных находятся в смонтированном хранилище BLOB-объектов Azure. Был создан принцип обслуживания для блоков данных, и он задан как «вкладчик» для учетной записи хранения Azure.

При просмотре учетной записи хранения я заметил, что некоторые из первых больших двоичных объектов уже были подготовлены в каталоге. Более того, я могу поместить выходные данные в хранилище BLOB-объектов, используя подход «чистый Python» с пандами. Поэтому я сомневаюсь, что это связано с проблемами авторизации для Databricks.

Это минимальный пример кодирования того, что я использовал для создания ошибки.

<Test to see if the blob storage is mounted>
# Import koalas
import databricks.koalas as ks
# Load the flatfile
df = ks.read_csv('/dbfs/spam/eggs.csv')
# Apply transformations
# Write out the dataframe
df.to_csv('/dbfs/bacon/eggs.csv')

Поскольку существует много аспектовК этой проблеме я не знаю, с чего начать:

  • Проблема авторизации между хранилищем BLOB-объектов и блоками данных

  • Неправильная настройка кластера Databricks

  • Применение неправильного метода API

  • Проблема с содержимым файла

Любые указания о том, кудавид

...