Я использую Koalas (pandas API на Apache Spark) для записи кадра данных в смонтированное хранилище BLOB-объектов Azure. При вызове API df.to_csv Spark генерирует исключение и прерывает работу.
Кажется, что только несколько этапов завершаются с ошибкой:
This request is not authorized to perform this operation using this
permission.
Я обрабатываюданных с помощью Databricks на Azure, используя PySpark. Продукты данных находятся в смонтированном хранилище BLOB-объектов Azure. Был создан принцип обслуживания для блоков данных, и он задан как «вкладчик» для учетной записи хранения Azure.
При просмотре учетной записи хранения я заметил, что некоторые из первых больших двоичных объектов уже были подготовлены в каталоге. Более того, я могу поместить выходные данные в хранилище BLOB-объектов, используя подход «чистый Python» с пандами. Поэтому я сомневаюсь, что это связано с проблемами авторизации для Databricks.
Это минимальный пример кодирования того, что я использовал для создания ошибки.
<Test to see if the blob storage is mounted>
# Import koalas
import databricks.koalas as ks
# Load the flatfile
df = ks.read_csv('/dbfs/spam/eggs.csv')
# Apply transformations
# Write out the dataframe
df.to_csv('/dbfs/bacon/eggs.csv')
Поскольку существует много аспектовК этой проблеме я не знаю, с чего начать:
Проблема авторизации между хранилищем BLOB-объектов и блоками данных
Неправильная настройка кластера Databricks
Применение неправильного метода API
Проблема с содержимым файла
Любые указания о том, кудавид