Доступ к хранилищу BLOB-объектов Azure через R - PullRequest
1 голос
/ 13 марта 2020

Я пытаюсь использовать R для подключения к Azure Blob, откуда хранятся некоторые файлы CSV. Мне нужно загрузить их в фрейм данных и сделать некоторые преобразования в них, прежде чем записать их обратно в другой контейнер BLOB-объектов. Я пытаюсь сделать это с помощью Databricks, чтобы в конечном итоге я мог вызвать этот блокнот из Data Factories и включить его в конвейер.

Databricks дает мне образец блокнота в Python, где можно установить соединение с следующий код:

storage_account_name = "testname"
storage_account_access_key = "..."
file_location = "wasb://example@testname.blob.core.windows.net/testfile.csv"

spark.conf.set(
  "fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
  storage_account_access_key)

df = spark.read.format('csv').load(file_location, header = True, inferSchema = True)

Есть ли что-то похожее в R? Я могу использовать пакет SparkR или Sparklyr в R, если он может помочь мне загрузить файл и поместить его в фрейм данных Spark.

1 Ответ

1 голос
/ 13 марта 2020

К вашему сведению, меня проинформировали, что R не способен выполнить фактический монтаж. Обходной путь - смонтировать, используя другой язык, например Python, и прочитать файл, используя библиотеку «SparkR», как показано ниже.

Две наиболее часто используемые библиотеки, которые предоставляют интерфейс R для Spark, - это SparkR и sparklyr. Записные книжки и задания для блоков данных поддерживают оба пакета, хотя вы не можете использовать функции из SparkR и sparklyr с одним и тем же объектом.

Монтировать с помощью Python:

enter image description here

Запустите блокнот R с помощью библиотеки «SparkR»:

enter image description here

...