Hadoop API для загрузки файлов с использованием pyspark - PullRequest
0 голосов
/ 04 ноября 2019

Я пытаюсь загрузить файл Hadoop (мои данные hadoop находятся в озере данных Azure). Используемый ниже скрипт, но я получаю ошибку JVM. Любая помощь? sc = spark.sparkContext URI = sc._gateway.jvm.java.net.URI hadoop = sc._gateway.jvm.org.apache.hadoop conf = hadoop.conf.Configuration() fs = hadoop.fs.FileSystem.get(URI('adl://abcaccount.azuredatalakestore.net'), conf) hadoop.fs.FileSystem.copyToLocalFile('/test/test_merge.txt','/tmp/')

Ошибка: Py4JError: org.apache.hadoop.fs.FileSystem.copyToLocalFile не существует в JVM

Примечание: я пробовал подпроцесс python, который яне хочу использовать сейчас.

1 Ответ

0 голосов
/ 06 ноября 2019

В записных книжках Azure HDInsight jupyter вы можете получить доступ к данным в учетной записи хранилища озера данных, используя следующий шаблон URL.

adl://<data_lake_store_name>.azuredatalakestore.net/<cluster_root>/HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv

ИЛИ

adl:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv

Для получения более подробной информации см. « Использование искрового кластера HDInsight с хранилищем данных Data Gen 1 ».

В локальном hadoop вы можете обратиться к « Взаимодействие с HDFS из pyspark»."и" Использование записных книжек и панд Jupyter с хранилищем озера данных Azure".

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...