Загрузка данных из озера данных Azure в записную книжку Jupyter в DSVM - PullRequest
0 голосов
/ 17 мая 2018

Я пытаюсь загрузить данные из озера данных Azure в записную книжку Jupyter на моей виртуальной машине Data Science.Обратите внимание, что я являюсь владельцем хранилища озера данных и имею права на чтение, запись и выполнение.Виртуальная наука о данных с Jupyter работает по той же подписке и в той же группе ресурсов.Я пробую следующие два подхода, и оба сталкиваются с проблемой.Они основаны на этом блоге.


  • PySpark

Ниже приведен код, который я использую для загрузки данных с использованием PySpark:

hvacText = sc.textFile("adl://name.azuredatalakestore.net/file_to_read.csv")
hvacText.count()

Следующее исключениеброшено:

Py4JJavaError: An error occurred while calling o52.text.
: java.io.IOException: No FileSystem for scheme: adl
at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660)
at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
at org.apache.hadoop.fs.FileSystem$Cache.getInternal(FileSystem.java:2703)
at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:2685)
at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:373)
at org.apache.hadoop.fs.Path.getFileSystem(Path.java:295)
at org.apache.spark.sql.execution.datasources.DataSource$.org$apache$spark$sql$execution$datasources$DataSource$$checkAndGlobPathIfNecessary(DataSource.scala:616)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$14.apply(DataSource.scala:350)
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$14.apply(DataSource.scala:350)
at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
at scala.collection.TraversableLike$$anonfun$flatMap$1.apply(TraversableLike.scala:241)
at scala.collection.immutable.List.foreach(List.scala:381)
at scala.collection.TraversableLike$class.flatMap(TraversableLike.scala:241)
at scala.collection.immutable.List.flatMap(List.scala:344)
at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:349)
at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:178)
at org.apache.spark.sql.DataFrameReader.text(DataFrameReader.scala:623)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
at py4j.Gateway.invoke(Gateway.java:280)
at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
at py4j.commands.CallCommand.execute(CallCommand.java:79)
at py4j.GatewayConnection.run(GatewayConnection.java:214)
at java.lang.Thread.run(Thread.java:748)

  • Python SDK:

Ниже приведен код, который я использую для доступа к данным с помощью SDK:

from azure.datalake.store import core, lib, multithread    
token = lib.auth()
# output: To sign in, use a web browser to open the page https://microsoft.com/devicelogin and enter the code XXXX to authenticate.
# here I open the link and enter the code successfully
adl = core.AzureDLFileSystem(token, store_name='store_name')
adl.ls('/')

Происходит следующее исключение:

DatalakeRESTException: Data-lake REST exception: LISTSTATUS, .

Меня больше интересует исправление решения Spark, но любая помощь будет принята с благодарностью.

Ответы [ 2 ]

0 голосов
/ 26 мая 2018

Для использования разъема ADLS на DSVM необходимо сделать две вещи:

  1. Добавить два jar-файла, hadoop-azure-datalake-3.0.0-alpha3.jar и azure-data-lake-store-sdk-2.1.5.jar, в spark-defaults.conf, отредактировав / dsvm / tools /spark/current/conf/spark-defaults.conf и добавьте оба jar-файла в spark.jars. Мы не загружаем их по умолчанию, поэтому пользователи быстрее запускаются.
  2. Создайте core-site.xml: также в каталоге conf скопируйте core-site.xml.template в core-site.xml. Оставьте только часть ADLS и введите свои значения.

Вам также нужно исправить неработающие символические ссылки в текущем изображении: в / dsvm / tools / spark / current / jars есть символические ссылки для azure-data-lake-store-sdk-2.0.11.jar и hadoop-azure -datalake-3.0.0-alpha2.jar. Вы должны удалить их и добавить символические ссылки в /opt/adls-jars/hadoop-azure-datalake-3.0.0-alpha3.jar и /opt/adls-jars/azure-data-lake-store-sdk-2.1.5. баночка. Это ошибка с нашей стороны.

0 голосов
/ 19 мая 2018

Вы редактировали или создавали файл core-site.xml в $ SPARK_HOME / conf (должен быть / dsvm / tools / spark / current / conf) с добавлением свойства config, как указано в справочной статье, которую вы связали с токенами доступа ADLS а детали схемы adl? (Вставлено сюда для удобства).

<configuration>
  <property>
        <name>dfs.adls.oauth2.access.token.provider.type</name>
        <value>ClientCredential</value>
  </property>

  <property>
      <name>dfs.adls.oauth2.refresh.url</name>
      <value>YOUR TOKEN ENDPOINT</value>
  </property>
  <property>
      <name>dfs.adls.oauth2.client.id</name>
      <value>YOUR CLIENT ID</value>
  </property>
  <property>
      <name>dfs.adls.oauth2.credential</name>
      <value>YOUR CLIENT SECRET</value>
  </property>
  <property>
      <name>fs.adl.impl</name>
      <value>org.apache.hadoop.fs.adl.AdlFileSystem</value>
  </property>
  <property>
      <name>fs.AbstractFileSystem.adl.impl</name>
      <value>org.apache.hadoop.fs.adl.Adl</value>
  </property>  
</configuration>

Файлы JAR подключения ADLS уже предварительно встроены в DSVM.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...