Как использовать gcs-соединитель и google-cloud-storage вместе с Scala - PullRequest
2 голосов
/ 14 мая 2019

Я пытаюсь перечислить все объекты в корзине, а затем прочитать некоторые или все из них как CSV.Я потратил два дня, пытаясь сделать оба, но я могу работать только по одному, если использую библиотеки Google.

Я думаю, что проблема заключается в несовместимости между собственными библиотеками Google, ноЯ не совсем уверен.Во-первых, я думаю, что должен показать, как я делаю каждую вещь.

Вот как я читаю один файл.В моей версии Scala вы можете использовать gs:// url с spark.read.csv:

val jsonKeyFile = "my-local-keyfile.json"
ss.sparkContext.hadoopConfiguration.set("google.cloud.auth.service.account.json.keyfile", jsonKeyFile)

spark.read
  .option("header", "true")
  .option("sep", ",")
  .option("inferSchema", "false")
  .option("mode", "FAILFAST")
  .csv(gcsFile)

Это на самом деле работает в одиночку, и я получаю из него рабочий DF.Тогда возникает проблема, когда я пытаюсь добавить библиотеку Google Storage:

libraryDependencies += "com.google.cloud" % "google-cloud-storage" % "1.70.0"

Если я пытаюсь снова запустить тот же код, я получаю этого плохого парня из вызова .csv:

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
19/05/14 16:38:00 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

An exception or error caused a run to abort: Class com.google.common.base.Suppliers$SupplierOfInstance does not implement the requested interface java.util.function.Supplier 
java.lang.IncompatibleClassChangeError: Class com.google.common.base.Suppliers$SupplierOfInstance does not implement the requested interface java.util.function.Supplier
    at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase.getGcsFs(GoogleHadoopFileSystemBase.java:1488)
    at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase.configure(GoogleHadoopFileSystemBase.java:1659)
    at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase.initialize(GoogleHadoopFileSystemBase.java:683)
    at com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase.initialize(GoogleHadoopFileSystemBase.java:646)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3303)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:124)
    ...(lots more trace, probably irrelevant)

Тогда вы можете спросить, почему бы вам просто не воспользоваться библиотекой?Хорошо ... Это код, который перечисляет объекты в корзине:

StorageOptions
  .newBuilder()
  .setCredentials(ServiceAccountCredentials.fromStream(
    File(jsonKeyFile).inputStream()))
  .build()
  .getService
  .list(bucket)
  .getValues
  .asScala
  .map(irrelevant)
  .toSeq
  .toDF("irrelevant")

И я пока не нашел способа сделать это легко без указанной библиотеки.

1 Ответ

4 голосов
/ 15 мая 2019

Я выяснил, что вызвало проблему. Guava: 27.1-android был зависимостью какой-то библиотеки в какой-то момент, я не знаю, куда и как она попала, но она использовалась. В этой версии Guava интерфейс поставщика не расширяет интерфейс поставщика Java.

Я исправил это, добавив Guava 27.1-jre к своим зависимостям. Я не знаю, имеет ли значение порядок, но я не смею ничего трогать в этот момент. Вот где я его разместил:

libraryDependencies += "org.scalatest" %% "scalatest" % "3.0.5" % "test"
libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.4.1" % "provided"
libraryDependencies += "com.google.guava" % "guava" % "27.1-jre"
libraryDependencies += "com.google.cloud" % "google-cloud-storage" % "1.70.0"
//BQ samples as of 27feb2019 use hadoop2 but hadoop3 seems to work fine and are recommended elsewhere
libraryDependencies += "com.google.cloud.bigdataoss" % "bigquery-connector" % "hadoop3-0.13.16" % "provided"
libraryDependencies += "com.google.cloud.bigdataoss" % "gcs-connector" % "hadoop3-1.9.16" % "provided"

Надеюсь, что это помешает другой бедной душе потратить 2 дня на эту BS.

...