Чтение CSV-файла из корзины через Pyspark в Анаконде - PullRequest
0 голосов
/ 28 января 2020

Я читаю файлы CSV из корзины GCS через PySpark в Анаконде. Я выполняю в командной строке Pyspark -

from pyspark import SparkContext
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession

conf = SparkConf() \
    .setMaster("local[2]") \
    .setAppName("Test") \
    .set("spark.jars", "C:\\path\to\jar\gcs-connector-hadoop-latest.jar") 

sc = SparkContext.getOrCreate(conf=conf)

spark = SparkSession.builder \
    .config(conf=sc.getConf()) \
    .getOrCreate()

spark.read.json("gs://my-bucket")

Я получаю сообщение об ошибке:

java .lang.IllegalArgumentException: java. net .URISyntaxException : Относительный путь в абсолютном URI: gs: // my-bucket_spark_metadata

Я искал по нему, но в решении все говорилось о том, как изменить путь к файлу. И поскольку это путь к хранилищу GCS, на который я ссылаюсь, я не могу его изменить! Пожалуйста, помогите.

Spark 2.0: Относительный путь в абсолютном URI (искровой склад)

...