IllegalArgumentException: u "Опция 'basePath' должна быть каталогом" - PullRequest
0 голосов
/ 04 марта 2019

Я пытаюсь прочитать файлы паркетных разделов S3 (fake - localstack), используя Pyspark (2.4) с hadoop-aws-2.7.3.jar, aws-java-sdk-1.7.4.jar.Файлы являются разделами по event_year = YYYY / event_month = MM / event_day = DD, поэтому я использую опцию basePath.

paths= ['s3://ubaevents/events/org_pk=2/event_year=2018/event_month=11/','s3://ubaevents/events/org_pk=2/event_year=2018/event_month=12/'] 
base_path = 's3://ubaevents/events/' 
df = spark.read.option(basePath=base_path).parquet(*paths)

df = spark.read.options (basePath = base_path) .parquet (* paths) Traceback (последний вызов был последним): файл "", строка 1в файле "/Users/amgonen/PycharmProjects/cyber-intel/venv/lib/python2.7/site-packages/pyspark/sql/readwriter.py", строка 316, в паркете возвращается self._df (self._jreader.parquet (_to_seq (self._spark._sc, paths))) Файл "/Users/amgonen/PycharmProjects/cyber-intel/venv/lib/python2.7/site-packages/pyspark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py ", строка 1257, в вызов Файл" /Users/amgonen/PycharmProjects/cyber-intel/venv/lib/python2.7/site-packages/pyspark/sql / utils.py ", строка 79, в deco повышает IllegalArgumentException (s.split (':', 1) [1], stackTrace) pyspark.sql.utils.IllegalArgumentException: u" Опция 'basePath' должна быть каталогом "

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...