Я пытаюсь прочитать файлы паркетных разделов S3 (fake - localstack), используя Pyspark (2.4) с hadoop-aws-2.7.3.jar, aws-java-sdk-1.7.4.jar.Файлы являются разделами по event_year = YYYY / event_month = MM / event_day = DD, поэтому я использую опцию basePath.
paths= ['s3://ubaevents/events/org_pk=2/event_year=2018/event_month=11/','s3://ubaevents/events/org_pk=2/event_year=2018/event_month=12/']
base_path = 's3://ubaevents/events/'
df = spark.read.option(basePath=base_path).parquet(*paths)
df = spark.read.options (basePath = base_path) .parquet (* paths) Traceback (последний вызов был последним): файл "", строка 1в файле "/Users/amgonen/PycharmProjects/cyber-intel/venv/lib/python2.7/site-packages/pyspark/sql/readwriter.py", строка 316, в паркете возвращается self._df (self._jreader.parquet (_to_seq (self._spark._sc, paths))) Файл "/Users/amgonen/PycharmProjects/cyber-intel/venv/lib/python2.7/site-packages/pyspark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py ", строка 1257, в вызов Файл" /Users/amgonen/PycharmProjects/cyber-intel/venv/lib/python2.7/site-packages/pyspark/sql / utils.py ", строка 79, в deco повышает IllegalArgumentException (s.split (':', 1) [1], stackTrace) pyspark.sql.utils.IllegalArgumentException: u" Опция 'basePath' должна быть каталогом "