Question

Я пытаюсь прочитать все json файлы в указанном c S3 сегменте (не только один указанный c json файл). Я использовал

df = spark.read.option("multiline", "true").json("s3://my path/")

, но в df отсутствуют некоторые файлы в корзине. это почему? я тоже это попробовал, все еще не работает

df = spark.read.option("multiline", "true").json("s3://my path/*.json.gz")

большое спасибо!

Как мне прочитать весь S3 контейнер из JSON файлов в pyspark?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.