pyspark для чтения сжатых файлов без распаковки - PullRequest
0 голосов
/ 18 апреля 2019

Я вижу похожие вопросы с Java / Scala, но как импортировать файлы, сжатые в формате zip / gzip / tar в pyspark, без фактической распаковки?

Я хотел бы услышать предложения по 1) как получить список файлов в одном сжатом файле, 2) как прочитать каждый из них в искровой фрейм данных, используя pyspark. Вывод, который я ищу, представляет собой список имен файлов: объект dataframe, где dataframe - это содержимое каждого файла.

Спасибо!

...