Прочитайте и обработайте файл * .tar.gz с помощью PySpark - PullRequest
0 голосов
/ 19 сентября 2018

Предположим, у меня есть tar.gz архив с 7 CSV-файлами в нем.Как манипулировать таким архивом tar.gz, чтобы получить каждый CSV-файл в отдельном RDD или DataFrame.

Я попробовал упомянутую здесь возможность , но я получаю все 7 CSV-файлов водин СДР, который так же, как и простой sc.textFile().

Я использую Spark 2. *

...