Прочитайте и обработайте файл * .tar.gz с помощью PySpark

Предположим, у меня есть tar.gz архив с 7 CSV-файлами в нем.Как манипулировать таким архивом tar.gz, чтобы получить каждый CSV-файл в отдельном RDD или DataFrame.

Я попробовал упомянутую здесь возможность , но я получаю все 7 CSV-файлов водин СДР, который так же, как и простой sc.textFile().

Я использую Spark 2. *

Прочитайте и обработайте файл * .tar.gz с помощью PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Прочитайте и обработайте файл * .tar.gz с помощью PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы