У меня несколько файлов в корзине S3, и мне нужно распаковать эти файлы и объединить все файлы в один файл (CSV) с одним заголовком.Все файлы содержат одинаковый заголовок.
Файлы данных выглядят как показано ниже.
Система хранения: корзина S3.
part-0000-XXXX.csv.gz
part_0001-YYYY.csv.gz
part-0002-ZZZZ.csv.gz
.
.
.
.
part-0010_KKKK.csv.gz.
Я хочу один файл CSV из всехфайлы, как показано выше.Пожалуйста, помогите мне, как распаковать и объединить все файлы.
После распаковки и объединения всех файлов в один CSV, я могу использовать этот файл для сравнения данных с предыдущими файлами ..
IЯ использую spark 2.3.0 и scala 2.11
Большое спасибо.