Я не думаю, что Свинья STORE
предлагает такую функцию.
Вы можете использовать функцию Spark coalesce(1)
, однако для этого нет особых оснований, поскольку почти все инструменты обработки Hadoop предпочитают читать каталоги, а не файлы.
В идеале, в любом случае, вы не должны хранить сырые файлы CSV в Hadoop очень долго, а скорее конвертировать их в ORC или Parquet в виде столбчатых данных.Особенно если вы уже читаете CSV - не выводите CSV снова.
Если идея состоит в том, чтобы создать один CSV для последующей загрузки, то я бы предложил использовать Hive + Beeline, чтобы сделать это
Это сохранит результат в файле в локальная файловая система .
beeline -u 'jdbc:hive2://[databaseaddress]' --outputformat=csv2 -f yourSQlFile.sql > theFileWhereToStoreTheData.csv