У меня есть куча больших связанных файлов.Я хочу создать меньшие файлы с подмножеством данных из больших файлов.Как я могу добиться этого с помощью Apache Spark?
Я могу загрузить эти файлы, применить преобразования и создать подмножество записей в наборе данных.Я могу сделать df.show()
, чтобы просмотреть их в системном драйвере.Но я не смог найти способ записать их в файл.
Все, что мне нужно, это вывод df.show в файл.Spark уже агрегирует результаты в драйверную программу для отображения этих данных.Почему нет способа записать их в файл!
Я вижу похожие вопросы.Но не вижу определенного ответа.coalesce(1)
не будет работать для меня, так как он слишком велик для сохранения в памяти одного раздела.
Если запись файла невозможна, какой другой вариант мне нужен, чтобы получить этот набор данных в таком месте, как база данных?или что-то типа того?Я пробовал S3, но это занимает очень много времени и генерирует огромное количество файлов.