Как создать меньшее подмножество большого файла, используя спарк - PullRequest
0 голосов
/ 29 ноября 2018

У меня есть куча больших связанных файлов.Я хочу создать меньшие файлы с подмножеством данных из больших файлов.Как я могу добиться этого с помощью Apache Spark?

Я могу загрузить эти файлы, применить преобразования и создать подмножество записей в наборе данных.Я могу сделать df.show(), чтобы просмотреть их в системном драйвере.Но я не смог найти способ записать их в файл.

Все, что мне нужно, это вывод df.show в файл.Spark уже агрегирует результаты в драйверную программу для отображения этих данных.Почему нет способа записать их в файл!

Я вижу похожие вопросы.Но не вижу определенного ответа.coalesce(1) не будет работать для меня, так как он слишком велик для сохранения в памяти одного раздела.

Если запись файла невозможна, какой другой вариант мне нужен, чтобы получить этот набор данных в таком месте, как база данных?или что-то типа того?Я пробовал S3, но это занимает очень много времени и генерирует огромное количество файлов.

1 Ответ

0 голосов
/ 29 ноября 2018

Просто limit данные:

df: DataFrame

df.limit(10).write.format(...).save(...)
...