У меня есть корзина с несколькими файлами паркета и миллиарды записей в корзине S3.
Я хочу иметь возможность читать всю папку, фильтровать построчно (например, если строка содержит указанный c элемент - отфильтровать) и сохранить его в другом месте S3. Поскольку все записи имеют несколько гигабайт - я хочу читать и сохранять их построчно в другое ведро S3, если это возможно.
У меня есть только среда Pyspark (Glue), чтобы сделать это, поэтому я не могу сделать это ни на моем ноутбуке, ни на EC2 (по соображениям безопасности).
В Linux - я легко могу добиться этого с помощью:
cat file.csv | grep -v "exclude value" > file2.csv
Как добиться этого в S3?