Если это ежедневно, и только 100 МБ, вам не нужно много для крупномасштабных инструментов. Я бы оценил <минуту для базовой загрузки и обработки, даже удаленно, после чего происходит загрузка postgres. Какие Postgres <a href="/2191488/kak-importirovat-dannye-faila-csv-v-tablitsu-postgresql"> предлагает
попробуйте сделать это локально, с aws s3 cp
для копирования в вашу локальную систему, затем попробуйте с postgres.
Я бы не стал беспокоиться о параллельном инструменте; даже Spark захочет работать с блоками размером 32-64 МБ, поэтому вы получите не более 2-3 рабочих. И если файл .gz, вы получите ровно один.
Тем не менее, если вы хотите изучать искру, вы можете сделать это в искровой оболочке. Сначала загрузите локально, чтобы сэкономить время и деньги.