Чтение большого CSV из S3 с помощью Lambda - PullRequest
0 голосов
/ 08 июля 2020

У меня есть несколько сжатых (.gzip) файлов csv в S3, которые я sh анализирую, предпочтительно используя Lambda. Самый большой сжатый файл, который мы видели до сих пор, составляет 80 МБ. При распаковке размер файла становится 1,6 ГБ. Примерно один несжатый файл может иметь размер примерно 2 ГБ (файл хранится в сжатом виде в S3).

После синтаксического анализа меня интересуют выбранные строки из файла csv. Я не ожидаю, что память, используемая отфильтрованными строками, будет более 200 МБ.

Однако, учитывая ограничение Lambda по времени (15 минут) и памяти (3 ГБ), использование Lambda для такого варианта использования является возможным вариантом в дольше пробегать? Есть ли альтернативы для рассмотрения?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...