У меня есть несколько сжатых (.gzip) файлов csv в S3, которые я sh анализирую, предпочтительно используя Lambda. Самый большой сжатый файл, который мы видели до сих пор, составляет 80 МБ. При распаковке размер файла становится 1,6 ГБ. Примерно один несжатый файл может иметь размер примерно 2 ГБ (файл хранится в сжатом виде в S3).
После синтаксического анализа меня интересуют выбранные строки из файла csv. Я не ожидаю, что память, используемая отфильтрованными строками, будет более 200 МБ.
Однако, учитывая ограничение Lambda по времени (15 минут) и памяти (3 ГБ), использование Lambda для такого варианта использования является возможным вариантом в дольше пробегать? Есть ли альтернативы для рассмотрения?