У меня есть корзина s3, которая ежедневно распределяет почти 14-15 миллиардов записей по 26000csv файлам.
Мне нужно проанализировать эти файлы и отправить их в базу данных mongo.
Ранее, имея всего 50-100 миллионов записей, я использовал массовую загрузку с несколькими параллельными процессами в экземпляре ec2, и это былохорошо.Но поскольку количество записей резко возросло, предыдущий метод не настолько эффективен.
Так что будет лучшим способом сделать это?