Предположим, у меня длинный список URL-адресов. Теперь мне нужно написать скрипт для следующего:
- Перейти к каждому из URL
- Получить возвращенные данные
- и сохранить его в базе данных
Я знаю два способа сделать это -
- Вытащите один URL из списка, загрузите данные и сохраните их в базе данных. Получите следующий URL, загрузите данные, сохраните их в БД и повторите ...
Для этого потребуется слишком много операций записи на диск, так что другой способ -
- Загрузите данные с каждого из URL-адресов и сохраните их в памяти. И, наконец, сохраните все это в базу данных за одну запись на диск.
Но для этого потребуется перенести огромный объем данных в память. Таким образом, существует вероятность того, что программа может просто завершиться из-за ошибки OOM.
Есть ли какой-нибудь другой способ, который является своего рода промежуточным звеном между этими методами?
(В частности, я пишу этот скрипт на Джулия и использую MongoDB )