Я создал RSS, Twitter и другие агрегаторы контента для клиентов, использующих php / Mysql. Как правило, это включает в себя задание cron, некоторый анализ фида и вставку данных в базу данных для хранения и последующей повторной публикации, или удаления, или архивирования и т. Д. Ничего принципиального.
Но теперь мне поручено создать агрегаторный сервис для публичной аудитории. Я полагаю, что это нужно будет быстро масштабировать, так как каждый человек, имеющий доступ к сервису, может добавить десятки, если не сотни каналов. В течение нескольких месяцев мы можем регулярно анализировать 1000 фидов и, возможно, 100 000 в год или даже больше, если повезет.
Я думаю, что окончательная модель похожа на то, что делает Google Reader.
Итак, какова хорошая стратегия для этого? Несколько перекрывающихся крон, непрерывно работающие и читающие фиды и подключение к API для извлечения контента? Должен ли я планировать запускать несколько экземпляров Elastic Cloud или что-то еще по мере роста?