Говоря как кто-то, кто работал в двух компаниях по агрегации данных, агрегирование данных включает много ручной работы. Вы находите источники, автоматизируете сбор данных как можно лучше (API-интерфейсы, загрузка и импорт файлов, даже извлечение экрана из страниц HTML), и вы остаетесь на вершине постоянно . Вы всегда ищете дополнительные источники, обновляете код для источников, которые изменились, помните о юридических последствиях источников, которые не хотят, чтобы вы собирали их данные, и т. Д.
Иногда вам приходится покупать данные или сопоставлять эти затраты с отсутствием данных из этого источника или их очисткой вручную. Иногда источник каким-то образом блокирует вас, и вам нужно либо попытаться обойти это, либо договориться с ними об определенных условиях. Это жизнеспособная бизнес-модель, но она не дешевая.