Честно говоря, самый простой способ сделать это - начать с поисковых систем. Все они имеют API-интерфейсы для автоматического поиска, что, вероятно, дало бы вам максимальную отдачу от вашего времени на возврат ссылок / упоминаний о продуктах или бренде вашего клиента.
Это не будет обрабатывать вещи за аутентификацией, только общедоступные вещи (конечно). Но это даст вам хорошую основу для начала. Оттуда вы можете (если хотите) использовать API или ботов, написанных на заказ, которым на сайтах предоставлены аутентичные кредиты, но, честно говоря, я думаю, что в этот момент вы упускаете основной вопрос, я думаю.
Является ли основной вопрос "где мы упоминаемся?" или основной вопрос действительно ... "Какие сайты получают трафик для нас?" В большинстве случаев это последнее, и в этом случае вы можете игнорировать все, что я сказал ранее, и просто использовать Google Analytics или подобное программное обеспечение на сайте вашего клиента, чтобы определить, откуда идет трафик.
Редактировать
Хорошо, так что если это то, о чем мы упоминали, я бы все равно начал с поисковыми системами, как указано API Google довольно прост и имеет SOAP-интерфейс, который вы можете использовать в качестве веб-ссылки, если хотите; пример
Re: просмотр сайтов. Если TOS сайта говорит, что вы не можете использовать автоматических ботов, то лучше не использовать автоматических ботов. Файл robots.txt не является юридически обязательным (это своего рода добрососедство), и поэтому я бы не стал использовать отсутствие исключения для разрешения. Некоторые рецензируемые сайты (более современные) могут запретить автоматическую очистку своего сайта, но они все равно могут публиковать RSS-каналы или каналы Atom или иметь какой-то другой API, который вы можете подключить, который стоит проверить.