Если вы просто хотите иметь возможность предоставлять результаты поиска пользователям, то, вероятно, стоит использовать API, предоставляемые поисковыми системами.Как уже упоминалось, есть API поиска Bing (который я не использовал, но выглядит хорошо), а также API веб-поиска Google .Кроме того, есть Yahoo BOSS , который я нашел очень простым в использовании.Тем не менее, похоже, что BOSS теперь является платным API - поэтому в зависимости от вашего бюджета / намерения он может не подойти.
API веб-поиска Google теперь устарел, но все равно должен работать для небольшого числа запросов -это платформа, на которой построены такие инструменты, как счетчик результатов .Его заменил API пользовательского поиска Google , который в зависимости от ваших потребностей может или не может работать для вас.Я не использовал его, но он выглядит нормально и бесплатен для небольшого числа запросов.
Проблема с сканированием и последующим анализом поисковых страниц состоит в том, что поисковые системы регулярно меняют базовый html страниц результатов поиска.- поэтому любой метод очистки экрана будет довольно хрупким.Кроме того, условия обслуживания большинства коммерческих поисковых систем запрещают автоматический доступ - если вы все равно продолжите, они вполне могут заблокировать ваш сканер.Эти две проблемы, вероятно, являются причиной того, что удивительные сторонние API для синтаксического анализа на самом деле не существуют.