Очистка страницы поиска Google для 10 лучших поисковых ссылок по ключевому слову - PullRequest
0 голосов
/ 02 сентября 2010

Я хочу очистить 10 самых популярных ссылок со страницы Google при поиске по ключевому слову.

Я использую webharvest. Планирование очистить ссылки href и отфильтровать топ-10, используя

атрибут атрибута? Это правильный путь, это не работает в данный момент. Любой другой простой способ сделать это? (

Ответы [ 2 ]

1 голос
/ 02 сентября 2010

Как насчет использования REST API поиска Google как , описанного здесь .

0 голосов
/ 29 октября 2015

Проще использовать Google Sheets (даже вы можете отслеживать изменения), но, вероятно, у вас есть причины выбрать внешний инструмент.

В общем случае вам нужно 3 функции, чтобы получить результаты :

extract Title "//h3[@class='r']"
extract  URL "//h3/a/@href"
clean URL "\/url\?q=(.+)&sa" - (All external URLs in Google Search results have tracking enabled and we’ll use Regular Expression to extract clean URLs)
...