Самый простой способ очистить Google для URL через мой браузер? - PullRequest
0 голосов
/ 23 января 2011

Я хотел бы очистить все URL-адреса, которые возвращаются при поиске при поиске в Google.Я пытался создать скрипт, но Google не понравился, и добавление поддержки cookie и капчи было слишком утомительным.Я ищу что-то, что - когда я просматриваю страницы поиска Google - просто возьмет все URL-адреса на страницах и поместит их в файл .txt или сохранит их каким-либо образом.Кто-нибудь из вас знает что-то, что сделает это?Возможно, скрипт greasemonkey или аддон Firefox?Буду очень признателен.Спасибо!

Ответы [ 5 ]

0 голосов
/ 25 января 2011

Вы можете попробовать аддон закладки IRobotSoft на http://irobotsoft.com/bookmark/index.html

0 голосов
/ 24 января 2011

но Google это не понравилось, ..

Вам нужно вставить (случайные) операторы ожидания в ваш код, чтобы вы не «перегружали» сайт и не запускали этот блок.

0 голосов
/ 23 января 2011

Я сделал нечто подобное для Google Scholar, где нет доступного API.Мой подход состоял в том, чтобы создать прокси-веб-сервер (Java-приложение на Tomcat), который будет извлекать страницу, что-то делать с ней и затем показывать пользователю.Это 100% функциональное решение, но требует некоторого кодирования.Если вам интересно, я могу получить более подробную информацию и написать код.

0 голосов
/ 23 января 2011

Результаты поиска Google очень легко чистить. Вот пример в php.

<?
# a trivial example of how to scrape google
$html = file_get_contents("http://www.google.com/search?q=pokemon");

$dom = new DOMDocument();
@$dom->loadHTML($html);
$x = new DOMXPath($dom);
foreach($x->query("//div[@id='ires']//h3//a") as $node)
{
    echo $node->getAttribute("href")."\n";
}
?>
0 голосов
/ 23 января 2011
...