Фильтровать результаты запроса Google - PullRequest
0 голосов
/ 18 февраля 2012

Я пишу поисковую систему для статей в Википедии, используя lucene в дампе wiki xml, и я хочу вычислить точность этого движка по сравнению с результатом вики Google по конкретному запросу, когда я даю "site: en.wikipedia .org "вместе с запросом. Я хочу сделать это для нескольких запросов, поэтому я получаю URL результатов поиска Google вручную. Я получил Google API, чтобы использовать бота для поиска в Google, но проблема в том, что я хочу избавиться от результатов определенного типа, таких как "/ Категория:" "/значок:" "/файл:" "/Фото:" и пользовательские страницы.

Но я не нашел удобного способа сделать это, за исключением использования итеративного метода выдачи запроса, получения n числа результатов, затем отфильтровывания с использованием регулярных выражений, затем извлечения оставшихся (nx) результатов и т. Д. на. Google продолжает блокировать меня, когда я это делаю.

Есть ли интеллектуальный способ получить результаты Google так, как я хочу использовать Java?

Заранее спасибо, ребята.

1 Ответ

0 голосов
/ 18 февраля 2012

Вы можете просто попытаться исключить эти страницы из результатов Google, например:

...