Я пишу поисковую систему для статей в Википедии, используя lucene в дампе wiki xml, и я хочу вычислить точность этого движка по сравнению с результатом вики Google по конкретному запросу, когда я даю "site: en.wikipedia .org "вместе с запросом. Я хочу сделать это для нескольких запросов, поэтому я получаю URL результатов поиска Google вручную. Я получил Google API, чтобы использовать бота для поиска в Google, но проблема в том, что я хочу избавиться от результатов определенного типа, таких как
"/ Категория:"
"/значок:"
"/файл:"
"/Фото:"
и пользовательские страницы.
Но я не нашел удобного способа сделать это, за исключением использования итеративного метода выдачи запроса, получения n числа результатов, затем отфильтровывания с использованием регулярных выражений, затем извлечения оставшихся (nx) результатов и т. Д. на. Google продолжает блокировать меня, когда я это делаю.
Есть ли интеллектуальный способ получить результаты Google так, как я хочу использовать Java?
Заранее спасибо, ребята.