Парсер Java robots.txt с поддержкой подстановочных знаков - PullRequest
7 голосов
/ 30 августа 2011

Я ищу синтаксический анализатор robots.txt в Java, который поддерживает те же правила сопоставления с шаблоном , что и робот Google.

Я нашел несколько библиотек для разбора robots.txtфайлы, но ни один из них не поддерживает сопоставление с шаблоном в стиле Googlebot:

  • Heritrix (существует открытый выпуск на эту тему)
  • Crawler4j (выглядит какта же реализация, что и у Heritrix)
  • jrobotx

Кто-нибудь знает библиотеку Java, которая может это сделать?

1 Ответ

1 голос
/ 01 января 2013

Nutch, похоже, использует комбинацию crawler-commons с некоторым пользовательским кодом (см. RobotsRulesParser.java). Я не уверен в текущем состоянии дел, хотя.

В частности, проблема NUTCH-1455 выглядит вполне связанной с вашими потребностями:

Если имена пользовательских агентов, настроенные в http.robots.agents, содержат пробелы, они не сопоставляются, даже если они точно содержатся в файле robots.txt. http.robots.agents = "Скачать ниндзя, *"

Возможно, стоит попробовать / пропатчить / отправить исправление:)

...