Bot Web Quality - PullRequest
       7

Bot Web Quality

1 голос
/ 01 ноября 2009

Я ищу хорошего бота с открытым исходным кодом, чтобы определить качество, которое часто требуется для индексации Google.

Например

  • найти дубликаты заголовков
  • недействительные ссылки (jspider делает это, и я думаю, что намного больше будет делать это)
  • точно такая же страница, но разные URL
  • и т. Д., Где и т. Д. Соответствует требованиям качества Google.

Ответы [ 2 ]

1 голос
/ 01 ноября 2009

Ваши требования очень специфичны, поэтому вряд ли найдется продукт с открытым исходным кодом, который будет делать именно то, что вы хотите.

Однако существует много платформ с открытым исходным кодом для создания веб-сканеров. Какой из них вы используете, зависит от ваших языковых предпочтений.

Например:

Как правило, эти платформы предоставляют классы для сканирования и просмотра страниц сайта в соответствии с правилами, которые вы предоставляете, но затем вы можете извлечь нужные данные, подключив свой собственный код.

0 голосов
/ 01 ноября 2009

Инструменты Google для веб-мастеров - это веб-служба (а не бот по запросу), и она не выполняет все, о чем вы просили, - но делает сделайте что-нибудь из этого и многое из того, о чем вы не просили, и, будучи от Google, это, без сомнения, соответствует вашим нечетным "и т. д., где и т. д. соответствует запросам качества Google." .

...