Может ли Google Search Appliance создать отчет, показывающий неработающие ссылки на вашем сайте? - PullRequest
2 голосов
/ 07 января 2009

Я знаю, что Google Search Appliance имеет доступ к этой информации (как это учитывается в алгоритме PageRank), но есть ли способ экспортировать эту информацию из поискового устройства?

Внешние инструменты не будут работать, поскольку значительная часть контента предназначена для корпоративной интрасети.

Ответы [ 6 ]

3 голосов
/ 07 января 2009

Может быть что-то доступно в Google, но я никогда не проверял. Я обычно использую средство проверки ссылок, предоставляемое W3C . W3C также может обнаруживать перенаправления, что полезно, если ваш сервер обрабатывает 404, перенаправляя вместо возврата кода состояния 404.

1 голос
/ 07 января 2009

Бесплатный инструмент под названием Xenu оказался лучшим выбором для этой задачи. http://home.snafu.de/tilman/xenulink.html#Download

1 голос
/ 07 января 2009

Кажется, что это невозможно. В разделе Статус и отчеты> Диагностика сканирования есть Доступны 2 стиля отчета: развертка каталога «Древовидный список» и 100 URL за один раз «Просмотр списка». Некоторые люди пытались создавать программы для просмотра через список но после нескольких тысяч URL-адресов это не помогло.

Мой совет - использовать вместо этого логи вашего сервера. Убедитесь, что на вашем веб-сервере включены 404 и ведение журнала реферера. так как вы, вероятно, захотите исправить страницу, содержащую неработающую ссылку.

Затем вы можете использовать анализатор файла журнала для создания отчета о неработающей ссылке.

Чтобы создать эффективный и долгосрочный способ контроля ваших неработающих ссылок, вы можете настроить работу cron для выполнения следующих действий:

  • Используйте grep для извлечения строк, содержащих 404 записи из файла журнала сервера.
  • Используйте sed для удаления из каждой строки всего, кроме запрошенных URL-адресов и URL-ссылок.
  • Используйте команды sort и uniq для удаления дубликатов из списка.
  • Каждый раз выводить результат в новый файл, чтобы вы могли отслеживать изменения во времени.
1 голос
/ 07 января 2009

Вы можете использовать Инструменты для веб-мастеров Google для просмотра, среди прочего, неработающих ссылок на вашем сайте.

Это не покажет вам неработающие ссылки на внешние сайты.

0 голосов
/ 29 сентября 2015

Я знаю, что это старый вопрос, но вы можете использовать функцию экспорта URL-адресов в консоли администратора GSA, а затем искать URL-адреса с состоянием not_found. Это покажет вам все URL, которые GSA обнаружил, но вернул ему 404, когда попытался их сканировать.

0 голосов
/ 07 января 2009

Почему бы просто не проанализировать логи вашего веб-сервера и не найти все 404 страницы? Это имеет гораздо больше смысла и гораздо надежнее.

...