БЫСТРЫЙ Поиск проблемы Sharepoint Crawler со страницами Dokuwiki - PullRequest
0 голосов
/ 23 июня 2011

Мой уровень разочарованности - максимальный уровень при сканировании сайтов Dokuwiki.

У меня есть источник контента, использующий FAST search for SharePoint, который я настроил для сканирования сайта dokuwiki / doku.php. Мои правила для сканера установлены на: http://servername/*, соответствуют регистру и включают все элементы в этом пути со сложными URL-адресами для сканирования. Проверка источника контента в правилах сканирования показывает, что он будет сканироваться сканером. Однако ..... Сканирование всегда длится менее 2 минут и завершается только тем, что просканировал только ту страницу, на которую я указал, и никакой другой ссылки на этой странице. У меня есть проверка с администратором Dokuwki, и у него есть текст роботов, чтобы разрешить. когда я смотрю на источник на страницах, я вижу, что он говорит meta name = "robots" content = "index, follow"

поэтому, чтобы проверить, что другие связанные страницы не были проблемой, я добавил эти ссылки к источнику содержимого вручную и перечитал .. Пример исходной страницы содержит три ссылки

  • сайт A
  • сайт B
  • сайт С.

Я добавил URL-адреса сайтов A, B и C в источник сканирования. Результатами этого сканирования являются 4 успеха, первичная страница источника и другие ссылки A, B и C i, добавленные вручную.

Итак, мой вопрос: почему сканер не сканирует ссылку на странице? Это то, что мне нужно сделать с помощью сканера на моем конце, или это как-то связано с тем, как определяются пространства имен и ссылки, создаваемые с помощью Dokuwiki?

Буду признателен за любую помощь

Эрик

Ответы [ 2 ]

0 голосов
/ 14 июля 2011

Проблема была связана с аутентификацией, хотя не было сообщений о том, что это аутентификация в журналах FAST Crawl Logs.В исправлении было добавлено значение $ freepass для IP-адреса сервера индексирования поиска, чтобы Appache не проходил процесс аутентификации для каждого обращения к странице.

Спасибо за ответ

Эрик

0 голосов
/ 12 июля 2011

Вы отключили параметры отложенной индексации и rel = nofollow?

...