Индексированные файлы PDF не возвращаются с помощью поиска Google - PullRequest
0 голосов
/ 04 января 2012

Как видно из названия, мне удалось настроить GSA для сканирования моих PDF-файлов. Они отображаются на странице списка со ссылками на них, чтобы можно было сканировать URL-адреса и добавлять их в определенную коллекцию (в этом сообщении называемую «My-PDF»).

Сканирование выполнено успешно, и я вижу следующее в Диагностике сканирования GSA для коллекции "My-PDFs":

ДИАГНОСТИКА КРАВА

 File/Directory                             | Crawl Status

 http://mydomain.com/Listings/MyPdfs.aspx   | Crawled: New Document
 http://mydomain.com/mypdfs/cat1/issue5.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat2/issue4.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat3/issue2.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat4/issue3.pdf | Crawled: New Document
 http://mydomain.com/mypdfs/cat5/issue1.pdf | Crawled: New Document

Диагностика сканирования для одного файла :

Дополнительная информация об этой странице

  • Ссылка на эту страницу
  • Кэшированная версия недоступна
  • PageRank: Нет в наличии
  • Последнее изменение:
  • Количество ссылок на этой странице для просканированных страниц: Неизвестно
  • Количество просмотренных страниц, ссылающихся на эту страницу: Неизвестно
  • Эта страница находится в следующих коллекциях:
    • My-файлы PDF

Однако при поиске с использованием Центра тестирования GSA в той же коллекции «My-PDF» файлы PDF не возвращаются. Я стараюсь использовать соответствующий выбор внешнего интерфейса в Центре тестирования, а также правильную коллекцию («Мои PDF-файлы»), а затем использую ключевые слова из документа. Я также попытался использовать имена файлов документов, но по-прежнему безрезультатно. Я всегда получаю:

По вашему запросу - TestKeyword - не найдено ни одного документа.
Не найдено страниц, содержащих "TestKeyword".

(очевидно, с использованием реальных ключевых слов)

Есть идеи?

ПРИМЕЧАНИЕ: Использование GSA 5.0.

1 Ответ

0 голосов
/ 20 июля 2012

Оказывается, это повреждение нашего устройства GSA. Любые новые коллекции, созданные после определенной даты, как представляется, сканируются, но не могут быть найдены. Существующие коллекции, которые ранее работали, могут продолжать обновляться, но новые не могут.

Замена устройства GSA новым оборудованием была единственным решением, которое до сих пор работало.

...