Настройте GSA для сканирования только метаданных файлов, а не содержимого - PullRequest
0 голосов
/ 22 февраля 2012

В GSA (Google Search Appliance) я изучаю, как можно заставить сканировать только метаданные (имя, тип, размер, последнее изменение и т. Д.), А не содержимое файла. Хотя я понимаю, что это может повлиять на полезность результатов, у меня есть свои требования.

Все сводится к тому, что метаданные файла общедоступны, но содержимое файла ограничено. Хотя это выглядит как вопрос безопасности, это немного больше, потому что я не хочу, чтобы GSA хранил ЛЮБУЮ информацию о содержимом файла в индексе. Предположим, что серверу GSA не доверяют хранить контент. Это только для небольшого подмножества всего набора данных.

Есть идеи, как настроить GSA и коннекторы для сканирования только метаданных, а не содержимого?

1 Ответ

1 голос
/ 23 февраля 2012

Не уверен, что вы можете сделать это путем сканирования файлов (на файлообменнике или на веб-сайте) Однако вы можете сделать это путем обхода DB со столбцами, содержащими метаданные, или разработав соединитель, который создает только фид , который предоставляет метаданные.

Это будет работать, если у вас есть метаданные, хранящиеся где-то, но не вместе в файле.

Другой вариант - настроить интерфейс, чтобы не предоставлять ссылку на документ, а просто настроить метаданные, которые будут отображаться в результате. (Используйте 1 в FrontEnd для автоматического отображения полей метаданных) Вам также необходимо добавить параметр ' getfields ' в поисковый запрос, чтобы включить соответствующие поля метаданных.

Это работает для сценария БД. Не проверял его с метаданными файла, но должен работать.

Дункан де Клерк Конор

...