Частота индексации сетевого диска - PullRequest
1 голос
/ 23 августа 2010

Компания, в которой я работаю, имеет миллионы документов, которые хранятся и совместно используются на нескольких сетевых дисках, сопоставленных с дисками пользователей (например, d: \ to \ server1 \ и т. Д.).

Я бы хотел реализовать обход по сетевым дискам и позволить пользователям быстро находить файлы с помощью полнотекстовой индексации.

Моя текущая индексация стратегия - это Lucene.net

Но я не уверен, как часто я должен индексировать сетевые диски, потому что существуют миллионы документов для индексации, не говоря уже о пакетах, проходящих по сети.

Итак, вопрос в том, как мне реализовать индексацию частоту ?Я проводил исследования того, как часто Google / Windows Desktop выполняет поиск по индексу в качестве примера, но безрезультатно.

1 Ответ

3 голосов
/ 23 августа 2010

Большая часть ответа заключена в любых соглашениях об уровне обслуживания, которые вы заключаете с вашими клиентами.Если ваш SLA заявляет, что результаты поиска являются текущими в течение X количества минут, то это отвечает на ваш вопрос о том, как следует реализовать частоту индексации.

Если вам нравитсяУ меня нет конкретных SLA для поиска и индексации, тогда вы можете быть более гибкими.Например, я управляю, среди прочего, сервером поиска SharePoint для своего бизнеса.В дополнение к нашему веб-сайту мы также индексируем много контента в неструктурированном файловом пространстве.Сервер поддерживает полные и инкрементные ползания.Мы рассчитали несколько добавочных обходов, чтобы получить оценку того, сколько времени потребуется для выполнения добавочного обхода.Затем мы запланировали наши дополнительные обходы на интервале, комфортно превышающем наблюдаемое прошедшее время.Мы запланировали, что полные обходы будут происходить реже в непиковое время.

Особенности могут различаться в зависимости от используемой вами технологии индексации, но принцип тот же:

  • Соблюдайтенесколько сканирований, предпочтительно в пиковое и непиковое время, и настройте расписание сканирования таким образом, чтобы оно было больше, чем в худшем случае.
  • Планируйте более ресурсоемкие обходы на непиковое время, например, вечером.
  • Если полное сканирование занимает более нескольких часов, то вы, скорее всего, запланируете их на выходные.
  • Использование технологии, поддерживающей добавочный обход, может существенно снизить пропускную способность в пиковое время, покавсе еще сохраняя ваш индекс свежим.

Удачи!

...