Сколько памяти должно занимать индекс поисковой системы LucidWorks? - PullRequest
0 голосов
/ 08 октября 2011

Я пытаюсь использовать LucidWorks (http://www.lucidimagination.com/products/lucidworks-search-platform) в качестве поисковой системы для внутренней сети моей организации. Я хочу, чтобы он индексировал различные типы документов (форматы Office, PDF, веб-страницы) из различных источников данных (веб-сайты и вики, файловая система, репозитории Subversion). До сих пор я пытался проиндексировать несколько сайтов, каталогов и репозиториев (около 500 тыс. Документов, общим размером около 50 ГБ), а размер индекса составляет 155 ГБ.

Это разумно? Должен ли индекс занимать больше памяти, чем сами данные? Каково было бы разумное правило большого пальца для отношения размера данных к индексу к размеру?

1 Ответ

0 голосов
/ 08 октября 2011

Нет разумного размера индекса, в основном зависит от данных, которые у вас есть.

В идеале должно быть меньше, но нет правила большого пальца.

Однако, Для размера индексаи размер данных зависит от того, как вы индексируете данные.
Многие факторы будут определять размер вашего индекса и влиять на него.
Большая часть пространства в индексе используется полями сохраненных данных.
Если вы индексируете данные из документов, и все содержимое сохраняется, размер индекса наверняка увеличится.
Точная настройка атрибутов индексированных полей также помогает в экономии места.
Возможно, вы захотите вернуться к полям, которые выдолжны быть проиндексированы и должны быть сохранены.
Кроме того, используете ли вы множество полей для копирования для дублирования данных или сохранения повторяющихся данных.Оптимизация также может помочь.

Подробнее @ http://wiki.apache.org/solr/SolrPerformanceFactors

...