Я пытаюсь проиндексировать около 3 миллионов текстовых документов в solr. Около 1/3 этих файлов - это электронные письма, содержащие от 1 до 5 абзацев текста. В остальных 2/3 файлах есть только несколько слов в предложениях.
Lucid / Solr требуется почти 1 час, чтобы полностью проиндексировать весь набор данных, с которыми я работаю. Я пытаюсь найти способы оптимизировать это. Я настроил Lucid / Solr для фиксации только каждых 100 000 файлов, и он индексирует файлы в пакетах по 50 000 файлов одновременно. Память больше не является проблемой, поскольку она постоянно составляет около 1 ГБ памяти из-за пакетной обработки.
Сначала необходимо проиндексировать весь набор данных. Это похоже на унаследованную систему, которую нужно загружать в новую систему, поэтому данные должны быть проиндексированы и должны быть максимально быстрыми, но я не уверен, какие области следует изучить для оптимизации на этот раз.
Я думаю, что, может быть, есть много таких маленьких слов, как ", а, потому что, если, если, ...", которые вызывают много накладных расходов и являются просто "шумовыми" словами. Мне любопытно, если я отрежу их, если это резко ускорит время индексации. Некоторое время я просматривал документы Lucid, но не могу найти способ указать, какие слова не индексировать. Я наткнулся на термин «стоп-лист», но мимоходом не увидел ничего, кроме ссылки на него.
Существуют ли другие способы ускорения индексации или я просто застрял с индексированием в 1 час?