Я провел бенчмаркинг для Indexing Times для Sphinx & Solr. Sphinx значительно опережает Solr в отношении алгоритмов индексации (сверхбыстрое время индексации и небольшой размер индекса).
Когда вы произносите 10 страниц текста, кажется, что вам даже не требуется индексирование сфинкса в реальном времени . Вы можете следовать схеме main + delta indexing в Sphinx (вы можете найти это в документации Sphinx). Это было бы очень быстро и почти в реальном времени. Если вам нужна дополнительная помощь по этому вопросу, пожалуйста, не стесняйтесь спрашивать, будем рады объяснить вам.
Solr великолепен, но когда дело доходит до оптимизированных алгоритмов, Sphinx качается !! Попробуйте Сфинкс.
Возвращаясь к вашим вопросам в комментарии, Solr / Lucene поддерживает инкрементную индексацию (известную как дельта-импорт в их терминологии) и легко настраивается, однако они довольно медленны по сравнению с методом, используемым Sphinx.
Main + Delta достаточно быстр, потому что вы можете создать временную таблицу, в которой вы будете хранить новый текст и индексировать его. Согласно документации: Sphinx поддерживает «живые» (почти в реальном времени) обновления индекса, и его можно реализовать с помощью
так называемая схема "главный + дельта". Идея состоит в том, чтобы настроить два источника и два индекса, с одним «основным» индексом для данных и одним «дельта» для новых документов.
Скажем, например, у вас есть 10 миллионов записей, чтобы вы могли сохранить их в качестве основного индекса, и все новые документы будут добавлены в новую таблицу, которая будет действовать как дельта. Эта новая таблица может быть проиндексирована время от времени (скажем, каждые 1 час), и данные становятся доступными для поиска в течение нескольких секунд, поскольку у вас есть 10 страниц текста. Теперь после поиска новых записей вы можете объединить документы основной таблицы + дельта-таблицы, что может быть выполнено без вмешательства в ваш поиск. Когда документы объединены, очистите новую таблицу и снова через час вы сможете снова выполнить весь процесс. Я надеюсь, что вы получили что-то еще, пожалуйста, не стесняйтесь задавать любые вопросы.