Я смотрю на необходимость импортировать много данных в реальном времени в индекс Lucene. Он будет состоять из файлов различных форматов (Doc, Docx, Pdf и т. Д.).
Данные будут импортированы в виде пакетных сжатых файлов, поэтому их необходимо будет распаковать и проиндексировать в отдельный файл и каким-то образом связать с пакетом файлов в целом.
Я все еще пытаюсь понять, как этого добиться, но я думаю, что могу использовать Hadoop для обработки и импорта в lucene. Затем я могу использовать Solr в качестве веб-интерфейса.
Я слишком усложняю, так как Solr уже может обрабатывать данные? Поскольку загрузка ЦП для импорта очень высока (из-за предварительной обработки), я считаю, что мне нужно разделить импорт и случайный поиск независимо от реализации.
В: «Пожалуйста, определите много данных и в реальном времени»
«Много» данных - это 1 миллиард сообщений электронной почты в год (или более), со средним размером 1 КБ, с вложениями от 1 КБ до 20 Мегабайт и небольшим объемом данных от 20 Мегабайт до 200 Мегабайт Обычно это вложения, для которых требуется индексирование, указанное выше.
Режим реального времени означает, что он поддерживает поиск в течение 30 минут или раньше после того, как он будет готов к импорту.
ОАС:
Я бы хотел предоставить поисковый SLA на 15 секунд или меньше для поисковых операций.