У меня есть набор из 200 миллионов документов, которые мне нужно проиндексировать.Каждый документ имеет свободный текст и дополнительный набор информации о редких метаданных (более 100 столбцов).
Похоже, что правильным инструментом для индексации свободного текста является Lucene, а правильным инструментом для структурированных разреженных метаданных является HBase.
Мне нужно запросить данные и объединить результаты поиска в свободном тексте и результаты структурированных данных (например, получить все книги, в тексте которых есть фраза «доброе утро»), которые были впервые опубликованы в 1980 году.
На какие инструменты / механизмы мне следует обратить внимание, чтобы объединить структурированные и необработанные запросы?Результаты могут включать миллионы записей (до и после объединения)
Спасибо, Саар