Если вы не позволите Lucene рассматривать «усилители с автоматическим обнулением» как один термин, вы не можете использовать векторы терминов, чтобы получить то, что вы ищете. Вы можете использовать KeywordTokenizerFactory
для индексации, которая на самом деле не маркирует слова, а сохраняет весь поток текста как один токен. Но если, например, интересующее вас поле содержит следующий текст,
"The quick brown fox jumps over the lazy dog"
как вы определяете границы вашего термина?
The quick
The quick brown
quick brown
quick brown fox jumps
over the lazy dog
.....
комбинация растет экспоненциально для отдельного поля значения. Поскольку я отвечал на некоторые из ваших вопросов, связанных с term vectors
, приведшими к этому, я предполагаю, что вы пытаетесь согнуть Solr/Lucene
, чтобы посчитать слово / набор слов в большом документе. Вы можете рассмотреть возможность интеграции Solr с Hadoop, и пусть Hadoop сделает все за вас. Черт! каждый пример Hadoop говорит о количестве слов и количестве строк. Solr + Hadoop = Big Data Love или, возможно, вы можете сделать это на своем собственном уровне приложения.
У меня мало информации об объеме данных вашего приложения, целях требований и т. Д., Так что в лучшем случае это предложение.