Это то, что может служить основанием для использования фильтра гальки. Этот фильтр группирует несколько слов вместе. Например, Abigail Adams National Bancorp с ShingleFilter из 3 токенов будет производить (в предположении простого WhitespaceAnalyzer) [Abigail], [Abigail Adams], [Abigail Adams National], [Adams National Bancorp], [Adams National], [Adams] , [Национальный], [Национальный Bancorp] и [Bancorp].
Если пользователь отправляет запросы на National Bancorp, вы получите точное совпадение с самим National Bancorp и более низкое точное совпадение с Abigail Adams National Bancorp (с меньшим количеством баллов, потому что у этого в поле гораздо больше жетонов, что снижает IDF). Я думаю, что имеет смысл возвращать оба документа по такому запросу.
Возможно, вы захотите применить фильтр shingle и во время запроса, в зависимости от варианта использования.