Если вы хотите сохранить все токены как есть (как я прокомментировал ваш предыдущий вопрос по этому поводу, тип text_en
содержит стеммер), используйте тип поля только с WhitespaceTokenizer и LowercaseFilter. Вам нужно определить это поле самостоятельно.
Полагаю, вы можете использовать text_general
, чтобы получить достаточно приличный ответ (он использует StandardTokenizer, поэтому он разделится на несколько больше случаев, чем просто пробел).
Причина в том, что поиск по шаблону происходит без большей части обработки (так как невозможно выполнить правильную обработку стемминга, разбиения и т. Д., Когда у вас нет полного токена), поэтому любой поиск по шаблону будет против сгенерированного список токенов после обработки.