Может ли кто-нибудь указать мне правильное направление для реализации токенизатора Lucene с LookAhead?
Я использую стебель снежного кома и хочу иметь возможность получать фразы из названий городов и предотвращать их использование, так что «Лос-Анджелес» будет установлен как один токен, в отличие от двух токенов «Лос» и «Анджелес».
Мне также нужно сохранить токены, которые не соответствуют ни одному названию города, так какодно слово.
есть идеи?
TIA