Я хочу маркировать текст, но не разделять только пробелами.
Есть такие вещи, как собственные имена, которые я хочу установить только для одного токена (например: «Renato Dinhani Conceição»). Другой случай: процентный («60%»), а не разделенный на два токена.
Что я хочу знать, если есть какой-нибудь Tokenizator из некоторого libray, который может обеспечить высокую настройку? Если нет, я постараюсь написать свой собственный, если есть какой-то интерфейс или методы, которым нужно следовать.
Не все должно быть всеобщим признанием. Пример: мне не нужно перенастраивать китайский алфавит.
Мое заявление является заявлением колледжа, и оно в основном направлено на португальский язык. Только некоторые вещи, такие как названия, места и аналогичные, будут из других языков.