У нас есть продукт, который требует умения искать, и в основном ориентирован на английский язык.Таким образом, токенизация в пространствах работает относительно хорошо (несмотря на то, что это не всегда лучшая идея).
В последнее время мы расширяемся на японский рынок и обнаружили ряд осложняющих факторов.У японского языка есть два ключевых момента: 1) wordsCanBeStrungTogetherWithoutSpaces 2) В японском языке используются разные знаки препинания символов
У нас есть обходной путь для 1, но наличие «слова» с несколькими сотнями символов вызывает некоторые сложности,так что было бы идеально решить для (2).В самом строгом смысле я пытаюсь найти решение для японского, но на самом деле я хотел бы найти способ хотя бы разделить предложения независимо от алфавита.Есть ли регулярное выражение, которое хорошо для разделения на основе диапазона Юникод?Или он должен быть индивидуальным и включать каждый другой язык?
При быстром поиске выявляется https://unicodelookup.com/#full%20stop/1 Похоже, что различные "точки полной остановки" без паттерна (насколько я могу судить),но не так много, и я мог бы построить, чтобы соответствовать тем.Меня беспокоит то, что есть крайние случаи, о которых я не знаю, о которых я не знаю.