Как ограничить текст в UTF-8 только символами скрипта? - PullRequest
0 голосов
/ 20 января 2020

Я хочу ограничить строку UTF-8 только символами сценария на любом языке. Под символами сценария я подразумеваю только те символы в письменном языке, то есть без символов или специальных символов. То же, что и сценарии здесь: http://www.unicode.org/charts/index.html

Должен ли я выключить go и определить эти диапазоны символов для каждого языка в UTF-8? Или что-то , например, регулярное выражение, библиотека ... что я могу использовать?

1 Ответ

1 голос
/ 20 января 2020

В зависимости от языка, на котором вы это реализуете, вы можете использовать Категории символов Unicode в регулярных выражениях.

Следующее выражение должно соответствовать всем буквам и цифрам, но исключить знаки препинания, пробелы, символы и т. д. c.

[\p{L}\p{N}]*

Вот небольшая демонстрация для regex101 .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...