Современные механизмы регулярных выражений поддерживают класс символов Latin
или isLatin
, который будет соответствовать латинским буквам с ударением или без акцента.
Регулярное выражение, совпадающее только с тем, что вы хотите, будет немного сложнее.Вы не хотите просто совпадать с Letter
или Number
, так как они будут совпадать с буквами и цифрами из других скриптов.Также вы не хотите включать или исключать все сочетания акцентов: вы хотите, чтобы маленькая латинская буква +, сочетающая острый акцент, отображалась как á, а акцентированная греческая буква - нет.Итак, вы хотели бы соответствовать что-то вроде (\p{Latin}\p{Mark}*)|\p{Punctuation}|\p{Separator}
.