Question

Мой скрипт на Perl содержит строку символов в UTF-8, которая может быть на любом языке. Мне нужно прописать первый символ каждого слова, а оставшиеся символы слова преобразовать в нижний регистр. Это необходимо сделать, оставив текст в формате UTF-8.

Кажется, что следующее работает достаточно хорошо, когда текст содержит только латинские символы

$my_string =~ s/([\w']+)/\u\L$1/g;

Как мне заставить это работать в строке UTF-8?

tripleee · Answer 1 · 23 августа 2011

См. perlunicode для обзора возможностей, с которыми вам необходимо ознакомиться. По сути, вы ищете что-то вроде \p{LC}.

Ваше проблемное пространство не очень хорошо определено; не все сценарии имеют концепцию регистра символов. Свойство LC будет соответствовать только тем сценариям, которые есть, поэтому оно должно привести вас туда.

границы слов текста UTF-8 в perl

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

границы слов текста UTF-8 в perl

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов