Разбиение строки на слова с помощью шведских букв - PullRequest
3 голосов
/ 19 января 2010

Я пытаюсь разбить строку с текстом на слова с помощью функции php preg_split.

$words = preg_split('/\W/u',$text);

Работает отлично, за исключением шведских букв. Выполнение utf8_encode или декодирования также не помогает. Я предполагаю, что preg_split работает только с однобайтовыми символами и что шведские символы являются многобайтовыми. Есть ли другой способ сделать это?

Ответы [ 2 ]

3 голосов
/ 19 января 2010

Почему вы обращаете внимание на конкретные символы?

$text = "Jag har hört så mycket om dig.";
$words = explode(" ", $text);
/*
Array
(
    [0] => Jag
    [1] => har
    [2] => hört
    [3] => så
    [4] => mycket
    [5] => om
    [6] => dig.
)
*/
1 голос
/ 19 января 2010

mb_split на помощь (у меня были проблемы с этим некоторое время назад, только сейчас нашел ответ:)

mb_regex_encoding('UTF-8');
mb_split('\W', $text);

НТН

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...