У меня есть модуль веб-сайта, который собирает некоторые твиты из твиттера и разбивает их на слова для помещения в базу данных.Однако, поскольку твиты обычно имеют турецкие символы [ıöüğşçİÖÜĞŞÇ], мой модуль не может правильно разделить слова.
Например, фраза Aynı labda çalıştığım разбита на Ayn , labda и alıştığım , но его следовало разделить на Aynı , labda и çalıştığım
Вот мой код, который выполняет эту работу:
preg_match_all('/(\A|\b)[A-Z\Ç\Ö\Ş\İ\Ğ\Ü]?[a-z\ç\ö\ş\ı\ğ\ü]+(\Z|\b)/u', $text,$a);
Что вы думаете здесь не так?
Важное примечание: я не глуп, чтобы не разбивать текстпо пробелу, мне нужны именно эти символы, чтобы соответствовать.Я не хочу никаких числовых или специальных символов, таких как [,.! @ # $ ^ & * 123456780].
Мне нужно регулярное выражение, которое разделит этот kısa isimleri ile "Vic "ve" Wick "vardı.
в это:
kısa
isimleri
ile
Vic
ve
Wick
vardı
Больше примеров:
Мы @ test будетбыть
We
re
test
Föö bär, мы @ тест to0 ÅÄÖ - 123 хорошо?kthxbai? разбит на это,
b
r
we
re
test
ok
kthxbai
но я хочу, чтобы это было:
Föö
bär
we
re
test
ÅÄÖ
ok
kthxbai