Я читаю поток Unicode и предпочел бы не передавать всю строку через регулярное выражение. Есть ли простой (надежный) символ, который я могу использовать для разбиения слов по языкам?
Мой байтовый массив, вероятно, будет основан на UTF-16 или UTF-8
Если вы используете Java, вы можете использовать BreakIterator .