Мне нужно разбить строку и извлечь слова, разделенные пробелами. Источник может быть на английском или японском языке.Английские пробельные символы включают символы табуляции и пробела, и японский текст тоже использует их.(IIRC, все широко используемые японские наборы символов являются надмножествами US-ASCII.)
Таким образом, набор символов, которые мне нужно использовать для разделения строки, включает в себя обычный пробел ASCII и символ табуляции.
Но в японском языке есть еще один символ пробела, обычно называемый «пробел во всю ширину».В соответствии с утилитой Character Viewer моего Mac, это U + 3000 "IDEOGRAPHIC SPACE".Это (обычно) то, что получается, когда пользователь нажимает пробел при наборе текста в японском режиме ввода.
Есть ли другие символы, которые мне нужно рассмотреть?
Я обрабатываю текстовые данные, предоставленные пользователями, которым было сказано "разделять записи пробелами".Тем не менее, пользователи используют широкий спектр компьютерных и мобильных операционных систем для отправки этих текстов.Мы уже видели, что пользователи могут не знать, находятся ли они в режиме ввода на японском или английском языке при вводе этих данных.
Кроме того, поведение клавиши пробела различается на разных платформах и в приложениях даже в японском режиме (например, Windows 7 вставит идеографическое пространство, а iOS вставит пробел ASCII).
Так чтоЯ хочу, по сути, «набор всех символов, которые визуально выглядят как пробел и могут быть сгенерированы, когда пользователь нажимает клавишу пробела или клавишу табуляции, так как многие пользователи не знают разницу между пробелом и табуляцией, на японском и/ или английский ".
Есть ли какой-нибудь авторитетный ответ на такой вопрос?