Юникод будет с нами, в возрастающем количестве, надолго. Если документ HTML или XML написан в кодировке UTF-8 в кодировке Unicode, то следует ожидать появления всех этих элементов.
В Unicode (База данных символов Unicode) следующие кодовые точки определены как пробельные символы:
U+0009–U+000D (control characters, containing Tab, CR and LF)
U+0020 SPACE
U+0085 NEL (control character next line)
U+00A0 NBSP (NO-BREAK SPACE)
U+1680 OGHAM SPACE MARK
U+180E MONGOLIAN VOWEL SEPARATOR
U+2000–U+200A (different sorts of spaces)
U+2028 LS (LINE SEPARATOR)
U+2029 PS (PARAGRAPH SEPARATOR)
U+202F NNBSP (NARROW NO-BREAK SPACE)
U+205F MMSP (MEDIUM MATHEMATICAL SPACE)
U+3000 IDEOGRAPHIC SPACE