Примечание: Для тех, кто работает с текстом CJK (китайский, японский и корейский), двухбайтовый пробел (Unicode \u3000
) составляет , а не , включенный в \s
для любой реализации, которую я пробовал до сих пор (Perl, .NET, PCRE, Python).Сначала вам нужно либо нормализовать свои строки (например, заменив все \u3000
на \u0020
), либо вам придется использовать набор символов, который включает эту кодовую точку в дополнение к любому другому пробелу, на который вы нацеливаетесь,например, [ \t\u3000]
.
Если вы используете Perl или PCRE, у вас есть возможность использовать сокращение \h
для горизонтального пробела , которое, по-видимому, включает однобайтовыйпробел, двухбайтовый пробел и табуляция, среди прочего.Подробности смотрите в потоке Match, но не в новых строках (Perl) .
Однако, эта краткая запись \h
не была реализована для .NET и C #,как я мог сказать.