Это кодировка кодовой точки, которая занимает больше единиц кода, чем необходимо.
Например, U + 0020 представлен в UTF-8 одним байтом 0x20
. Если вы декодируете два байта 0xc0 0xa0
обычным способом, вы все равно получите U + 0020, но это неверное представление.
Исправление Unicode # 1 содержит больше информации, особенно в таблице 3.1B.