Согласно Википедии , стандарт специально запрещает это.Хотя алгоритм UTF-8 позволяет вам использовать больше байтов, чем необходимо, путем заполнения нулями, стандарт диктует, что существует взаимно-однозначное отображение между кодовыми точками и последовательностями кодирования байтов.
Слишком длинное кодирование, подобноеодин, который вы представляете, обрабатывается как недопустимая последовательность байтов.
Аналогично, вам не разрешено кодировать кодовые точки выше U+10FFFF
, хотя алгоритм может получить вас до U+7FFFFFFF
.Вам разрешено , однако вы можете кодировать кодовые точки, которые не были назначены (то есть, которые еще не имеют значения).