UTF-8 не является важным фактором, поскольку все стандартные кодировки Unicode (UTF-8, UTF-16, UTF-32) кодируют одно и то же пространство символов, просто по-разному.
Из вашего объяснения я вижу, что вы не хотите, чтобы 1,112,064 действительных кодовых точек Unicode?
Unicode 6.0 и ISO / IEC 10646: 2010 определяют 109,449 символов, но несколько из них - это то, что вы называете "персонажи".Какие из них попадают или не попадают в эту категорию, зависит от того, как вы считаете.Копирование и вставка могут привести к тому, что некоторые символы будут рассматриваться как идентичные друг другу, или могут вообще игнорироваться, в зависимости от ОС и программ, выполняющих копирование и вставку.
Однако, поскольку Unicode поддерживает прямую совместимость, некоторые системы будут корректно работатьсохранить символы, которые еще не были назначены.В конце концов, только то, что вы работаете в Windows XP и копируете и вставляете документ с символами, которые не были стандартизированы до 2009 года, не означает, что вы ожидаете, что они исчезнут.При таком способе мышления может быть миллион или около того дополнительных символов, хотя в некоторых местах их внешний вид может быть неразличим.