UTF
UTF - это семейство многобайтовых схем кодирования, которые могут представлять Unicode кодовые точки, которые могут представлять собой до 2 ^ 31 [приблизительно 2 миллиардов] символов. UTF-8 - это гибкая система кодирования, которая использует от 1 до 4 байтов для представления первых 2 ^ 21 [примерно 2 миллионов] кодовых точек.
Короче говоря: любой символ с кодовой точкой / порядковым представлением ниже 127, то есть 7-битный безопасный ASCII, представлен той же 1-байтовой последовательностью, что и большинство других однобайтовых кодировок. Любой символ с кодовой точкой выше 127 представлен последовательностью из двух или более байтов, причем особенности кодирования лучше всего объяснить здесь .
ISO-8859
ISO-8859 - это семейство однобайтовых схем кодирования, используемых для представления алфавитов, которые могут быть представлены в диапазоне от 127 до 255. Эти различные алфавиты определены как «части» в формате ISO -8859- n , наиболее знакомым из них, вероятно, является ISO-8859-1 aka 'Latin-1'. Как и в UTF-8, 7-битный безопасный ASCII остается неизменным независимо от используемого семейства кодирования.
Недостатком этой схемы кодирования является ее неспособность приспособить языки, содержащие более 128 символов, или безопасно отображать более одного семейства символов одновременно. Кроме того, кодировки ISO-8859 потеряли популярность с ростом UTF. Рабочая группа ИСО, ответственная за ее расформирование в 2004 году, оставила техническое обслуживание своему родительскому подкомитету.