Представление букв в двоичном виде требует некоторого стандарта. В противном случае компьютеры, отправляющие биты по сети друг другу, никогда не смогут понять, в какие буквы превратить эти биты!
Существует множество стандартов для кодировки символов:
ASCII , UTF-8 , UTF-16 , EBCDIC и more !
Но почему буквы ( почти ) всегда преобразуются в 8-битные?
Прежде чем рассматривать буквы вообще, двоичная система представляет собой просто систему счисления с двумя символами. Вы можете считать, сколько хотите ...
0, 1, 10, 11, 100, 101, 110, 111...
Посмотрите, как это похоже на десятичную систему:
0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13...
Компьютеры предназначены для хранения чисел в байтах . Байт всегда имеет длину 8 битов, что означает, что в одном байте можно хранить любое число от 0 до 255.
Теперь с десятичными числами вы можете назначать буквы каждому числу от 1 до 26:
a=1, b=2, c=3 ... z=26
В двоичном коде вы можете сделать то же самое:
a=0, b=10, c=11 ... z=11001
Здесь мы попадаем в кодировку символов. ASCII - очень распространенная система для кодирования букв в числа.
В стандарте ASCII вы можете видеть это A=65
, что составляет 01000001
в двоичном виде. Поскольку большинство компьютеров и программного обеспечения понимают ASCII (или UTF-8 ), вы можете быть уверены, что загрузка текстового файла с 01000001
в необработанных данных приведет к тому, что этот символ будет отображаться как A
на любом компьютер.
Если вы хотите представить символ нестандартным способом, возможно, используя 9 бит, вы можете сделать это абсолютно! Но это означает, что вы используете свою собственную систему кодирования, и другие программы / компьютеры / люди не смогут преобразовать двоичный код обратно в буквы без вашей сопроводительной документации.