Байты, для которых первый бит установлен в 0, являются обычными символами ASCII. Байты, чей первый бит установлен в 1, являются частью символа UTF-8.
Первый байт в каждом символе UTF-8 имеет свой второй бит, установленный в 1, так что у байта есть старшие биты 11
. Каждый следующий байт, принадлежащий одному и тому же символу UTF-8, начинается с 10
.
Первый байт каждого символа UTF-8 дополнительно указывает, сколько из следующих байтов принадлежит символу, в зависимости от количества битов, которые установлены в 1 в старших значащих битах этого байта.
Подробнее см. На странице Википедия для UTF-8.