Если вы говорите по-английски, например, по-английски, вы можете уйти, пропустив общие символы, если ваше слово остается однозначным. Например, «Hello world» может стать «Hll wrld», если ваш словарь содержит только Hello для соответствия Hll и world для соответствия wrld. Семитские языки, такие как арабский, на самом деле не имеют вокала на своем письменном языке, и людям по-прежнему удается их читать. Кроме того, другие правила, например, когда слово должно быть в верхнем регистре, могут использоваться для сокращения набора символов до символов нижнего регистра (при условии, что данный текст следует этим правилам).
Кроме того, хотя побайтное сжатие хорошо работает для текстов, фактический естественный язык может быть гораздо лучше сжат, если вы кодируете целые слова, поскольку размер словарного запаса очень ограничен (даже более ограничен, если вы посмотрите на ограниченный набор текстов) , Но это был не вопрос, я здесь не по теме.