Чтобы быстро попытаться ответить на ваши конкретные вопросы.
1: определенная комбинация битов представляет определенный символ. Один символ может храниться в нескольких байтах.
2: Краткая информация и различия между упомянутыми вами кодировками.
ASCII
Включает определения для 128 символов.
ANSI
Имеет больше символов, чем ASCII, но все еще помещается в октет. Требуется кодовая страница.
UTF-8
Это может быть использовано для представления любого символа Unicode. Есть намного больше символов Unicode, чем ASCII. Каждый символ хранится в одном-четырех октетах данных.
UTF-16
Аналогичен UTF-8, но базовый блок составляет 16 бит. Если вы просто используете английский, то вы тратите 8 бит на каждый символ.
3: Кодовая страница - это то, что указывает компьютеру, какой (комбинация битов) относится к какому символу. Unicode не нуждается в кодовых страницах, так как каждый символ имеет свою уникальную битовую комбинацию. ANSI имеет кодовые страницы, потому что он имеет только 256 доступных символов. Например, если вы работаете на арабском компьютере, в качестве кодовой страницы вам будет задан арабский язык, и арабские символы могут отображаться.
4: Метод преобразования зависит от набора символов, в который вы конвертируете, и от используемых кодовых страниц (если есть). Некоторые преобразования могут быть невозможны. UTF-8 обратно совместим с ASCII, а это означает, что если ваш текст содержит только первые 128 символов США, он точно такой же, как и тот же текст в кодировке ASCII.
Этот ответ был временным и может содержать ошибки, исправления приветствуются.