в общем случае невозможно определить кодировку символов, за исключением случаев, когда в тексте имеется специальная отметка, обозначающая кодировку.Вы можете эвристически определить кодировку, используя словари, содержащие слова с символами, которые присутствуют только в некоторых кодировках.
Это, конечно, может быть только эвристикой, и вам нужно отсканировать весь текст.
Пример: «английский текст может быть написан в нескольких кодировках».Это предложение может быть написано, например, с использованием немецкой кодовой страницы.Он неотличим от большинства «западных» кодировок (включая UTF-8), если только вы не добавите некоторые специальные символы (например, ä), которых нет в ASCII.