Я только что работал с текстовым файлом сомнительной кодировки и смог найти проблемные символы, используя этот вопрос .
Где я могу найти список допустимых шестнадцатеричных диапазонов для символов в различных кодировках?
Вне моей головы, я могу думать о следующих текстовых кодировках:
UTF-8
UTF-16
ASCII
EBCDIC
LATIN-1