Точка, которая не может быть подчеркнута слишком сильно: Вы не должны ожидать каких-либо разумных предположений о кодировке для фрагмента текста, который настолько короток и имеет такой высокий процент простых старых символов ASCII.
О big5: chardet создает очень широкую сеть при проверке кодировок CJK. В big5 много неиспользуемых слотов, и chardet не исключает их. Эта строка недопустима big5, как вы узнали. На самом деле это действительно (но бессмысленно) big5_hkscs (который использовал много дыр в big5).
Существует огромное количество однобайтовых кодировок, которые соответствуют строке.
На этом этапе необходимо обратиться за внеполосной помощью. Погуглив "Kuzey и т. Д.", Вытащил турецкий сериал "Kuzey rüzgari", так что теперь у нас есть язык.
Это означает, что если он был введен человеком, знакомым с турецким языком, он может быть в cp1254, или iso_8859_3 (или _9), или mac_turkish. Все они производят бред для слова [Kaz ?? m] в конце. Согласно веб-сайту imdb, это имя персонажа, и это тот же бред, который был получен при декодировании с помощью cp1254 и iso-8859-9 (KazÄ ± m). Декодирование с вашим предложенным iso-8859-2 дает Kazäąm, который тоже выглядит не очень правдоподобно.
Вы можете обобщить это? Я так не думаю: -)
Я бы настоятельно рекомендовал, чтобы в таком случае вы расшифровали его, используя latin1 (чтобы не было искажено ни одного байта), и пометили запись как имеющую неизвестную кодировку. Вы должны также использовать минимальную длину отсечения.
Обновление Для чего стоит, the_two_bytes_in_the_character_name.decode (' utf8 ') выдает U + 0131 LATIN SMAL LETTER DOTLESS I, который используется на турецком и азербайджанском языках. Дальнейшее прибегание к помощи указывает, что Kazım - достаточно распространенное турецкое имя.