У нас есть CMS с несколькими тысячами текстовых / html-файлов. Оказывается, пользователи загружали текстовые / html-файлы, используя различные кодировки символов (utf-8, utf-8 w BOM, windows 1252, iso-8859-1).
Когда эти файлы считываются и записываются в ответ, наша структура CMS выдает кодировку = UTF-8 для атрибута content-type ответа.
Из-за этого любой контент, не относящийся к UTF-8, отображается пользователю с искаженными символами (?, Черные бриллианты и т. Д., Когда нет правильного перевода символов из "родной" кодировки символов в UTF-8). Кроме того, к этим документам не прикреплены метаданные, обозначающие кодировку. Насколько мне известно, единственный способ узнать, что это за кодировка, это посмотреть на них в приложении для визуализации текста (Firefox, Notepadd ++ и т. "на содержание, чтобы увидеть, если оно" выглядит "правильно.
Кто-нибудь знает, как автоматически / интеллектуально конвертировать файлы неизвестной кодировки в UTF-8? Я читал, что это может быть достигнуто с помощью статистического моделирования, но это то, что у меня над головой.
Мысли о том, как лучше всего подойти к проблеме?
Спасибо