Один из моих проектов извлекает документ из Интернета и читает его.Этот документ предоставлен третьей стороной и не изменится (содержимое будет изменено, но форматирование и другие материалы не изменятся).Проблема состоит в том, что этот документ включает в себя содержимое, скопированное и вставленное из Word, который является UTF-8, однако документ закодирован в ISO-8858-1, поэтому эти символы сохраняются в базе данных как «?».
Если я пропущу текст и перекодирую его в UTF-8, вместо умных кавычек и тире, я просто получу два мусорных символа.
Как я могу преобразовать этот ISO-8859-1документ с символом UTF-8 возвращается в UTF-8, чтобы его можно было отобразить так, как он был изначально создан?