C3 AF C2 BB C2 BF
выглядит как двойная кодировка UTF-8.Кодировка спецификации UTF-8 составляет EF BB BF
.Если бы вы рассматривали каждый из них как отдельный символ и кодировали UTF-8, вы бы получили последовательность, которую вы видите.
Таким образом, ваш документ поврежден.Что-то берет документ, содержащий спецификацию UTF-8, и рассматривает его как расширенный ASCII.Если вы не можете исправить документы в источнике, я был бы склонен искать эту конкретную последовательность в начале файла и удалять ее, если она есть.
Если в рассматриваемых документах используется другой расширенный ASCIIперсонажи, есть большая вероятность, что они тоже будут сломаны.