U + FFFD (десятичное 65533) - это «символ замены».Когда декодер обнаруживает недопустимую последовательность байтов, он может (в зависимости от его конфигурации) заменить the на поврежденную последовательность и продолжить.
Одной из распространенных причин «поврежденной» последовательности является то, что был применен неправильный декодер.Например, декодером может быть UTF-8, но страница фактически кодируется с помощью ISO-8859-1 (по умолчанию, если другой не указан в заголовке типа содержимого или эквивалентном).вы даже передаете строку в escapeHtml
, «é» уже заменено на «�»;метод кодирует это правильно.
На рассматриваемой странице используется кодировка ISO-8859-1.Убедитесь, что вы используете этот декодер при преобразовании извлеченного ресурса в String
.