Проблема кодировки символов - символы, заменяемые случайными символами после сохранения в Textarea - PullRequest
0 голосов
/ 25 февраля 2020

Я работаю со сторонней компанией, и я пытаюсь / надеюсь определить причину проблемы с кодировкой символов, прежде чем поднять ее вместе с ними.

В этой компании есть пользовательское перетаскивание и дроп редактор для разработки сайтов на своей платформе. В редакторе у них есть виджет Raw HTML, который я могу перетащить и добавить свой собственный контент. Проблема в том, что когда я копирую HTML со старого сайта, используя инструмент инспектора, и вставляю его в свой виджет, все апострофы и двойные кавычки заменяются на 'jibberi sh'. У меня также возникает та же проблема, когда я пытаюсь вставить содержимое в блокнот, notepad ++, великолепные редакторы, а затем вставить его в редактор Raw HTML.

Вот запись проблемы и несколько примеров: https://streamable.com/phwn2

Вот известные символы, которые заменяются и что они заменяются

  • 'превращается в

  • , превращается в

  • , превращается в

  • + превращается в (пробел)

  • Å превращается в… 1033 *

  • «остается как»

  • 'остается как'

Кто-нибудь видит шаблон с этими символами или знает, что может быть причиной замены этих символов

1 Ответ

1 голос
/ 25 февраля 2020

Сайт, вероятно, имеет кодировку UTF-8, и редактор компании может использовать что-то вроде кодировки Windows -1252. В вашем первом примере правильная одинарная кавычка имеет кодировку UTF-8 e2 80 99. Когда каждый из этих байтов читается программой, использующей Windows -1252, вы получаете «маленькую латинскую букву a с круговым сплетением» (e2), [ undefined] 80 и "товарный знак" (99). Я не проверял другие преобразования. Если это проблема, то вы можете обойти эту проблему, сначала преобразовав скопированные символы в целевую кодировку с помощью iconv, а затем вставьте в редактор компании.

...