У меня есть XML-документ, который создается из некоторого контента, который люди копируют / вставляют из самых разных мест (хотя в основном это документы Word).
Это выглядит так:
<?xml version="1.0" encoding="UTF-8"?>
<response>
<data> <![CDATA[
(whatever was pasted)
]]></data>
</response>
Я всегда использовал кодировку UTF-8
или iso-8859-1
, но теперь кто-то ушел и скопировал / вставил символ Unicode U+001A
(0x1a
), и я не могу найти кодировка, которая примет это. Все, что я помещаю в файл XML (например, Firefox, Internet Explorer, XML Spy), говорит о том, что он недействителен, независимо от используемого типа кодировки.
Есть ли какая-то кодировка, которую я могу использовать, чтобы остановить падение файла, или мне нужно начать убирать все эти символы один за другим?