Я работаю над программным обеспечением для блогов. Иногда пользователям удается вставить управляющие символы в свои записи в блоге (например, недавно кому-то удалось вставить символ вертикальной вкладки, & # xB;). Когда мы отображаем сообщения в RSS-ленте, анализаторам XML не удается проанализировать управляющий символ и объявить фид недействительным.
Один из способов исправить это - выполнить посимвольное сканирование строки и удалить все недопустимые символы. Это будет означать ведение списка недопустимых символов. Кто-нибудь знает, существует ли такой список уже?
Или, может быть, кто-то знает библиотеку, которая уже решает эту проблему? Я пишу на C #, но я могу портировать библиотеку, написанную на другом языке.
Или есть какое-то решение, которое мне не хватает?
Обратите внимание, что это не похоже на юникод или проблему с выходом. Канал RSS отображает квадратные скобки, китайские иероглифы, крылышки, умные цитаты и т. Д.. Это просто определенные управляющие символы, которые, кажется, делают фид не валидным.