Насколько я понимаю, "экранированный HTML" RSS выглядит примерно так:
HTML:
1 < 3
становится (RSS):
1 &lt; 3
Итак, если это:
<img src="http://somehost/someimage?a=foo&b=bar" />
Стать:
<img src="http://somehost/someimage?a=foo&amp;b=bar" />
(Обратите внимание на &amp;
Если да, то это недействительный RSS?
<description>
...
<img src="http://d.yimg.com/a/p/ap/20110309/capt.f6...02-0.jpg?x=91&y=130&q=85&sig=6oI7fIgN0izc9olfgY56vw--" />
</description>
(Кроме того, тот факт, что закрытие> не * избежало плохого?)
Проблема с вышеприведенным , который у меня возникает, заключается в том, что как только вы декодируете первый слой сущностей (XML) для получения содержимого тега , вы получаете один длинный CDATA, который должен быть HTML. Проблема в том, что имеет только &
, что является недопустимым объектом. Для огромного куска выше я получаю что-то вроде <img src="....?x=1&y=2" />
, который не является допустимым HTML.
Я просто смотрю на дерьмовый HTML, который попал в RSS, или я что-то здесь упускаю?