RSS избежал HTML - PullRequest
       24

RSS избежал HTML

2 голосов
/ 09 марта 2011

Насколько я понимаю, "экранированный HTML" RSS выглядит примерно так:

HTML:

1 < 3

становится (RSS):

1 < 3

Итак, если это:

<img src="http://somehost/someimage?a=foo&amp;b=bar" />

Стать:

&lt;img src="http://somehost/someimage?a=foo&amp;amp;b=bar" /&gt;

(Обратите внимание на &amp;amp; Если да, то это недействительный RSS?

<description>
    ...
    &#60;img src="http://d.yimg.com/a/p/ap/20110309/capt.f6...02-0.jpg?x=91&amp;y=130&amp;q=85&amp;sig=6oI7fIgN0izc9olfgY56vw--" />
</description>

(Кроме того, тот факт, что закрытие> не * избежало плохого?)

Проблема с вышеприведенным , который у меня возникает, заключается в том, что как только вы декодируете первый слой сущностей (XML) для получения содержимого тега , вы получаете один длинный CDATA, который должен быть HTML. Проблема в том, что imageимеет только &, что является недопустимым объектом. Для огромного куска выше я получаю что-то вроде <img src="....?x=1&y=2" />, который не является допустимым HTML.

Я просто смотрю на дерьмовый HTML, который попал в RSS, или я что-то здесь упускаю?

1 Ответ

6 голосов
/ 29 июня 2011

вам нужно использовать CDATA Разделы

<description><![CDATA[ <img src="http://somehost/someimage?a=foo&amp;b=bar" /> ]]>
</description>
...