jsoup: удаление тегов iframe - PullRequest
0 голосов
/ 02 сентября 2011

Я использую jsoup 1.6.1 и сталкиваюсь с проблемой, когда пытаюсь удалить тег iframe из html.Когда у iframe нет никакого тела (т.е.) метод remove () удаляет все содержимое после тега thet.Вот мой пример кода.

String html ="<p> This is start.</p><iframe frameborder="0" marginheight="0" /><p> This is end</p>";
Document doc = Jsoup.parse(html,"UTF-8");<br>
doc.select("iframe").remove();<br>
System.out.println(doc.text());

Он возвращается ко мне -

This is start.

Но я ожидаю результата -

This is start. This is end

Заранее спасибо

1 Ответ

1 голос
/ 23 апреля 2012

Появляется закрывающий тег для iframe. Вы не можете использовать самозакрывающийся тег:

http://msdn.microsoft.com/en-us/library/ie/ms535258(v=vs.85).aspx /686257/stroka-posle-iframe-ne-vidna http://www.w3resource.com/html/iframe/HTML-iframe-tag-and-element.php

Итак, Jsoup следует спецификации и берет все, что следует тегу iframe, и использует его в качестве тела. При удалении iframe вместе с ним удаляется «Это конец».

...