Я пишу php-скрипт, который разбирает ленту NewsML и вставляет ее в Wordpress как пост. В основном мне нужны только FirstCreated, HeadLine, KeywordLine и тело из XML-канала. Я использовал SimpleXML для разбора NewsML. Моя единственная проблема - это часть тела XML. Он содержит теги html5, которые тоже анализируются, но мне нужно, чтобы все тело было "неповрежденным".
...
<ContentItem>
<MediaType FormalName="Text" />
<Format FormalName="CTKXHTML" />
<MimeType FormalName="text/xml" />
<Characteristics>
<SizeInBytes>5510</SizeInBytes>
</Characteristics>
<DataContent>
<body xmlns="http://newsml.ctk.cz/ns/ctkxhtml.xsd">
<p>text</p>
<ul><li>text1</li><li>text2</li></ul>
<p>another text</p>
</body>
</DataContent>
...
Мне нужно получить содержимое элемента body в виде строки с тегами html.