Я пишу утилиту для экспорта заметок evernote в Outlook по расписанию. API Outlook требуется простой текст, а Evernote выводит версию документа в формате XHTML для заметки в виде простого текста. Мне нужно удалить все теги и удалить исходный документ XHTML, встроенный в файл экспорта Evernote.
В основном мне нужно повернуть;
<note>
<title>Test Sync Note 1</title>
<content>
<![CDATA[ <?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE en-note SYSTEM "http://xml.evernote.com/pub/enml.dtd">
<en-note bgcolor="#FFFFFF">
<div>Test Sync Note 1</div>
<div>This i has some text in it</div>
<div> </div>
<div> </div>
<div>and a second line</div>
</en-note>
]]>
</content>
<created>20081028T045727Z</created>
<updated>20081028T051346Z</updated>
<tag>Test</tag>
</note>
В
Test Sync Note 1
This i has some text in it
and a second line
Я могу легко разобрать секцию CDATA и получить только 4 строки текста, но мне нужен надежный способ убрать div, unescape и разобраться с любым дополнительным HTML, который мог бы там пробраться.
Я предполагаю, что есть некоторая комбинация MS API, которая сделает эту работу, но я этого не знаю.