При экспорте из текста HTML в лист Excel я пытаюсь сохранить основные форматирования, такие как разрывы строк HTML (<br>
, <p>
), списки (<ol>
, <ul>
) и т. Д.
Пример ввода:
<p>This is a test.</p>
<p>This is another<br>test.</p>
<ul>
<li>10</li>
<li>20</li>
<li>30</li>
</ul>
<p>End.</p>
Пример вывода:
This is a test.
This is another
test.
- 10
- 20
- 30
End.
Бесплатная утилита HTMLAsText от известного NirSoft парень, кажется, делает именно то, что я хочу, к сожалению, он поставляется без исходного кода:
Даже после изучения ок.Здесь 20 похожих вопросов о переполнении стека и просмотре Google в течение нескольких часов. Самое близкое, что я могу найти, это эта статья проекта кода .
Поэтому мой вопрос:
Кто-нибудь знает о классе / библиотеке, которые могут преобразовывать HTML в обычный текст при сохранении базового форматирования?
Обновление 2013-05-10
Я закончилс одной функцией, см. полный код на Pastebin .