Какой самый простой способ преобразовать дамп данных SO из HTML обратно в Markdown? - PullRequest
6 голосов
/ 20 августа 2009

Я только что получил в руки Stackoverflow дамп данных , и я разочарован, увидев, что поле "Текст" сообщений находится в HTML, а не в Markdown. Я подозреваю, что в исходной базе данных есть Markdown, потому что именно это я вижу, если пытаюсь отредактировать ответ.

Я хочу восстановить Markdown из большого набора ответов. Я буду обрабатывать сотни записей в пакетном режиме, используя инструменты командной строки или какую-то библиотеку Lua или C, поэтому интерактивный инструмент, такой как wmd Markdown editor , не подходит. Могут ли люди сказать Какие инструменты доступны, чтобы помочь мне восстановить Markdown из дампа данных Stackoverflow?


(Смежный вопрос, не дубликат: Преобразование HTML обратно в Markdown в wmd .)

Ответы [ 2 ]

5 голосов
/ 20 августа 2009
2 голосов
/ 15 сентября 2009

взгляните на Пандока: http://johnmacfarlane.net/pandoc/

В состав pandoc входит инструмент html2markdown, который работает довольно хорошо, и программа запускается из командной строки, что делает пакетное преобразование довольно приятным.

вот справочная страница: http://johnmacfarlane.net/pandoc/html2markdown.1.html

...