Цель
Преобразовать файл уценки с HTML внутри в чистую Уценку
Код: in.md
# Title
## Subtitle
### Sub-subtitle
<span><div>Line before image</div><div><br></div><div><img src="img.png" width=404 height=255><br></div><div><br></div><div>Line after image</div><div><br></div><div>Text</div></span><h1><span>Heading 1</span></h1><span><div>Text</div><div><br></div></span><h2><span>Heading 2</span></h2><span><div>Text</div></span><h3><span>Heading 3</span></h3><div><span>Text</span></div><div><span><br></span></div><span><div>Line before code</div><code><pre><code><div>Code line 1</div><div>Code line 2</div><div>Code line 3</div>
Строка после кода
- Неупорядоченная пуля 1
- Неупорядоченная пуля 2
- Заказанная пуля 1
- Заказанная пуля 2
Строка кавычки 1 Строка кавычки 2
Текст
Курсив
Текст
Текст уценки Подробнее Текст уценки
Попытки
Я пробовал несколько скриптов Pandoc:
Попытка 1
pandoc -f markdown -t markdown_strict --atx-headers in.md -o out.md
Добавлены разрывы строк
Без преобразования
Извлекает из результата
<h3>
<span>H3</span>
</h3>
<span>txt</span>
<span><br></span>
и
<ul>
<li>
bullet<br>
</li>
<li>
list<br>
</li>
</ul>
Повторное выполнение команды преобразования для результата ничего не дает.
Попытка 2
pandoc -f markdown -t markdown_strict-native_divs-native_spans --atx-headers in.md -o out.md
Результат
То же, что и выше
Попытка 3
pandoc -f markdown-markdown_in_html_blocks -t markdown_strict-native_divs-native_spans --atx-headers in.md -o out.md
Результат
То же, что и выше, с меньшим количеством разрывов строк
Попытка 4
pandoc -f markdown -t markdown_strict-native_divs-native_spans-raw_html --atx-headers in.md -o out.md
Извлечение из результата
Все элементы HTML удаляютсяно никакая уценка не применимаd:
Heading 1
Text
Heading 2
Text
Heading 3
Text
и
Unordered bullet 1
Unordered bullet 2
Unordered bullet 3
Разное
Я не могу настроить способ создания in.md
.
Pandoc не обязательно должен быть частью решения.Однако использование Pandoc, по-видимому, имеет смысл, поскольку (1) преобразование должно выполняться конвейером выпуска DevOps Azure, а выполнение простой команды прекрасно вписывается в этот рабочий процесс и (2) желаемый результат - просто один чистый файл Markdown.
Я могу написать решение с помощью Regex (и буду, если ни одно другое решение не имеет смысла), но если команда Pandoc (или другое решение) выполнит ее, это кажется менее склонным для моего человекаошибка.
Спасибо за любые мысли или советы.