Question

Цель

Преобразовать файл уценки с HTML внутри в чистую Уценку

Код: `in.md`

# Title

## Subtitle

### Sub-subtitle

<span><div>Line before image</div><div><br></div><div><img src="img.png" width=404 height=255><br></div><div><br></div><div>Line after image</div><div><br></div><div>Text</div></span><h1><span>Heading 1</span></h1><span><div>Text</div><div><br></div></span><h2><span>Heading 2</span></h2><span><div>Text</div></span><h3><span>Heading 3</span></h3><div><span>Text</span></div><div><span><br></span></div><span><div>Line before code</div><code><pre><code><div>Code line 1</div><div>Code line 2</div><div>Code line 3</div>

Строка после кода

Ссылка

Неупорядоченная пуля 1
Неупорядоченная пуля 2

Заказанная пуля 1
Заказанная пуля 2

Строка кавычки 1 Строка кавычки 2

Текст

Курсив

Текст

Текст уценки Подробнее Текст уценки

Попытки

Я пробовал несколько скриптов Pandoc:

Попытка 1

pandoc -f markdown -t markdown_strict --atx-headers in.md -o out.md

Добавлены разрывы строк
Без преобразования

Извлекает из результата

<h3>
<span>H3</span>
</h3>
<span>txt</span>

<span><br></span>

и

<ul>
<li>
bullet<br>
</li>
<li>
list<br>
</li>
</ul>

Повторное выполнение команды преобразования для результата ничего не дает.

Попытка 2

pandoc -f markdown -t markdown_strict-native_divs-native_spans --atx-headers in.md -o out.md

Результат

То же, что и выше

Попытка 3

pandoc -f markdown-markdown_in_html_blocks -t markdown_strict-native_divs-native_spans --atx-headers in.md -o out.md

Результат

То же, что и выше, с меньшим количеством разрывов строк

Попытка 4

pandoc -f markdown -t markdown_strict-native_divs-native_spans-raw_html --atx-headers in.md -o out.md

Извлечение из результата

Все элементы HTML удаляютсяно никакая уценка не применимаd:

Heading 1
Text

Heading 2
Text

Heading 3
Text

и

Unordered bullet 1
Unordered bullet 2
Unordered bullet 3

Разное

Я не могу настроить способ создания in.md.
Pandoc не обязательно должен быть частью решения.Однако использование Pandoc, по-видимому, имеет смысл, поскольку (1) преобразование должно выполняться конвейером выпуска DevOps Azure, а выполнение простой команды прекрасно вписывается в этот рабочий процесс и (2) желаемый результат - просто один чистый файл Markdown.
Я могу написать решение с помощью Regex (и буду, если ни одно другое решение не имеет смысла), но если команда Pandoc (или другое решение) выполнит ее, это кажется менее склонным для моего человекаошибка.

Спасибо за любые мысли или советы.

tarleb · Answer 1 · 15 ноября 2018

Мое предложение состоит в том, чтобы сначала преобразовать полный документ в HTML, а затем преобразовать результат в нужный формат разметки:

pandoc --from=markdown --to=html in.md | \
    pandoc --from=html --to=markdown-raw_html-native_divs --output out.md

Обратите внимание, что входные данные содержат недопустимый HTML (например, div не должно присутствовать в элементах span или code в соответствии со стандартом HTML), поэтому встроенный HTML не совсем означает, что он должен означать .

Также можно заметить некоторые промежутки, содержащие только новые строки, которые делают вывод выглядящим некрасивым. Лучшим решением для этого было бы удалить их через фильтр Пандока .

Удалить элементы HTML внутри Markdown

Цель

Код: `in.md`

Попытки

Попытка 1

Извлекает из результата

Попытка 2

Результат

Попытка 3

Результат

Попытка 4

Извлечение из результата

Разное

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Удалить элементы HTML внутри Markdown

Цель

Код: in.md

Попытки

Попытка 1

Извлекает из результата

Попытка 2

Результат

Попытка 3

Результат

Попытка 4

Извлечение из результата

Разное

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы

Код: `in.md`