Как я могу преобразовать определенную веб-страницу в уценку или Asciidoc с Pandoc? - PullRequest
0 голосов
/ 05 мая 2018

Я хочу преобразовать документацию по спецификации Java в легко редактируемые форматы (markdown или asciidoc), загрузить GitHub Gist и настроить (добавив мой опыт кода и заметки.) Я хочу конвертировать в что-то вроде этого

Я использую инструмент под названием pandoc, который позволяет конвертировать HTML в уценку.

Я попробовал следующее:

Техника 1 Я пытался преобразовать всю таблицу компонентов спецификации Java на index.html

pandoc -f html -t markdown -o test2.md  
https://docs.orac le.com/javase/specs/jls/se10/html/index.html`

Я получил это: tes2.md (Я не загружал здесь, потому что файл содержания слишком длинный)

Проблема 1: Этот файл уценки не содержит содержимого документации по спецификации Java. Я ожидал, что получил markdown toc (таблица компонентов) и содержимое документации спецификации java в файле уценки, например this `

Проблема 2: Когда я нажимаю на ссылки в этом файле уценки, я получаю страницу ошибки 404.

Техника 2 (лучше, чем техника 1) Я загрузил все файлы HTML TOC с HTTrack и попытался преобразовать все файлы отдельно.

pandoc -f html-native_divs-native_spans -i jls-1.html -t markdown -o test2.md  

Задача 1 : Я получил следующий файл уценки, в котором есть ссылки на таблицы компонентов, которые нельзя перенаправить в другой раздел того же документа. Когда я нажимаю на эти ссылки, они возвращают внешнюю страницу GitHub следующим образом: https://gist.github.com/lostdinar2/jls-1.html#jls-1.1 который не доступен. test3.md

Демонстрация задачи 1 :

1) Я хочу преобразовать эту внутреннюю ссылку HTML-идентификатора (#) во внутреннюю ссылку уценки, которая перенаправляет в другой раздел того же документа

<dt><span class="section"><a href="jls-2.html#jls-2.2">2.2. The Lexical Grammar</a></span></dt>

[link text](#abcd)

2) Но pandoc не может преобразовать эти ссылки во внутреннюю ссылку уценки. Pandoc создает внешнюю ссылку, например: https://gist.github.com/lostdinar2/jls-1.html#jls-1.1

Есть ли параметр pandoc, чтобы это исправить? Я выполняю поиск в документации pandoc, но не могу выполнить эту функцию.

...