Как я могу преобразовать веб-сайт ссылок и документации TOC в один документ уценки? - PullRequest
0 голосов
/ 15 сентября 2018

Я хочу преобразовать веб-страницу технической документации, которая имеет большое дерево оглавления, которое перемещает другие страницы, в один документ уценки.Например:

https://docs.microsoft.com/en-us/cpp/cpp/cpp-language-reference?view=vs-2017
├── https://docs.microsoft.com/en-us/cpp/cpp/lexical-conventions?view=vs-2017
├── https://docs.microsoft.com/en-us/cpp/cpp/basic-concepts-cpp?view=vs-2017
├── ...

Technique-1 Загрузка всего сайта с HTTRACK и преобразование уценки с помощью pandoc

Я попытался загрузить весь сайт сHTTRACK и преобразование всех загруженных HTML-файлов в уценку с помощью pandoc с Makefile и присоединение этих файлов с помощью Java-программы.

Makefile:

SOURCE_DOCS := $(wildcard *.html)

EXPORTED_DOCS=\
 $(SOURCE_DOCS:.html=.markdown) 

RM=rm

PANDOC=pandoc

PANDOC_OPTIONS=--smart --standalone

PANDOC_HTML_OPTIONS=-f html -t markdown

%.markdown : %.html
    $(PANDOC) $(PANDOC_OPTIONS) $(PANDOC_HTML_OPTIONS) -o $@ $<

.PHONY: all clean

all : $(EXPORTED_DOCS)

clean:
    - $(RM) $(EXPORTED_DOCS)....

Но HTTRACK загрузил HTML-файлы случайным образом.В настоящее время у меня 385 HTML-файлов и организация всех этих файлов в правильном порядке вручную невозможна.Есть ли хитрость для преобразования страниц документации по дереву TOC в один документ по уценке?

Дополнительные примеры веб-сайтов с документацией по дереву TOC:

https://git -scm.com / book / en / v2

https://docs.microsoft.com/en-us/ef/ef6/

https://docs.oracle.com/javase/specs/jls/se10/html/index.html

...