Я хочу преобразовать веб-страницу технической документации, которая имеет большое дерево оглавления, которое перемещает другие страницы, в один документ уценки.Например:
https://docs.microsoft.com/en-us/cpp/cpp/cpp-language-reference?view=vs-2017 ├── https://docs.microsoft.com/en-us/cpp/cpp/lexical-conventions?view=vs-2017 ├── https://docs.microsoft.com/en-us/cpp/cpp/basic-concepts-cpp?view=vs-2017 ├── ...
Technique-1 Загрузка всего сайта с HTTRACK и преобразование уценки с помощью pandoc
Я попытался загрузить весь сайт сHTTRACK и преобразование всех загруженных HTML-файлов в уценку с помощью pandoc с Makefile и присоединение этих файлов с помощью Java-программы.
Makefile:
SOURCE_DOCS := $(wildcard *.html) EXPORTED_DOCS=\ $(SOURCE_DOCS:.html=.markdown) RM=rm PANDOC=pandoc PANDOC_OPTIONS=--smart --standalone PANDOC_HTML_OPTIONS=-f html -t markdown %.markdown : %.html $(PANDOC) $(PANDOC_OPTIONS) $(PANDOC_HTML_OPTIONS) -o $@ $< .PHONY: all clean all : $(EXPORTED_DOCS) clean: - $(RM) $(EXPORTED_DOCS)....
Но HTTRACK загрузил HTML-файлы случайным образом.В настоящее время у меня 385 HTML-файлов и организация всех этих файлов в правильном порядке вручную невозможна.Есть ли хитрость для преобразования страниц документации по дереву TOC в один документ по уценке?
Дополнительные примеры веб-сайтов с документацией по дереву TOC:
https://git -scm.com / book / en / v2
https://docs.microsoft.com/en-us/ef/ef6/
https://docs.oracle.com/javase/specs/jls/se10/html/index.html