Сохранение сайта на основе JavaScript в html-файлах с сохранением формата - PullRequest
0 голосов
/ 06 марта 2019

Я искал в меру своих возможностей, не нашел ответа.

Я пытаюсь сохранить такие страницы: http://www.folkbibeln.it/?book=1joh&chapter=1&verse=1

Для разделения html-страниц и сохранения формата. Я мог бы взять каждую страницу, скопировать, вставить в программное обеспечение для обработки текста и сохранить как HTML, но это заняло бы часы за часами. Я думаю, что мог бы быть некоторый код, который я мог бы использовать, чтобы автоматизировать это? Я просто не могу понять это, так как он не действует как прямой HTML-сайт.

Python - это язык, который я обычно использую.

Ответы [ 2 ]

0 голосов
/ 06 марта 2019

В качестве метода грубой силы вы можете использовать Безголовый браузер , чтобы загрузить каждую страницу для вас и сохранить ее в файл.

Но, как уже упоминалось в mplungjan, все тексты находятся в js-файлах.

Вы можете сохранить эти файлы на свой диск, затем взять скрипт, который создает html-страницу, и написать небольшой скрипт nodejs, который создаст все html-файлы для вас. (Возьмите оригинальный скрипт в качестве шаблона.)
Но nodejs не python

В зависимости от того, что вы пытаетесь сделать с текстами, нетрудно конвертировать эти js-файлы в JSON и анализировать их, или непосредственно в структуру данных python, которую вы можете импортировать и обработать в каком-то скрипте вашего выбор.

Edit:

Во второй взгляд, я только что увидел это: http://www.folkbibeln.it/chapters/1joh1.html

Похоже, что вам нужны файлы в виде обычного html, вам просто нужно их загрузить.

0 голосов
/ 06 марта 2019

Весь текст в файлах JS.Вы загружаете URL, который вы нам дали.Нажмите Ctrl-S и выберите веб-страницу завершена.Тогда у вас будет ВСЕ текст в папке 1 Joh 1 – Svenska Folkbibeln_files. Вы не сможете сохранить как отформатированный текст, если не отобразите JS в js-файлах

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...