Рендеринг HTML-страницы и сохранение ее с помощью командной строки - PullRequest
5 голосов
/ 17 августа 2011

Я хотел бы загрузить веб-страницу и сохранить ее с помощью командной строки (хочу получить такое же поведение, как и для страницы сохранения, как и для полной страницы в Firefox или Chrome.)

Я пытался использовать wget и httrack, они правильно выдают html-файлы. Но в случае искаженного HTML браузер исправляет его при рендеринге и использует save, поскольку там мы получаем исправленный HTML, но этого не происходит в случае wget или htttrack.

Существует ли какой-либо инструмент, который рендерит страницу и сохраняет страницу вместе со всеми изображениями, флеш-памятью и всем остальным в локальном формате.

Ответы [ 5 ]

2 голосов
/ 17 августа 2011

Когда я хочу сохранить страницы для автономного использования, я использую плагин Firefox под названием «Записки». Это, конечно, не учитывает требования вашей командной строки. Но если вы используете такой инструмент, как «htmlunit» или что-то подобное, вы можете заставить браузер Firefox перейти на страницу, которую хотите сохранить.

1 голос
/ 16 июля 2014

Я почувствовал необходимость чего-то подобного сегодня (и пошел по пути xdotool).Вы можете найти мою версию (повторно используемый скрипт bash) по адресу: https://github.com/abiyani/automate-save-page-as

1 голос
/ 17 января 2012

Я не смог найти ничего другого, так что в итоге я открыл страницу в Firefox и нажал кнопку «Сохранить как» и сохранил ее. Написал скрипт для нее, используя firefox и xdotools для автоматизации всей задачи.

Спасибо за помощь и взгляды друзей.

1 голос
/ 18 августа 2011

Вы можете использовать curl или wget в сочетании с tidyhtml , т. Е.

    curl http://stackoverflow.com > page.html
    tidy page.html > page_clean.html

Tidy должен иметь возможность преобразовывать любую недопустимую разметку HTML в действительный XTML.

0 голосов
/ 17 августа 2011

Существует несколько сложных программ, которые делают именно это: https://launchpad.net/shotfactory

...