Способ извлечь HTML и все вложения скачать с сайта - PullRequest
0 голосов
/ 01 октября 2010

Мне бы хотелось иметь возможность запускать скрипт (или что-то в этом роде), который будет «загружать» определенную веб-страницу (html) и все ее вложения (word docs), чтобы я мог хранить и управлять частной коллекцией.

Вот история ... Есть этот сайт, который я часто использую для исследований.На этом сайте есть много HTML-страниц, которые содержат текст и ссылки на скачивание документов (.pdf и .docs).Существует угроза того, что владелец (правительство США) собирается «приватизировать» информацию, которую я считаю фиктивной.Однако существует эта угроза.Я хотел бы иметь возможность извлечь весь HTML-текст и копии всех вложений, чтобы я мог разместить собственную (на своем рабочем столе) версию данных для личного использования (на всякий случай).Есть ли простой способ сделать это?

Примечание. У меня нет FTP-доступа к этому веб-серверу, только доступ к отдельным веб-страницам и вложениям.

Ответы [ 2 ]

1 голос
/ 04 декабря 2012

Я использую wget для этой цели.

wget --mirror --no-parent http://remotesite.gov/documents/

Ключ при зеркалировании части сайта - убедиться, что он не поднимается за пределы интересующего вас каталога. Вот что делает флаг --no-parent.

1 голос
/ 01 октября 2010

Существует масса программ, способных сделать это.Поиск в Google по запросу " offline browser " даст довольно много результатов.Хотя я не слишком заинтересован в том, чтобы заново изобрести колесо, для самостоятельного решения я бы, вероятно, использовал бы библиотеку cURL для PHP, но опять же, это зависит от того, на каких языках программирования вы работаете.знакомы с.

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...