Я пытаюсь использовать wget
с параметром -p для загрузки определенных документов и изображений, связанных в HTML.
Проблема в том, что сайт, на котором размещен HTML, имеет некоторую не HTML информацию, предшествующую HTML. Это приводит к тому, что wget
не интерпретирует документ как HTML и не выполняет поиск изображений.
Есть ли способ заставить wget
убрать первые X строк и / или принудительно искать изображения?
Пример URL:
Первые строки содержания:
<DOCUMENT>
<TYPE>S-4
<SEQUENCE>1
<FILENAME>ds4.htm
<DESCRIPTION>FORM S-4
<TEXT>
<HTML><HEAD>
<TITLE>Form S-4</TITLE>
Последние строки содержания:
</BODY></HTML>
</TEXT>
</DOCUMENT>
РЕДАКТИРОВАТЬ: Решения в PHP, безусловно, принимаются.