PHP: чтение HTML-файла для чтения в автономном режиме - PullRequest
1 голос
/ 05 февраля 2012

Я использую функцию file_get_contents() для чтения URL, например:

$html = file_get_contents('www.mydomain.com');

Теперь, как мне изменить приведенный выше код или что я должен сделать, чтобы читать страницы в автономном режиме после сохранения в моей БД. Проблема в том, что на сохраненных страницах есть изображения и CSS, указывающие на извлеченный URL, что означает, что интернет должен быть включен для их чтения.

Как я могу сделать так, чтобы изображения и CSS также сохранялись. Я задавал аналогичный вопрос , прежде чем касаться формата mht / mhtml.

Ответы [ 2 ]

2 голосов
/ 05 февраля 2012

Один из способов сделать это, который потенциально опасен (вам придется очистить входные данные, если таковые имеются), но, безусловно, сработает, если ваш сервер является хорошо оборудованным сервером Linux, - это вызвать программу wget с правильные аргументы с использованием PHP-функции system, например:

system("wget --recursive --no-clobber --page-requisites \
        --html-extension --convert-links --no-parent $url");

После загрузки файлов вы можете поместить их в базу данных, хотя я должен спросить: какие преимущества даетбазу данных есть над файловой системой с целью хранения файлов?Конечно, я не знаю ваших конкретных обстоятельств;Я просто поднимаю вопрос на случай, если вы усложняете вещи, чем они должны быть.

2 голосов
/ 05 февраля 2012

Это то, что вы ищете?

http://www.phpclasses.org/package/1766-PHP-Build-MHT-MIME-archives-from-lists-of-files.html

http://www.wynia.org/wordpress/2006/12/making-mht-single-page-archive-files-with-php

Обратите внимание, что MHT является форматом, специфичным для MS, поэтому в приведенном выше примере используются библиотеки Windows.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...