Использовать SimpleHtmlDOM + Логин? - PullRequest
0 голосов
/ 27 июля 2010

Я использую SimpleHtmlDOM PHP довольно успешно, чтобы очистить некоторые из моих любимых веб-страниц.Однако некоторые из этих страниц требуют, чтобы я вошел в систему, прежде чем смогу получить информацию, которая мне действительно нужна.Кто-нибудь знает, как (или если это возможно) получить эту библиотеку для доступа к странице, требующей ввода имени пользователя и пароля, прежде чем вы получите доступ к странице?Все, что я сделал на сегодняшний день, начинается с чего-то вроде ...

$html = file_get_html('http://www.google.com/');

Ответы [ 2 ]

2 голосов
/ 27 июля 2010

Очень немногие сайты используют идентичные механизмы аутентификации, поэтому нет одного способа всегда проходить аутентификацию на сайте.

Лучше всего будет использовать cURL и сделайте ваш скребок похожим на настоящий браузер.Это означает использование файлов cookie (поиск «cookie» на странице, возможно, вы захотите использовать файл cookie / jar) и сохранение их где-то, переход к форме входа, успешная отправка и последующее использованиеэтот сеанс «браузера» для выполнения очистки.

Пожалуйста, убедитесь, что сайты не возражают против такого удаления.В случае обнаружения вас могут забанить с сайта в зависимости от того, насколько владельцы сайта не любят его просматривать.

0 голосов
/ 13 декабря 2010

Другая проблема simplehtmldom заключается в том, что dom должен быть корректным, потому что ошибка в dom вызывает ошибку синтаксического анализатора, и объект будет нулевым.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...