Техника очистки экрана с использованием php - PullRequest
1 голос
/ 06 февраля 2009

Как отсканировать экран определенного сайта. Мне нужно войти на сайт, а затем очистить внутреннюю информацию. Как это можно сделать?

Пожалуйста, ведите меня.

Дубликат: Как реализовать веб-скребок в PHP?

Ответы [ 6 ]

1 голос
/ 06 февраля 2009
Zend_Http_Client and Zend_Dom_Query
0 голосов
/ 19 августа 2010

Curl, и как только войдете, используйте библиотеку QueryPath php. (Querypath.org) Вы можете получить доступ к элементам DOM, как и в JQuery, с помощью селекторов CSS, есть метод цепочки ...

Это намного лучше, чем просто использование собственных функций php для xml.

Он также работает как расширение drupal, но я полагаю, вы можете реализовать его в любом php-проекте.

0 голосов
/ 06 февраля 2009

Вы также можете проверить http://php.net/dom

0 голосов
/ 06 февраля 2009

Возможно, вы также захотите взглянуть на BeautifulSoup , библиотеку Python, которая, как предполагается, очень хороша для анализа плохого HTML. Он нацелен на такие вещи, как очистка экрана.

Как легко было бы позвонить из PHP, хотя я не знаю.

0 голосов
/ 06 февраля 2009

Тебе стоит взглянуть на локон.

0 голосов
/ 06 февраля 2009

Вы хотите посмотреть на функции curl - они позволят вам получить страницу с другого сайта. Вы можете использовать cookie-файлы или HTTP-аутентификацию, чтобы сначала войти в систему, а затем получить нужную страницу, в зависимости от того, на каком сайте вы входите.

Когда у вас есть страница, вам, вероятно, лучше всего использовать регулярные выражения для очистки нужных данных.

...