Как обрабатывать веб-сайт и обрабатывать его содержимое (но только после того, как JS манипулирует DOM)? - PullRequest
0 голосов
/ 08 февраля 2011

На стороне сервера, я хотел бы загрузить удаленный веб-сайт, используя Curl, а затем использовать PHP для анализа определенных частей страницы. Легко, правда? Единственная проблема в том, что прежде чем я начну анализировать страницу, мне нужно подождать, пока в DOM не произойдут какие-либо манипуляции с JavaScript.

Есть ли способ сделать это?

Полагаю, мне нужно какое-то серверное приложение / браузер, который можно запустить исключительно из командной строки и который способен выполнять JavaScript.

Я никогда не делал этого и растерялся. Неужели это возможно?

1 Ответ

1 голос
/ 09 февраля 2011

Возможно, вы захотите заглянуть в библиотеку Selenium.Я использовал его только на Java, но я верю, что есть и версия php.Существует также отдельный плагин Firefox (Selen Ide), который несколько менее надежен, чем библиотека, но он может соответствовать вашим потребностям.Selenium будет управлять вашим браузером (firefox, chrome, т.е.) и позволит вам получать фрагменты данных с помощью селекторов css / xpath.Selenium больше ориентирован на масштабное тестирование веб-приложений, но его можно использовать и для других целей.Я нашел, что это очень полезно, потому что он позволяет вам получить доступ к вашему сайту через код так же, как пользователь получит к нему доступ (т.е. выполняется Javascript / CSS).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...