Язык веб-скрепления контента JAVASCRIPT - PullRequest
2 голосов
/ 20 июля 2011

Я думаю, что тема задает вопрос, я обычно использую PHP для синтаксического анализа / веб-очистки, но у меня действительно плохое время для очистки JavaScript в большинстве случаев, я не могу это сделать

ex: Разбор div, который появляется, когда исполняется JavaScript.

Я читал о RUBY, который имеет библиотеку синтаксического анализатора для javascript, поэтому вопрос заключается в том, что такое программа для очистки веб-страниц, которая будет эффективно удалять содержимое, генерируемое javascript ?? Это библиотека для PHP, подобная библиотеке ruby ​​для разбора содержимого javascript?

Ответы [ 5 ]

0 голосов
/ 03 июля 2013

В мире рубинов жемчужиной для запуска Phantomjs будет poltergeist

Есть еще одна статья о некоторых опциях, которые у вас есть в ruby ​​, здесь тоже (однако они не все js способны)

0 голосов
/ 16 июня 2013

Вам следует взглянуть на PhantomJS и CasperJS (браузеры без головы).

0 голосов
/ 20 июля 2011

Вы должны взглянуть на некоторые браузеры без GUI / без головы. Есть некоторые написанные для Java. Я не нашел один для PHP.

Посмотрите на:

0 голосов
/ 20 июля 2011

Вы можете попробовать использовать что-то вроде Selenium , что позволяет автоматизировать задачи браузера.

С другой стороны, вы можете подробно узнать, что происходит при выполнении кода js,Например, если код js запрашивает что-то с сервера, отправляя некоторые данные, вы можете эмулировать это обычным способом.

0 голосов
/ 20 июля 2011

Есть несколько стратегий для этого. В зависимости от ваших потребностей, подумайте о программной реализации экземпляра браузера, к которому вы можете подключиться и прочитать страницу.

Идея в том, чтобы браузер выполнял свою работу, поскольку страница создана для браузера, а не для вашего бота. Затем вы можете нажать и убрать, используя плагин для браузера, который передает данные в ваше основное приложение, на котором запущены вещи.

Это может быть слишком излишним для того, что вам нужно. Я оставлю это на ваше усмотрение.

...