Разбирать и взаимодействовать с запутанным javascript - PullRequest
1 голос
/ 22 октября 2011

Я пытаюсь взаимодействовать с веб-сайтом HTML 4.0, который использует сильно запутанный JavaScript, чтобы скрыть обычные элементы HTML.Что я хочу сделать, это заполнить форму и прочитать возвращенные результаты, и это оказывается труднее, чем ожидалось.

Когда я читал страницу с помощью Firebug, он дал мне деобфусцированный исходный код, иЗатем я могу использовать это, чтобы сделать то, что я хочу достичь.Вывод Firebug показал все обычные элементы веб-сайта, такие как -tags и т. П., Которые были скрыты в оригинальном источнике.

Я написал остальную часть своего приложения на Python, используя механизм взаимодействия для взаимодействияс другими веб-сервисами, поэтому я бы предпочел использовать существующий модуль Python, чтобы сделать это, если это возможно.Проблема заключается не только в том, как читать исходный код так, как может понять механизатор, но и в том, как генерировать ответ, который веб-сервер может интерпретировать.Могу ли я использовать обычные средства механизации, хотя html-код запутан?

В начале моего проекта я использовал pywebkitgtk вместо mechanize, но отказался от него, потому что он не очень хорошо реализован в python.Большинство функций отсутствуют.Может быть, это разумный метод, чтобы запустить webkit-браузер, из которого я читаю HTML, и использовать его с механизацией?

Любая помощь будет принята с благодарностью, я действительно в затруднении.Спасибо!

Редактировать : я попытался вывести HTML-код, извлеченный из Mechanize, и открыть его с помощью pywebkitgtk, используя load_html_string, а затем оценить HTML таким образом.К сожалению, поскольку документ, который я пытаюсь проанализировать, загружает больше ресурсов динамически, эти сценарии просто перестают ожидать загрузки ресурсов.Обратите внимание, что я не могу использовать webkit для загрузки самого документа, так как я использую функцию CookieJar Mechanize, чтобы я мог сначала войти в систему.

Я также попытался вывести HTML-код из webkit, который по какой-то причине сбрасывал запутанный javascriptтолько при отображении сайта отлично.Если бы webkit мог выводить деобфусцированный javascript, как это делает Firebug, я мог бы поработать с этим и сформировать запрос в соответствии с чистым кодом.

1 Ответ

1 голос
/ 22 октября 2011

Вместо того, чтобы пытаться обработать страницу, как насчет того, чтобы просто использовать Firebug, чтобы выяснить имена полей формы, а затем использовать httplib или что-то еще, чтобы отправить запрос с необходимыми полями и настройками?

Еслион отправляется с использованием ajax, вы также сможете определить значения, отправляемые на сервер в Firebug.

...