Scraping Flash: доступ к фоновым файлам, возможно, в Mechanize? - PullRequest
1 голос
/ 26 сентября 2010

Я очищаю сайт во Flash, пишу на Python.Я вижу в Firebug, что страница загружает свой файл Flash, а затем некоторые фоновые данные в файл .asmx.

Фоновые данные - это то, что меня интересует, так как я могу получить файл .asmx?Я уже знаю, как он называется.

Я не могу получить доступ к файлу .asmx напрямую, но могу ли я получить его с помощью Mechanize?

--- ОБНОВЛЕНИЕ ----

Страница, которую я копирую, http://www.citroen.co.uk/new-cars/car-range/#/configurator/1C58AF/pop/pre-configuration/

.asmx-файл https://sfg -bpf.servicesgp.mpsa.com / uk / services / ServicePSAGF_Dealer.asmx -Я могу просмотреть его в Firebug.

1 Ответ

1 голос
/ 26 сентября 2010

Могу ли я взять его с помощью Mechanize?

Я так не считаю. Расширение .asmx говорит, что ресурс, к которому вы обращаетесь, является веб-службой (на основе SOAP) .NET, написанной на языке, таком как C # или VB.NET. Обычно .asmx-код возвращает SOAP-ответ, возможно, для анализа приложением Flash. Но трудно понять, что происходит, не вдаваясь в подробности, например, является ли запрос .asmx отдельным запросом Ajax.

Обновление: Ссылка на страницу Flash у меня не работает; это сработало один раз, затем последующие запросы перенаправляются на страницу ошибки .

Страница .asmx, на которую вы ссылались, просто показывает точку входа в веб-сервис; вам нужно будет сделать запрос к конкретной точке входа с соответствующими параметрами, чтобы получить фактические данные XML (при условии, конечно, что вы авторизованы).

...