Как разобрать веб-страницу в vb.net, которая написана с кучей document.write's? - PullRequest
1 голос
/ 21 декабря 2011

Я занимаюсь разбором веб-страницы с помощью пакета agility для HTML в vb.net, и он работает прекрасно в большинстве случаев, но я наткнулся на сайт, с которым мне нужна помощь.

Когда я иду, чтобы захватить веб-страницу с моим http-объектом (я использую chilkat http, и у него нет движка javascript), я возвращаюсь к странице, которая плохо написана с document.writes в основном для всегостр.

Я не хочу использовать элемент управления браузера для первой визуализации страницы.

Знаете ли вы что-нибудь, что позволит мне легко анализировать эту страницу с помощью xpath ... Работает ли xpath с javascript?Есть ли способ удалить Javascript с пакетом Agility?

Если нет на все вышеперечисленное, что бы вы сделали, чтобы включить это в документ, совместимый с xpath.

1 Ответ

0 голосов
/ 21 декабря 2011

Если большая часть страницы отображается с помощью javascript, вам необходимо иметь возможность выполнить javascript, чтобы получить документ с конечным результатом.

Для этого вам потребуется браузер без заголовка , такой как XBrowser , который может выполнять JavaScript. Вы можете передать полученный документ в пакет Agility HTML.

...