Чтение исходного кода HTML Web 2.0 с помощью Perl - PullRequest
0 голосов
/ 03 июня 2010

Можно ли читать исходный код HTML Web 2.0, который генерируется динамически? Perl LWP с его ответом agent-> не принимает динамически генерируемый HTML-код.

Многие веб-сайты сегодня генерируют динамический HTML. Если я делаю покупки по лучшим ценам, а цены динамически извлекаются и сбрасываются, то меня больше нет в бизнесе.

Мы приближаемся к концу эры?

Ответы [ 2 ]

2 голосов
/ 03 июня 2010

Если под «Web 2.0 HTML» и «динамически генерируемым» вы подразумеваете «DOM, сгенерированный из JavaScript», то вы должны обработать JavaScript.

Вы можете сделать это вручную и написать код для очистки данных из JS, или использовать любые источники данных, которые использует JS, или вы можете использовать анализатор, поддерживающий JS (я обычно использую MozRepl в наши дни) .

Имейте в виду, что на многих сайтах запрещено использование скриншотов.

Лучшее решение - использовать API, который стабилен и не подлежит изменению. Документация для сайта, с которого вы хотите получать данные, может содержать описание API, или вы можете связаться с разработчиками и посмотреть, смогут ли они сделать его доступным для вас.

2 голосов
/ 03 июня 2010

Да, мы приближаемся к концу эры ненадежного скрининга экрана и началу эры четко определенных API.

Лично я ненавижу термин "Web 2.0", но по крайней мере Википедия перечисляет веб-API как важную часть всего этого.

...