Экран скрести веб-страницу, которая использует javaScript и фреймы - PullRequest
0 голосов
/ 07 февраля 2010

Я хочу очистить данные от www.marktplaats.nl . Я хочу проанализировать детализированное описание, цену, дату и просмотры в Excel / Access.

Я пытался очистить данные с помощью Ruby (nokogiri, scrapi), но ничего не получалось. (на других сайтах это работало хорошо) Основная проблема заключается в том, что, например, selectorgadget и дополнительный firebug (Firefox) не находят никакой CSS, который я могу использовать для очистки страницы. На других сайтах я могу извлечь css с помощью selectorgadget или firebug и использовать его с nokogiri или scrapi. Из-за нехватки опыта трудно определить проблему, и поэтому поиск решения не легок.

Можете ли вы сказать мне, где начать решать эту проблему, и где я могу найти больше информации о подобном процессе очистки?

Заранее спасибо!

Ответы [ 3 ]

1 голос
/ 22 мая 2010

Я использовал веб-запрос Excel, и он отлично работает. Если вы ищете mrexcel, вы можете найти много полезного о работе с Excel на YouTube. Спасибо, Мелло

0 голосов
/ 17 мая 2010

Вы можете попробовать веб-скребок IRobotSoft. Он имеет хорошую поддержку кадров и является бесплатным.

0 голосов
/ 08 февраля 2010

Iframes не проблема - просто получите доступ к встроенному URL iframe напрямую. Вы обнаружите, что он перенаправляет в браузер, если вы не отключите JavaScript.

Описание и дату можно извлечь прямо из источника HTML. Однако цены - это изображения, которые сделают их более громоздкими.

...