Я играю с Ruby + Hpricot и строю простой скребок. Я могу работать с другими сайтами без проблем. Но если страница написана полностью на JavaScript, можно ли это удалить? но теперь страницы результатов поиска Google полностью основаны на JavaScript, за исключением нескольких внутренних ссылок.
Могут ли страницы, написанные таким образом, не обрабатываться обычными инструментами, такими как Mechanize & Hpricot (я думаю, они не могут)
Доступны ли эти инструменты / гемы, которые могут попытаться отобразить страницу (например, браузер), а затем собрать данные?
Спасибо!
Редактировать: Спасибо за ваши ответы. Я понимаю, что очищать Google напрямую не правильно, есть API, который можно использовать. В основе вопроса, который я действительно хотел выяснить, было то, есть ли страница, полностью написанная на javascript (включая текст и содержимое - может быть запутано). Есть ли драгоценный камень, который попытается отобразить страницу только в тексте и тогда получите его текстовое содержимое?