Соскрести многокадровый сайт - PullRequest
3 голосов
/ 22 сентября 2008

Я проверяю наше существующее веб-приложение, которое интенсивно использует фреймы HTML . Я хотел бы загрузить весь HTML-код в каждом фрейме, есть ли способ сделать это с помощью wget или немного сценариев?

Ответы [ 3 ]

6 голосов
/ 22 сентября 2008

как дополнение к ответу Стива:

Распространение на любой хост —‘- H ’

Опция ‘-H’ включает охват хоста, что позволяет рекурсивному запуску Wget посещать любой хост, на который ссылается ссылка. Если не применены достаточные критерии ограничения рекурсии, эти внешние хосты, как правило, будут связываться с еще большим количеством хостов и т. Д., Пока Wget не будет поглощать гораздо больше данных, чем вы предполагали.

Ограничение охвата определенными доменами —‘- D ’

Параметр ‘-D’ позволяет вам указать домены, за которыми будут следовать, тем самым ограничивая рекурсию только для хостов, которые принадлежат этим доменам. Очевидно, что это имеет смысл только в сочетании с «-H».

Типичным примером является загрузка содержимого «www.server.com», но разрешается загрузка с «images.server.com» и т. Д.: * 10101 *

      wget -rH -Dserver.com http://www.server.com/

Вы можете указать несколько адресов, разделяя их запятой,

например. '-Ddomain1.com, domain2.com.

взято из: wget manual

1 голос
/ 22 сентября 2008

wget имеет опцию -r, чтобы сделать его рекурсивным, попробуйте wget -r -l1 (если шрифт затрудняет чтение: последняя часть - это строчная буква L, за которой следует номер один ) Партия -l1 говорит, что она должна рекурсировать до максимальной глубины 1. Попробуйте поиграть с этим числом, чтобы очистить больше.

1 голос
/ 22 сентября 2008
wget --recursive --domains=www.mysite.com http://www.mysite.com

Что указывает на то, что рекурсивный обход должен также проходить во фреймы и фреймы. Будьте осторожны, чтобы ограничить область рекурсии только вашим веб-сайтом, поскольку вы, вероятно, не хотите сканировать весь Интернет.

...