Я работаю над приложением, в котором мне нужно
1) получить все ссылки сайта
2), а затем получить список всех файлов и расширений файлов в каждом
веб-страницы / ссылки.
Я закончил с первой частью :)
Я получаю все ссылки сайта по приведенному ниже коду ..
require 'rubygems'
require 'spidr'
require 'uri'
Spidr.site('http://testasp.vulnweb.com/') do |spider|
spider.every_url { |url|
puts url
}
end
теперь я должен получить все файлы / расширения файлов в каждом из
страницу, поэтому я попробовал следующий код
require 'rubygems'
require 'nokogiri'
require 'open-uri'
require 'spidr'
site = 'http://testasp.vulnweb.com'
in1=[]
Spidr.site(site) do |spider|
spider.every_url { |url| in1.push url }
end
in1.each do |input1|
input1 = input1.to_s
#puts input1
begin
doc = Nokogiri::HTML(open(input1))
doc.traverse do |el|
[el[:src], el[:href]].grep(/\.(txt|css|gif|jpg|png|pdf)$/i).map{|l| URI.join(input1, l).to_s}.each do |link|
puts link
end
end
rescue => e
puts "errrooooooooor"
end
end
но кто-нибудь может подсказать мне, как разобрать ссылки / веб-страницу и получить файл?
Расширения на странице?