Вы можете получить HTML с помощью библиотеки NET :: HTTP в Ruby
url = URI.parse('http://www.example.com/index.html')
req = Net::HTTP::Get.new(url.path)
res = Net::HTTP.start(url.host, url.port) {|http|
http.request(req)
}
body_html = res.body
Затем вы можете сохранить body_html
в объекте вашей базы данных.
Уловка в том, что это возвращает HTML, который получит клиент. В «реальном» мире браузер затем анализирует этот HTML, а затем отправляет отдельные HTTP-запросы на получение таблиц стилей, сценариев и изображений. Вам нужно сделать то же самое, а затем сохранить их в отдельных объектах базы данных.
Этот вопрос дает вам несколько инструментов, которые могут помочь с синтаксическим анализом: Способ анализа документа HTML в Ruby?
Слово предупреждения: Я подозреваю, что то, что вы пытаетесь сделать, будет намного сложнее, чем вы думаете. Подумайте о том, чего вы на самом деле пытаетесь достичь, и если это лучший способ для достижения цели.