Я хочу удалить все внешние ресурсы из файла HTML.Я использую wget для создания локальных копий страницы.Wget имеет опции для преобразования ссылок в локальную файловую систему, и это вполне нормально, но все же некоторые ссылки (в конце глубины загрузки, я считаю) сохраняют свои внешние src, поэтому они содержат http.
Самое близкое, что я мог найти, чтобы найти все, что содержит http, это использовать:
doc.search ("// * [начинается с (@href, 'http')]")
Но это просто находит элементы href, а http также может использоваться в изображениях, видео и прочем.Любые идеи, какие будут правильные инструкции для Nokogiri, чтобы сказать мне все, что содержит http?
Спасибо.