Удалить все внешние ресурсы из HTML с Nokogiri - PullRequest
0 голосов
/ 16 марта 2012

Я хочу удалить все внешние ресурсы из файла HTML.Я использую wget для создания локальных копий страницы.Wget имеет опции для преобразования ссылок в локальную файловую систему, и это вполне нормально, но все же некоторые ссылки (в конце глубины загрузки, я считаю) сохраняют свои внешние src, поэтому они содержат http.

Самое близкое, что я мог найти, чтобы найти все, что содержит http, это использовать:

doc.search ("// * [начинается с (@href, 'http')]")

Но это просто находит элементы href, а http также может использоваться в изображениях, видео и прочем.Любые идеи, какие будут правильные инструкции для Nokogiri, чтобы сказать мне все, что содержит http?

Спасибо.

1 Ответ

2 голосов
/ 16 марта 2012

Если вы просто хотите расширить поиск по элементам с любым атрибутом , начинающимся с 'http', вы можете сделать это:

doc.search("//*[@*[starts-with(.,'http')]]")
...