Я хотел бы удалить тег из некоторого HTML, не удаляя оставшееся содержимое любой разметки.Например, у меня есть файл test.html:
<p class="P1"><span class="T2">Some text, goes to uppercase</span>
<p class="P4"><span class="T4"> </span><span class="T3">other text</span>
<span class="T5">italics</span><span class="T3">‘more text with UTF-8 ’</span>
</p></p>
Я хотел бы получить следующий вывод:
SOME TEXT, GOES TO UPPERCASE
other text
<em>italics<em> ‘more text with UTF-8 ’
Мой код:
f = File.open('raw/test.html',"r")
doc = Nokogiri::XML::DocumentFragment.parse(f.read.encode('UTF-8'))
f.close
doc.css("span.T2").each do |span|
span.replace span.content.upcase
end
doc.css("span.T5").each do |span|
span.replace "<em>"+span.content+"</em>"
end
doc.css("span").each do |span|
span.replace span.content
end
doc.css("p").each do |p|
p.replace Nokogiri::XML::Text.new(p.inner_html, p.document)
end
f = File.open('processed/test.html',"w")
f.write(doc)
f.close
И вывод, который я получаю:
SOME TEXT, GOES TO UPPERCASE
<p class="P4">
other text
<em>italics </em>&#x2018;more text with UTF-8 &#x2019;
&#x2018;our common mother&#x2019;
</p>
Большое спасибо заранее.
ОБНОВЛЕНИЕ
Решение было следующим:
coder = HTMLEntities.new
f = File.open('raw/test.html',"r")
doc = Nokogiri::XML::DocumentFragment.parse(f.read.encode('UTF-8'))
f.close
doc.css("p").each do |p|
p.replace p.inner_html
end
doc.css("span.T2").each do |span|
span.replace span.content.upcase
end
doc.css("span.T5").each do |span|
span.replace "<em>"+span.content+"</em>"
end
doc.css("span").each do |span|
span.replace span.inner_html
end
f = File.open('processed/test.html',"w")
f.write(coder.decode(doc))
f.close