Нокогири заменяют полосы содержимого HTML - PullRequest
3 голосов
/ 15 марта 2011

Я хотел бы удалить тег из некоторого HTML, не удаляя оставшееся содержимое любой разметки.Например, у меня есть файл test.html:

<p class="P1"><span class="T2">Some text, goes to uppercase</span>
<p class="P4"><span class="T4"> </span><span class="T3">other text</span>
<span class="T5">italics</span><span class="T3">‘more text with UTF-8 ’</span>
</p></p>

Я хотел бы получить следующий вывод:

SOME TEXT, GOES TO UPPERCASE
other text
<em>italics<em> ‘more text with UTF-8 ’

Мой код:

f = File.open('raw/test.html',"r")
doc = Nokogiri::XML::DocumentFragment.parse(f.read.encode('UTF-8'))
f.close

doc.css("span.T2").each do |span|
  span.replace span.content.upcase
end
doc.css("span.T5").each do |span|
  span.replace "<em>"+span.content+"</em>"
end
doc.css("span").each do |span|
  span.replace span.content
end
doc.css("p").each do |p|
  p.replace Nokogiri::XML::Text.new(p.inner_html, p.document)
end

f = File.open('processed/test.html',"w")
f.write(doc)
f.close

И вывод, который я получаю:

SOME TEXT, GOES TO UPPERCASE
&lt;p class="P4"&gt;
 other text
&lt;em&gt;italics &lt;/em&gt;&amp;#x2018;more text with UTF-8 &amp;#x2019;
&amp;#x2018;our common mother&amp;#x2019;
&lt;/p&gt;

Большое спасибо заранее.

ОБНОВЛЕНИЕ

Решение было следующим:

coder = HTMLEntities.new 
f = File.open('raw/test.html',"r") 
doc = Nokogiri::XML::DocumentFragment.parse(f.read.encode('UTF-8')) 
f.close 
doc.css("p").each do |p| 
  p.replace p.inner_html 
end 

doc.css("span.T2").each do |span| 
  span.replace span.content.upcase 
end 

doc.css("span.T5").each do |span| 
  span.replace "<em>"+span.content+"</em>" 
end 

doc.css("span").each do |span| 
  span.replace span.inner_html 
end 

f = File.open('processed/test.html',"w") 
f.write(coder.decode(doc)) 
f.close

1 Ответ

1 голос
/ 15 марта 2011

Использование span.replace "<em>"+span.content+"</em>" не правильно. Вы должны сказать Нокогири заменить HTML, а не текст. Например:

span.inner_html = "<em>"+span.content+"</em>"

Результат:

<span class="T5"><em>italics</em></span>
...