Я просто хочу, чтобы текст был без этих тегов. Есть ли в Hrpicot.XML методы для этого?
используйте element.inner_text вместо #inner_html, и он удалит их для вас
doc.search("*") do |element| element.swap element.content if element.kind_of? Hpricot::CData end
doc = Hpricot::XML(open('http://www.cnn.com/.element/ssi/www/auto/2.0/video/xml/most_popular.xml')) (doc/:cnn_video/:video).each do |status| ['tease_txt'].each do |el| puts "#{status.at(el).inner_text}" end end
Пример выходных данных (выглядит спамом, но это не спам!):
Новое видео о воздушном происшествии в Рено показывает влияние Подросток ловит 800-фунтового аллигатора Возобновляет карьеру после публикации«Не проси» отменить Жуткие заглядывающие юбки Спутник размером с автобус, чтобы поразить Землю, если ... «DWTS» впервые попал в бальный зал Что вызвало смерть тренера в SeaWorld? Что привело к отказу Троя Дэвиса в помиловании?