У меня проблема, я пытаюсь проанализировать веб-страницу, которая в UTF-8 и имеет русский текст, используя Hpricot
Проблема в том, что я получаю русский текст с некоторыми странными символами, и я получаюошибка при попытке конвертировать (iconv) из UTF-8 в windows-1251 или ASCII
эту страницу http://market.yandex.ru/model-spec.xml?modelid=929123&hid=90548
Итак
require 'rubygems'
require 'open-uri'
require 'hpricot'
require 'net/http'
url = "http://market.yandex.ru/model-spec.xml?modelid=929123&hid=90548"
f = open(url).read
doc = Hpricot(f)
html = doc.search("th.b-properties__title")
html.each do |h|
puts h.inner_html
end
Этот источник находится вUTF-8 НО!есть несколько странных символов, таких как "\ u {2192}"