Странные символы в источнике веб-страницы - PullRequest
1 голос
/ 19 июня 2011

У меня проблема, я пытаюсь проанализировать веб-страницу, которая в UTF-8 и имеет русский текст, используя Hpricot

Проблема в том, что я получаю русский текст с некоторыми странными символами, и я получаюошибка при попытке конвертировать (iconv) из UTF-8 в windows-1251 или ASCII

эту страницу http://market.yandex.ru/model-spec.xml?modelid=929123&hid=90548

Итак

require 'rubygems'
require 'open-uri'
require 'hpricot'
require 'net/http'

url = "http://market.yandex.ru/model-spec.xml?modelid=929123&hid=90548"
f = open(url).read
doc =  Hpricot(f)
html = doc.search("th.b-properties__title")
html.each do |h|
puts h.inner_html
end

Этот источник находится вUTF-8 НО!есть несколько странных символов, таких как "\ u {2192}"

1 Ответ

2 голосов
/ 20 июня 2011

Итак, я решил это.я использовал PowerShell для Windows и использовал chcp 65001 для вывода всего в UTF8, так что это была проблема!

...