Я уже несколько месяцев скребу по китайским иероглифам на http://sinograms.com. Я использую rails3, ruby 1.9.2 и heroku.
Я не нашел проблем с кодировкой, однако яПринимаю только символы Юникода.UTF - это то же самое, что и Unicode, за исключением того, что он обратно совместим с ASCII, поэтому, если вы будете придерживаться этого, вы должны найти.
Это лучший ресурс, который я нашел для ruby и кодировки:
http://blog.grayproductions.net/articles/ruby_19s_string
Вы можете проверить, является ли китайский символ Unicode, с помощью следующего скрипта:
def check(char)
char = char.unpack('U*').first
if char >= 0x4E00 && char <= 0x9FFF
return true
end
if char >= 0x3400 && char <= 0x4DBF
return true
end
if char >= 0x20000 && char <= 0x2A6DF
return true
end
if char >= 0x2A700 && char <= 0x2B73F
return true
end
return false
end