проблема с CGI :: unescapeHTML - PullRequest
       18

проблема с CGI :: unescapeHTML

3 голосов
/ 11 ноября 2010
CGI::unescapeHTML("渣打银")

=> "渣打 \ 351 \ 223 \ 266"

CGI::unescapeHTML("渣打银 ")

=> "渣打 银"

Добавление пробела в конце имеет значение, иначе последний символ теряется, и я получаю эту странную последовательность символов. Я сталкиваюсь с этой самой проблемой, когда пытаюсь очистить веб-сайты данных, используя кодировку utf-8. Это верно даже для обычного английского текста.

Ответы [ 2 ]

1 голос
/ 13 июня 2014

Это не проблема с библиотекой CGI, которая поставляется с Ruby 1.9.2 и выше.

0 голосов
/ 16 мая 2011

Запустите переводчик ruby ​​с -Ku

...