как конвертировать апостроф (’) веб-страницы в ascii 39 в ruby ​​1.8.7 - PullRequest
2 голосов
/ 11 мая 2010

Вот и все. Я использую Nokogiri для очистки веб-страницы, на которой есть & # 8217; символы в нем, и я не могу понять, как сделать преобразование. вот что я попробовал:

str.gsub(/’/,"'")  
str.gsub("’","'")  
str.gsub("ΓÇÖ","'") # that's how it looks when I do a puts

(В приведенном выше нет пробела между & # 8217 и ";", но если я не вставлю пробел, SO преобразует его в апостроф - жестокая, жестокая ирония!)

Я уверен, что это где-то рассмотрено, но не смог найти решение здесь или в сети.

ТИА

1 Ответ

2 голосов
/ 11 мая 2010

str.gsub("\342\200\231", "'") должно работать

Я получил это от:

    '’'.to_s
=> "\342\200\231"

Другие html-символы, которые можно заменить (http://ask.metafilter.com/62656/Eliminating-odd-characters-from-web-site):

"\342\200\176" - "'"  
"\342\200\177" - "'"  
"\342\200\230" - "'"  
"\342\200\231" - "'"  
"\342\200\232" - ','  
"\342\200\233" - "'"  
"\342\200\234" - '"'  
"\342\200\235" - '"'  
"\342\200\041" - '-'  
"\342\200\174" - '-'  
"\342\200\220" - '-'  
"\342\200\223" - '-'  
"\342\200\224" - '--'  
"\342\200\225" - '--'  
"\342\200\042" - '--'  
"\342\200\246" - '...' 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...