Джеймс Грей написал серию статей о работе с Unicode, UTF-8 и Ruby 1.8.7 и 1.9.2.Они важны для чтения.
С Ruby 1.8.7 мы можем добавить:
#!/usr/bin/ruby -kU
require 'jcode'
и получить частичную поддержку UTF-8.можно использовать:
# encoding: UTF-8
в качестве второй строки вашего исходного файла, и это скажет Ruby по умолчанию UTF-8.Grey рекомендует делать это со всеми исходными текстами, которые мы пишем с этого момента.
Это не повлияет на внешнее кодирование при чтении / записи текста, только на кодирование исходного кода.
Ruby 1.9.2 не расширяет обычные классы символов \w
, \W
и \s
для обработки UTF-8 или Unicode.Как и в других комментариях и ответах, это делают только наборы символов POSIX и Unicode в regex.