Как я могу конвертировать японские символы в Unicode в Perl? - PullRequest
0 голосов
/ 18 мая 2010

Можете ли вы указать мне инструмент для преобразования японских символов в Unicode?

Ответы [ 4 ]

2 голосов
/ 18 мая 2010

CPAN дает мне " Unicode :: Japanese ". Надеюсь, это полезно для начала. Также вы можете посмотреть статью о кодировках символов в Perl и perl doc для unicode для получения дополнительной информации.

1 голос
/ 18 мая 2010

См. http://p3rl.org/UNI.

use Encode qw(decode encode);
my $bytes_in_sjis_encoding = "\x88\xea\x93\xf1\x8e\x4f";
my $unicode_string = decode('Shift_JIS', $bytes_in_sjis_encoding); # returns 一二三
my $bytes_in_utf8_encoding = encode('UTF-8', $unicode_string); # returns "\xe4\xb8\x80\xe4\xba\x8c\xe4\xb8\x89"

Для пакетного преобразования из командной строки используйте piconv :

piconv -f Shift_JIS -t UTF-8 < infile > outfile
0 голосов
/ 18 мая 2010

Этот вопрос мне кажется немного расплывчатым, я не уверен, что вы спрашиваете. Обычно вы используете что-то вроде этого:

open my $file, "<:encoding(cp-932)", "JapaneseFile.txt"

чтобы открыть файл с японскими символами. Затем Perl автоматически преобразует его во внутренний формат Unicode.

0 голосов
/ 18 мая 2010

Во-первых, вам нужно выяснить кодировку исходного текста, если вы еще этого не знаете.

Наиболее распространенные кодировки для японского языка:

  1. euc-jp: (часто используется в Unix, некоторых веб-страницах и т. Д. С кандзи охватом, чем shift-jis)
  2. shift-jis (Microsoft также добавила некоторые расширения для shift-jis, который называется cp932, который часто используется в программах, не поддерживающих Юникод Windows)
  3. iso-2022-jp - это далекая треть

Общая библиотека преобразования кодировки для многих языков: iconv (см. http://en.wikipedia.org/wiki/Iconv и http://search.cpan.org/~mpiotr/Text-Iconv-1.7/Iconv.pm), которая поддерживает многие другие кодировки , а также японский.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...