Как распознать символы валюты в Perl? - PullRequest
4 голосов
/ 15 ноября 2010

У меня возникли некоторые проблемы с этим.

Я читаю какой-то текст и пытаюсь извлечь из него цены. С этим у меня все хорошо, но я пытаюсь написать какой-то код, чтобы определить название валюты по символу в тексте с помощью операторов if, подобных этим

if ($curr eq "\$"){
print CURRENCY "Currency: Dollars($curr)\n";
}
else {if($curr eq "£"){
print CURRENCY  "Currency: Pounds($curr)\n";
}
else {if($curr eq "€"){
print CURRENCY  "Currency: Euros($curr)\n";
}

Теперь это работает за $ (который, очевидно, должен быть экранирован), но не за символ фунта или символ евро. Я предполагаю, что это как-то связано с кодировкой Unicode или чем-то похожим на то, из-за чего мои попытки вызвать Google подняли проблему, но ничего, что я нашел, не было большой помощью Интересно, может ли кто-нибудь помочь мне здесь!

Ответы [ 4 ]

13 голосов
/ 15 ноября 2010

Как говорить о символах Юникода

Похоже, у вас проблемы с кодировками.Кажется, в исходном коде вашей Perl-программы есть символы Unicode.Вам нужно использовать эту прагму (это причудливый способ сказать имя модуля в нижнем регистре, которое действует как директива компилятора):

use utf8;

Поместите это в начало вашей программы, а затем убедитесь, что вы на самом делередактировать его с помощью редактора, который знает, как сохранить его как текст UTF-8.Вы можете использовать команду file, если она у вас есть, чтобы убедиться, что она говорит, что этот файл находится в UTF-8.

Альтернативой, которая не требует, чтобы ваш источник Perl был в UTF-8, являетсяиспользовать номера кодовых точек или имена символов Unicode вместо литералов.Чтобы получить именованные символы Юникода, используйте эту прагму:

use charnames qw[ :full ];

Теперь вы можете использовать нотацию "\N{…}", чтобы говорить об именованных символах:

$pound_sign = "\N{POUND SIGN}";
$euro_sign  = "\N{EURO SIGN}";

Другой способ - использовать числовыекодовая точка, если вы это знаете:

$pound_sign = chr(163);
$euro_sign  = chr(0x20AC);

Вы также можете использовать точное число в строках и шаблонах:

if ($text =~ /\xA3/) { … }     # POUND SIGN

if ($text =~ /\x{20AC}/) { … } # EURO SIGN

Это избавит вас от необходимости ставитьне-ASCII в вашем Perl-источнике, что, вероятно, хорошая идея, хотя буквальные магические числа, как это, вероятно, нет.Однако вы все равно должны учитывать, что ваш источник данных находится в той или иной кодировке.Я собираюсь предположить, что это в некоторой кодировке Unicode, вероятно, UTF-8.Я надеюсь, что это не CESU-8 от Oracle или Java «модифицированного UTF-8».

Свойство Unicode 'Currency_Symbol *

только правильный способ обнаружить любой произвольныйСимвол валюты, который представлен в тексте одним символом Unicode, определяется путем определения свойства символа валюты Unicode, \p{Sc} или \p{Currency_Symbol}.

Это свойства Unicode, которые представляют собой классы символов, которые можно использовать в регулярных выражениях.

Вы захотите сказать что-то вроде

if ($curr =~ /^\p{Sc}$/) { ... }

Но чтобы это работало, вы должны прочитать $curr из входного источника в кодировке :utf8.В вашем собственном источнике вы бы сказали:

use utf8;

А в открывшемся файле вы сказали бы один из них:

# put at the top of your file and be done with it
use open qw[ :std :utf8 ];

# or else when opening a new handle
open(my $new_handle, "< :encoding(utf8)", "/path/to/file")
    || die "can't open /path/to/file: $!";

# if handle already opened, then just
binmode($already_opened_handle, ":encoding(utf8)")
     || die "can't binmode: $!";

Технически, вы, вероятно, должны использовать :encoding(utf8) за исключением use utf8; в вашем собственном исходном файле, так что вы не можете подделать его.Не спрашивай10

Если вы используете такой модуль, как CGI.pm или XML::Simple, он должен просто работать - но это зависит.

Свойства символов символа валюты

Вот полное предложение:

% uniprops -vag € 'POUND SIGN'
U+20AC ‹€› \N{ EURO SIGN }:
    \p{\pS} \p{\p{Sc}}
    \p{All} \p{Any} \p{Assigned} \p{InCurrencySymbols} \p{Common} \p{Zyyy} \p{Currency_Symbol} \p{Sc} \p{S} \p{Gr_Base} \p{Grapheme_Base} \p{Graph}
       \p{GrBase} \p{Print} \p{Symbol}
    \p{Age:2.1} \p{Bidi_Class:ET} \p{Bidi_Class=European_Terminator} \p{Bidi_Class:European_Terminator} \p{Bc=ET} \p{Block:Currency_Symbols}
       \p{Canonical_Combining_Class:0} \p{Canonical_Combining_Class=Not_Reordered} \p{Canonical_Combining_Class:Not_Reordered} \p{Ccc=NR}
       \p{Canonical_Combining_Class:NR} \p{Script=Common} \p{General_Category=Currency_Symbol} \p{Decomposition_Type:None} \p{Dt=None} \p{East_Asian_Width:A}
       \p{East_Asian_Width=Ambiguous} \p{East_Asian_Width:Ambiguous} \p{Ea=A} \p{General_Category:Currency_Symbol} \p{Gc=Sc} \p{General_Category:S}
       \p{General_Category=Symbol} \p{General_Category:Sc} \p{General_Category:Symbol} \p{Gc=S} \p{Grapheme_Cluster_Break:Other} \p{GCB=XX}
       \p{Grapheme_Cluster_Break:XX} \p{Grapheme_Cluster_Break=Other} \p{Hangul_Syllable_Type:NA} \p{Hangul_Syllable_Type=Not_Applicable}
       \p{Hangul_Syllable_Type:Not_Applicable} \p{Hst=NA} \p{Joining_Group:No_Joining_Group} \p{Jg=NoJoiningGroup} \p{Joining_Type:Non_Joining} \p{Jt=U}
       \p{Joining_Type:U} \p{Joining_Type=Non_Joining} \p{Line_Break:PR} \p{Line_Break=Prefix_Numeric} \p{Line_Break:Prefix_Numeric} \p{Lb=PR}
       \p{Numeric_Type:None} \p{Nt=None} \p{Numeric_Value:NaN} \p{Nv=NaN} \p{Present_In:2.1} \p{In=2.1} \p{Present_In:3.0} \p{In=3.0} \p{Present_In:3.1}
       \p{In=3.1} \p{Present_In:3.2} \p{In=3.2} \p{Present_In:4.0} \p{In=4.0} \p{Present_In:4.1} \p{In=4.1} \p{Present_In:5.0} \p{In=5.0} \p{Present_In:5.1}
       \p{In=5.1} \p{Present_In:5.2} \p{In=5.2} \p{Script:Common} \p{Sc=Zyyy} \p{Script:Zyyy} \p{Sentence_Break:Other} \p{SB=XX} \p{Sentence_Break:XX}
       \p{Sentence_Break=Other} \p{Word_Break:Other} \p{WB=XX} \p{Word_Break:XX} \p{Word_Break=Other}
U+00A3 ‹£› \N{ POUND SIGN }:
    \p{\pS} \p{\p{Sc}}
    \p{All} \p{Any} \p{Assigned} \p{InLatin1} \p{Common} \p{Zyyy} \p{Currency_Symbol} \p{Sc} \p{S} \p{Gr_Base} \p{Grapheme_Base} \p{Graph} \p{GrBase}
       \p{Pat_Syn} \p{Pattern_Syntax} \p{PatSyn} \p{Print} \p{Symbol}
    \p{Age:1.1} \p{Bidi_Class:ET} \p{Bidi_Class=European_Terminator} \p{Bidi_Class:European_Terminator} \p{Bc=ET} \p{Block:Latin_1}
       \p{Block=Latin_1_Supplement} \p{Block:Latin_1_Supplement} \p{Blk=Latin1} \p{Canonical_Combining_Class:0} \p{Canonical_Combining_Class=Not_Reordered}
       \p{Canonical_Combining_Class:Not_Reordered} \p{Ccc=NR} \p{Canonical_Combining_Class:NR} \p{Script=Common} \p{General_Category=Currency_Symbol}
       \p{Decomposition_Type:None} \p{Dt=None} \p{East_Asian_Width:Na} \p{East_Asian_Width=Narrow} \p{East_Asian_Width:Narrow} \p{Ea=Na}
       \p{General_Category:Currency_Symbol} \p{Gc=Sc} \p{General_Category:S} \p{General_Category=Symbol} \p{General_Category:Sc} \p{General_Category:Symbol}
       \p{Gc=S} \p{Grapheme_Cluster_Break:Other} \p{GCB=XX} \p{Grapheme_Cluster_Break:XX} \p{Grapheme_Cluster_Break=Other} \p{Hangul_Syllable_Type:NA}
       \p{Hangul_Syllable_Type=Not_Applicable} \p{Hangul_Syllable_Type:Not_Applicable} \p{Hst=NA} \p{Joining_Group:No_Joining_Group} \p{Jg=NoJoiningGroup}
       \p{Joining_Type:Non_Joining} \p{Jt=U} \p{Joining_Type:U} \p{Joining_Type=Non_Joining} \p{Line_Break:PR} \p{Line_Break=Prefix_Numeric}
       \p{Line_Break:Prefix_Numeric} \p{Lb=PR} \p{Numeric_Type:None} \p{Nt=None} \p{Numeric_Value:NaN} \p{Nv=NaN} \p{Present_In:1.1} \p{Age=1.1} \p{In=1.1}
       \p{Present_In:2.0} \p{In=2.0} \p{Present_In:2.1} \p{In=2.1} \p{Present_In:3.0} \p{In=3.0} \p{Present_In:3.1} \p{In=3.1} \p{Present_In:3.2} \p{In=3.2}
       \p{Present_In:4.0} \p{In=4.0} \p{Present_In:4.1} \p{In=4.1} \p{Present_In:5.0} \p{In=5.0} \p{Present_In:5.1} \p{In=5.1} \p{Present_In:5.2} \p{In=5.2}
       \p{Script:Common} \p{Sc=Zyyy} \p{Script:Zyyy} \p{Sentence_Break:Other} \p{SB=XX} \p{Sentence_Break:XX} \p{Sentence_Break=Other} \p{Word_Break:Other}
       \p{WB=XX} \p{Word_Break:XX} \p{Word_Break=Other}

Поиск всех символов \ p {Sc}

А вот и все 46 символов Юникода с Sc aka Currency_Symbol свойство, текущее с Unicode 5.2: ( извините за проблемы с форматированием; я полагаю, что это связано с направленностью )

 % unichars -a '\p{Sc}' | wc -l
       46

 % unichars -a '\p{Sc}'
 $      36 000024 DOLLAR SIGN
 ¢     162 0000A2 CENT SIGN
 £     163 0000A3 POUND SIGN
 ¤     164 0000A4 CURRENCY SIGN
 ¥     165 0000A5 YEN SIGN
 ؋    1547 00060B AFGHANI SIGN
 ৲    2546 0009F2 BENGALI RUPEE MARK
 ৳    2547 0009F3 BENGALI RUPEE SIGN
 ৻    2555 0009FB BENGALI GANDA MARK
 ૱    2801 000AF1 GUJARATI RUPEE SIGN
 ௹    3065 000BF9 TAMIL RUPEE SIGN
 ฿    3647 000E3F THAI CURRENCY SYMBOL BAHT
 ៛    6107 0017DB KHMER CURRENCY SYMBOL RIEL
 ₠    8352 0020A0 EURO-CURRENCY SIGN
 ₡    8353 0020A1 COLON SIGN
 ₢    8354 0020A2 CRUZEIRO SIGN
 ₣    8355 0020A3 FRENCH FRANC SIGN
 ₤    8356 0020A4 LIRA SIGN
 ₥    8357 0020A5 MILL SIGN
 ₦    8358 0020A6 NAIRA SIGN
 ₧    8359 0020A7 PESETA SIGN
 ₨    8360 0020A8 RUPEE SIGN
 ₩    8361 0020A9 WON SIGN
 ₪    8362 0020AA NEW SHEQEL SIGN
 ₫    8363 0020AB DONG SIGN
 €    8364 0020AC EURO SIGN
 ₭    8365 0020AD KIP SIGN
 ₮    8366 0020AE TUGRIK SIGN
 ₯    8367 0020AF DRACHMA SIGN
 ₰    8368 0020B0 GERMAN PENNY SIGN
 ₱    8369 0020B1 PESO SIGN
 ₲    8370 0020B2 GUARANI SIGN
 ₳    8371 0020B3 AUSTRAL SIGN
 ₴    8372 0020B4 HRYVNIA SIGN
 ₵    8373 0020B5 CEDI SIGN
 ₶    8374 0020B6 LIVRE TOURNOIS SIGN
 ₷    8375 0020B7 SPESMILO SIGN
 ₸    8376 0020B8 TENGE SIGN
 ꠸   43064 00A838 NORTH INDIC RUPEE MARK
 ﷼   65020 00FDFC RIAL SIGN
 ﹩   65129 00FE69 SMALL DOLLAR SIGN
 $   65284 00FF04 FULLWIDTH DOLLAR SIGN
 ¢   65504 00FFE0 FULLWIDTH CENT SIGN
 £   65505 00FFE1 FULLWIDTH POUND SIGN
 ¥   65509 00FFE5 FULLWIDTH YEN SIGN
 ₩   65510 00FFE6 FULLWIDTH WON SIGN

В то время как в BMP есть те, которые не былив Unicode 4.1 пока нет;обратите внимание, как вы можете комбинировать свойства и отрицания, чтобы получать наборы символов Unicode.

% unichars --bmp '\p{Sc}' '\P{In:4.1}'
 ৻  2555 09FB BENGALI GANDA MARK
 ₶  8374 20B6 LIVRE TOURNOIS SIGN
 ₷  8375 20B7 SPESMILO SIGN
 ₸  8376 20B8 TENGE SIGN
 ꠸ 43064 A838 NORTH INDIC RUPEE MARK

Если у вас нет unichars и uniprops в вашей системе, просто отправьте мне письмо, и яотправить их вам.Это маленькие крошечные утилиты на чистом Perl, никаких дополнительных модулей не требуется.

2 голосов
/ 15 ноября 2010

Поместите это в верхней части кода:

use utf8;

Как описано в документации , это означает, что код содержит строки в кодировке utf8.

1 голос
/ 15 ноября 2010

Следующий модуль содержит символы валют для наиболее известных валют:

Locale :: Объект :: Валюта

0 голосов
/ 15 ноября 2010

Как отметил @Kinopiko в своем комментарии к вопросу, ваш стиль кода нуждается в некоторой работе.Запуск его через PerlTidy для отображения отступа показывает:

if ( $curr eq "\$" ) {
    print CURRENCY "Currency: Dollars($curr)\n";
}
else {
    if ( $curr eq "£" ) {
        print CURRENCY "Currency: Pounds($curr)\n";
    }
    else {
        if ( $curr eq "€" ) {
            print CURRENCY "Currency: Euros($curr)\n";
        }

Это показывает нам некоторые пропущенные закрывающие скобки (} символы), которые будут синтаксическими ошибками.Как минимум, для кода нужны еще две фигурные скобки, закрывающие операторы if.

use warnings;
use strict;

if ( $curr eq "\$" ) {
    print CURRENCY "Currency: Dollars($curr)\n";
}
else {
    if ( $curr eq "£" ) {
        print CURRENCY "Currency: Pounds($curr)\n";
    }
    else {
        if ( $curr eq "€" ) {
            print CURRENCY "Currency: Euros($curr)\n";
        }
    }
}

Обычно мы пишем это примерно так:

use warnings;
use strict;

if ( $curr eq "\$" ) {
    print CURRENCY "Currency: Dollars($curr)\n";
}
elsif ( $curr eq "£" ) {
    print CURRENCY "Currency: Pounds($curr)\n";
}
elsif ( $curr eq "€" ) {
    print CURRENCY "Currency: Euros($curr)\n";
} else {
    print "Unexpected currency symbol \"$curr\" found."
    exit;
}

, хотя я склоненструктурируйте его следующим образом:

use warnings;
use strict;

if    ( $curr eq "\$" ) { print CURRENCY "Currency: Dollars($curr)\n"; }
elsif ( $curr eq "£" )  { print CURRENCY "Currency: Pounds($curr)\n";  }
elsif ( $curr eq "€" )  { print CURRENCY "Currency: Euros($curr)\n";   } 
else {
    print "Unexpected currency symbol \"$curr\" found."
    exit;
}

Обратите внимание, что в конце цепочки if/elsif я добавил завершающий оператор else, чтобы захватить потенциальную логическую дыру, которая произошла бы, если бы предыдущий $curr не совпалсимвол.Это простой способ перехватить пропущенные тесты, но он абсолютно не нужен, если ваша логика кода справляется с ситуацией.

Если у вас их еще нет, добавьте эти две строки в начало кода:

use warnings;
use strict;

, чтобы сообщить Perl, что он критически относится к ошибкам и возможным ошибкам.

...