Я хочу задокументировать шестнадцатеричные кодовые точки Юникода для строк, которые вырезаны и вставлены в bash в качестве аргумента. орд не делает этого; Похоже, что ord работает только в рамках ascii.
Большая часть того, что я нашел в отношении ord, имеет возраст не менее шести лет и больше не имеет отношения к делу, поскольку я использую v5.24, который, как я прочитал, имеет встроенную поддержку юникода.
В питоне это тривиально:
for i in unicode(sys.argv[1], 'utf-8'):
print i.encode("utf_16_be").encode("hex")
, который работает от Bash.
Я думаю, что проблема в самой функции ord, которая не обновляется для юникода.
# ord.pl does not provide the unicode code point for a pasted variable.
use strict;
use warnings;
#use charnames (); #nope.
#use feature 'unicode_strings'; #nope. Already automatically using as of v5.12.
#use utf8; #nope.
#binmode(STDOUT, ":encoding(UTF-8)"); #nope.
my $arg = "";
foreach $arg (@ARGV) {
print $arg . " is " . ord($arg) . " in code.\n"; # seems to me ord is ascii only.
#utf8::encode($arg); #nope.
#print unpack("H*", $arg) . "\n"; #nope.
#printf "%vX\n", $arg; #nope.
}
, который получает:
david@A8DT01:~/bin$ ord.pl A B C D a b c d \ \\ … — €
A is 65 in code.
41
B is 66 in code.
42
C is 67 in code.
43
D is 68 in code.
44
a is 97 in code.
61
b is 98 in code.
62
c is 99 in code.
63
d is 100 in code.
64
is 32 in code.
20
\ is 92 in code.
5c
… is 226 in code.
c3a2c280c2a6
— is 226 in code.
c3a2c280c294
is 239 in code.
c3afc280c2a8
€ is 226 in code.
c3a2c282c2ac
david@A8DT01:~/bin$
Я хотел бы получить вывод, полученный в python:
david@A8DT01:~/bin$ python code-points.py "ABCDabcd \ … — €"
0041
0042
0043
0044
0061
0062
0063
0064
0020
005c
0020
2026
0020
2014
0020
f028
0020
20ac
david@A8DT01:~/bin$