Как вы конвертируете коды (как в кодировке, кодировке) в строки кодированных символов? - PullRequest
2 голосов
/ 02 ноября 2019

Как вы определяете отдельные символы по коду и производите символьный вектор?

В Python 3 вы можете сделать что-то вроде

''.join(map(chr, range(255)))

Непосредственным применением является создание символакодовая таблица с использованием pdf и шрифтов Base 14. Для последующего использования.

Я ищу что-то вроде

foo <- function(x, y) {
    # WHAT GOES HERE?
}

bar <- foo(0:255, "PDF")

Тогда

pdf(file="~/test.pdf", what else?)
plot(0)
text(0, 0, labels=bar)

должно пометить (0, 0) с все символы соответствуют bar.

1 Ответ

0 голосов
/ 02 ноября 2019

Функция as.raw() преобразует числа в необработанные коды символов. Функция rawToChar() преобразует их в символы. Сложность состоит в том, что большинство систем, кроме Windows, в настоящее время используют кодировки UTF-8, и это многобайтовые кодировки, но не все значения соответствуют допустимым символам.

Вы получите ошибку, если попытаетесь

rawToChar(as.raw(0:255))

, потому что 0 не является допустимым байтом в строке. Если вы попробуете

rawToChar(as.raw(1:255))

, вы получите строку, которая печатается в моей консоли следующим образом:

[1] "\001\002\003\004\005\006\a\b\t\n\v\f\r\016\017\020\021\022\023\024\025\026\027\030\031\032\033\034\035\036\037 !\"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\177\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa0\xa1\xa2\xa3\xa4\xa5\xa6\xa7\xa8\xa9\xaa\xab\xac\xad\xae\xaf\xb0\xb1\xb2\xb3\xb4\xb5\xb6\xb7\xb8\xb9\xba\xbb\xbc\xbd\xbe\xbf\xc0\xc1\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xcb\xcc\xcd\xce\xcf\xd0\xd1\xd2\xd3\xd4\xd5\xd6\xd7\xd8\xd9\xda\xdb\xdc\xdd\xde\xdf\xe0\xe1\xe2\xe3\xe4\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf0\xf1\xf2\xf3\xf4\xf5\xf6\xf7\xf8\xf9\xfa\xfb\xfc\xfd\xfe\xff"

Если вы используете multiple = TRUE в вызове rawToChar, вы 'я получу отдельную строку из каждого байта;в этом случае вы можете включить 0 для пустой строки. Это построит таблицу:

nibble1 <- rep(0:15, each=16)
nibble2 <- rep(0:15, 16)
byte <- nibble1*16 + nibble2
pdf("table.pdf")
plot(nibble1, nibble2, type = "n") 
text(nibble1, nibble2, rawToChar(as.raw(0:255), multiple = TRUE))
dev.off()

Однако это не стандартная кодировка Adobe, а какая-либо кодировка, используемая в вашей системе. Если вы действительно хотите увидеть кодировку Adobe, вам нужно преобразовать в Unicode перед отображением. Это сложно, потому что iconv() (по крайней мере, в моей системе) не знает кодировку Adobe. Тем не менее, этот вид делает это:

ASE2Unicode <- read.delim("ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/ADOBE/stdenc.txt", 
                          comment.char="#", head=FALSE)
ASE2Unicode$V1 <- strtoi(ASE2Unicode$V1, 16)
ASE2Unicode$V2 <- strtoi(ASE2Unicode$V2, 16)
chars <- rep("", 256)
chars[ASE2Unicode$V2] <- intToUtf8(ASE2Unicode$V1, multiple = TRUE)
pdf("table2.pdf")
plot(nibble1, nibble2, type = "n") 
text(nibble1, nibble2, chars)
dev.off()

Это только "своего рода", потому что некоторые символы не выживают при переводе:

enter image description here

...