R: Как обрабатывать необработанные / байтовые символы, смешанные с латинскими символами - PullRequest
0 голосов
/ 08 ноября 2018

У меня есть несколько электронных писем с raw вместо латинских символов 1 для æ, Æ, ø, Ø, å, Å.

# My string
my_string = "Den vedh=E6ftede"

# Should be
"Den vedhæftede fil"

# Raw character for E6
> charToRaw("æ")
[1] e6

Можно ли преобразовать данные обратно в правильный формат, кроме замены строки?

# Naive solution (with potential problems)
> gsub("=E6", "æ", "Den vedh=E6ftede")
[1] "Den vedhæftede"

Ошибка замены строки, если в письмах естественным образом присутствует "= E6".

Есть предложения?

...