Как отображать странные символы в кодировке R - PullRequest
0 голосов
/ 19 февраля 2020

Привет У меня есть какое-то имя, которое вырезано из inte rnet с помощью HTML.

Когда имя сохранено в кадре данных, оно отображает странный символ.

Например

                  NAME
Hampus BrodÃn
GÃnther Hollfelder
AndrÈPhilippe Hardy
Claes LundstrÃm
IvÃn Barona

Когда я проверяю кодировку, например:

Encoding("Hampus BrodÃn")

Это показывает, что все они уже в формате "latin1". Я пытался изменить их в формате "UTF-8". Похоже, что в некоторых случаях ƒ пропало.

                  NAME
Hampus BrodÃn
GÃnther Hollfelder
AndrÃ^Philippe Hardy
Claes LundstrÃm
IvÃn Barona

Глядя в Google, кажется, что этот странный символ "Ã" в основном "é".

То же самое относится и к AndrÃƒË † Philippe Hardy -> André-Philippe Hardy, поэтому этот бит «Ã †» равен «é -».

В настоящее время языковой стандарт моего компьютера установлен на

Sys.getlocale()
"LC_COLLATE=English_United States.1252;LC_CTYPE=English_United States.1252;LC_MONETARY=English_United States.1252;LC_NUMERIC=C;LC_TIME=English_United States.1252"

Есть ли способ правильно отобразить эти странные символы в R?

Я не могу позволить себе пересмотреть html, так как это заняло довольно много времени ...

Спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...