Привет У меня есть какое-то имя, которое вырезано из inte rnet с помощью HTML.
Когда имя сохранено в кадре данных, оно отображает странный символ.
Например
NAME
Hampus BrodÃn
GÃnther Hollfelder
AndrÈPhilippe Hardy
Claes LundstrÃm
IvÃn Barona
Когда я проверяю кодировку, например:
Encoding("Hampus BrodÃn")
Это показывает, что все они уже в формате "latin1". Я пытался изменить их в формате "UTF-8". Похоже, что в некоторых случаях ƒ пропало.
NAME
Hampus BrodÃn
GÃnther Hollfelder
AndrÃ^Philippe Hardy
Claes LundstrÃm
IvÃn Barona
Глядя в Google, кажется, что этот странный символ "Ã" в основном "é".
То же самое относится и к AndrÃƒË † Philippe Hardy -> André-Philippe Hardy, поэтому этот бит «Ã †» равен «é -».
В настоящее время языковой стандарт моего компьютера установлен на
Sys.getlocale()
"LC_COLLATE=English_United States.1252;LC_CTYPE=English_United States.1252;LC_MONETARY=English_United States.1252;LC_NUMERIC=C;LC_TIME=English_United States.1252"
Есть ли способ правильно отобразить эти странные символы в R?
Я не могу позволить себе пересмотреть html, так как это заняло довольно много времени ...
Спасибо.