Question

Этот вопрос относится к предыдущему one о том, как заменить акцентированные строки, такие как México, эквивалентным Latex кодом M\'{e}xico.

Моя проблема здесь немного другая. Я использую стороннюю базу данных со строковыми переменными с испанскими акцентами, как указано выше. Однако кодировка выглядит странной, так как я получаю следующее поведение:

> grep("México",temp$dest_nom_ent)
integer(0)
> grep("Mexico",temp$dest_nom_ent)
integer(0)
> grep("xico",temp$dest_nom_ent)
[1] 18 19 20
> temp$dest_nom_ent[grep("xico",temp$dest_nom_ent)]
[2] "México" "México" "México"

, где temp$dest_nom_ent - переменная с именами состояний México.

Тогда мой вопрос заключается в том, как преобразовать строковую переменную из сторонней базы данных в кодировку, распознаваемую стандартными функциями R. Обратите внимание:

> Encoding(temp$dest_nom_ent)
 [1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
 [8] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
[15] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
[22] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
[29] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
[36] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
[43] "unknown" "unknown"

Для получения дополнительной информации я использую Windows 7 64. Также обратите внимание:

> charToRaw(temp$dest_nom_ent[18])
[1] 4d e9 78 69 63 6f

Который из этого источника совпадает с испанским языком Windows (традиционная сортировка).

M=4d
é=e9
x=78
i=69
c=63
o=6f

А также примечание:

> charToRaw("México")
[1] 4d c3 a9 78 69 63 6f
> Encoding("México")
[1] "latin1"

Я безуспешно пробовал следующее (например, значение grep("é",temp$dest_nom_ent) возвращает нулевой вектор):

Encoding(temp$dest_nom_ent)<-"latin1"
temp$dest_nom_ent <- iconv(temp$dest_nom_ent,"","latin1")
temp$dest_nom_ent  <- enc2utf8(temp$dest_nom_ent)
...

Я проверил поддерживаемые наборы символов, используя iconvlist() и "WINDOWS-1252". Следующее, однако, не сработало:

> temp1 <- temp$dest_nom_ent[grep("xico",temp$dest_nom_ent)]
> temp1
[1] "México" "México" "México"
> Encoding(temp1)<-"WINDOWS-1252"
> temp1 <- iconv(temp1,"WINDOWS-1252","latin1")
> temp1
[1] "México" "México" "México"
> Encoding(temp1)
[1] "latin1" "latin1" "latin1"
> charToRaw(temp1[1])
[1] 4d e9 78 69 63 6f
> grep("é",temp1)
integer(0)

, который сравнивается с:

> temp2 <- c("México","México","México")
> temp2
[1] "México" "México" "México"
> Encoding(temp2)
[1] "latin1" "latin1" "latin1"
> charToRaw(temp2[1])
[1] 4d c3 a9 78 69 63 6f
> grep("é",temp2)
[1] 1 2 3)

Пытался выяснить кодировку с помощью грубой силы, например:

try(for(i in 1:length(iconvlist())){
    temp1 <- temp$dest_nom_ent[grep("xico",temp$dest_nom_ent)]
    Encoding(temp1)<-iconvlist()[i]
    temp1 <- iconv(temp1,iconvlist()[i],"latin1")
    print(grep("é",temp1))
    print(i)
        },silent=FALSE)

Я не знаком с функцией try, но она по-прежнему игнорирует ошибку, а не игнорирует ее, поэтому не может проверить весь список:

...
[1] 17
integer(0)
[1] 18
integer(0)
[1] 19
integer(0)
[1] 20
Error in iconv(temp1, iconvlist()[i], "latin1") : 
  unsupported conversion from 'CP-GR' to 'latin1' in codepage 1252

Наконец:

> Sys.getlocale()
[1] "LC_COLLATE=English_United States.1252;LC_CTYPE=English_United States.1252;LC_MONETARY=English_United States.1252;LC_NUMERIC=C;LC_TIME=English_United States.1252"
> d<-c("México","México")
> for(i in 1:7){d1 <- str_sub(d[1],i,i); print(d1)}
[1] "M"
[1] "Ã"
[1] "©
[1] "x"
[1] "i"
[1] "c"
[1] "o"
> print(grep("é",d))
[1] 1 2

Так что, похоже, мне придется изменить локаль компьютера, как предложено здесь . Также см. здесь

PS: В случае, если вам интересно, как с локалью English_United States.1252 мне удалось набрать d<-c("México","México"), можно настроить вторичную испанскую клавиатуру (традиционную сортировку), используя Control Panel > Clock, Language and Region > Region and Language > Keyboards and Languages > Change Keyboards и в installed services, нажмите кнопку Добавить и перейти к испанскому традиционному сорту. Затем под advanced key settings вы можете создать ярлык для переключения клавиатуры. В моем случае Shit+Alt. Поэтому, если я хочу набрать ñ в английском языке по умолчанию, я делаю Shift+Alt, затем ; и затем Shift+Alt, чтобы вернуться к английской клавиатуре.

Richie Cotton · Answer 1 · 15 июля 2011

Посмотрите, что такое кодировки temp$dest_nom_ent и "México", используя Encoding(x). Вам может потребоваться конвертировать с enc2native или enc2utf8.

Fred · Answer 2 · 15 июля 2011

Ну, я не мог определить кодирование акцентов, но следующее выполняет то, что я хотел.Хитрость заключалась в том, чтобы преобразовать в UTF-8, установить параметр sub() useBytes=TRUE и предложение Джорана , чтобы использовать sanitize.text.function=function(x){x} для xtable().Вот пример кода.Легко зацикливать на всех ударных гласных:

> temp1 <- unique(temp$dest_nom_ent)
> temp1
 [1] "Aguascalientes"                  "Baja California"                
 [3] "Baja California Sur"             "Campeche"                       
 [5] "Coahuila de Zaragoza"            "Colima"                         
 [7] "Chiapas"                         "Guanajuato"                     
 [9] "Guerrero"                        "Hidalgo"                        
[11] "Jalisco"                         "México"                         
[13] "Michoacán de Ocampo"             "Morelos"                        
[15] "Nayarit"                         "Oaxaca"                         
[17] "Puebla"                          "Querétaro"                      
[19] "Quintana Roo"                    "San Luis Potosí"                
[21] "Sinaloa"                         "Tabasco"                        
[23] "Tlaxcala"                        "Veracruz de Ignacio de la Llave"
[25] "Zacatecas"                      
> temp1 <- iconv(unique(temp1),"","UTF-8")
> temp1
 [1] "Aguascalientes"                  "Baja California"                
 [3] "Baja California Sur"             "Campeche"                       
 [5] "Coahuila de Zaragoza"            "Colima"                         
 [7] "Chiapas"                         "Guanajuato"                     
 [9] "Guerrero"                        "Hidalgo"                        
[11] "Jalisco"                         "México"                         
[13] "Michoacán de Ocampo"             "Morelos"                        
[15] "Nayarit"                         "Oaxaca"                         
[17] "Puebla"                          "Querétaro"                      
[19] "Quintana Roo"                    "San Luis Potosí"                
[21] "Sinaloa"                         "Tabasco"                        
[23] "Tlaxcala"                        "Veracruz de Ignacio de la Llave"
[25] "Zacatecas"                      
> Encoding(temp1)
 [1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
 [8] "unknown" "unknown" "unknown" "unknown" "UTF-8"   "UTF-8"   "unknown"
[15] "unknown" "unknown" "unknown" "UTF-8"   "unknown" "UTF-8"   "unknown"
[22] "unknown" "unknown" "unknown" "unknown"
> temp2 <- sub("é", "\\\\'{e}", temp1, useBytes = TRUE)
> temp2 <- data.frame(temp2)
> print(xtable(temp2),sanitize.text.function=function(x){x})
% latex table generated in R 2.13.1 by xtable 1.5-6 package
% Fri Jul 15 13:52:44 2011
\begin{table}[ht]
\begin{center}
\begin{tabular}{rl}
  \hline
 & temp2 \\ 
  \hline
1 & Aguascalientes \\ 
  2 & Baja California \\ 
  3 & Baja California Sur \\ 
  4 & Campeche \\ 
  5 & Coahuila de Zaragoza \\ 
  6 & Colima \\ 
  7 & Chiapas \\ 
  8 & Guanajuato \\ 
  9 & Guerrero \\ 
  10 & Hidalgo \\ 
  11 & Jalisco \\ 
  12 & M\'{e}xico \\ 
  13 & Michoacán de Ocampo \\ 
  14 & Morelos \\ 
  15 & Nayarit \\ 
  16 & Oaxaca \\ 
  17 & Puebla \\ 
  18 & Quer\'{e}taro \\ 
  19 & Quintana Roo \\ 
  20 & San Luis Potosí \\ 
  21 & Sinaloa \\ 
  22 & Tabasco \\ 
  23 & Tlaxcala \\ 
  24 & Veracruz de Ignacio de la Llave \\ 
  25 & Zacatecas \\ 
   \hline
\end{tabular}
\end{center}
\end{table}

Как на самом деле реализовано в цикле:

temp$dest_nom_ent <- iconv(
        temp$dest_nom_ent,"","UTF-8")
temp$dest_nom_mun <- iconv(
        temp$dest_nom_mun,"","UTF-8")
accents <-c("á","é","í","ó","ú")
latex <-c("\\\\'{a}","\\\\'{e}","\\\\'{i}","\\\\'{o}","\\\\'{u}")
for(i in 1:5){
    temp$dest_nom_ent<-sub(accents[i], latex[i], 
            temp$dest_nom_ent, useBytes = TRUE)
    temp$dest_nom_mun<-sub(accents[i], latex[i], 
            temp$dest_nom_ent, useBytes = TRUE)
}
capture.output(
        print(xtable(temp),sanitize.text.function=function(x){x}),
        file = "../paper/rTables.tex", append = FALSE)

Тем не менее, ответ неполон в том, что я не могу объяснить, что именно происходило.Обнаружил это методом проб и ошибок.

42- · Answer 3 · 15 июля 2011

Попробуйте установить кодировку строки на один из «ISO_8859-1» «ISO_8859-15».

Еще два предложения ... затем я отказываюсь: "UTF-16" "UTF-16LE". Второе - UTF little-endian, я верю и читал, что это то, что на самом деле использует Windows 7. Можно также попробовать "UTF-16BE". (Материал получен из другого стека обменного поста; https://superuser.com/questions/221593/windows-7-utf-8-and-unicode)

Как определить кодирование акцентов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как определить кодирование акцентов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы