WinXP-x32, R-2.13.0
Уважаемый список,
У меня есть проблема, которая (я думаю) связана с взаимодействием между Windows и R.
Я пытаюсь очистить таблицу с данными о Гавайских островах. Это мой код R:
library(XML)
u <- "http://en.wikipedia.org/wiki/Hawaii"
tables <- readHTMLTable(u)
Islands <- tables[[5]]
Вывод (первый набор столбцов):
Island Nickname > > Islands
Island Nickname > > Location 1 Hawaiʻi[7] The Big
Остров 19 ° 34 € N 155 ° 30 € WI /
• 19,567 ° с.ш. 155,5 ° в.д. »/ 19,567;
-155,5 2 Мауи [8] Остров Долины 20 ° 48… N 156 ° 20 € Wï »¿/
¿»¿20,8 ° с.ш. 156,333 ° С» ¿/ 20,8;
-156.333 3 KahoÊ »olawe [9] Целевой остров 20 ° 33 € N
156 ° 36 € / мин> 20,55 ° с.ш.
156,6 ° С »/ 20,55; -156.6 4 LÄnaÊ »i [10] Остров Ананас
20 ° 50 € N 156 ° 56 € WI ¿/
• 20,833 ° с.ш. 156,933 ° с.ш. / 20,833;
-156,933 5 MolokaÊ »i [11] Остров Дружественных народов 21 ° 08 € N
157 ° 02 € WI ¿/ ï »¿21.133 ° N
157,033 ° С »/ 21,133; -157.033 6 OÊ »ahu [12] Место сбора
21 ° 28 € N 157 ° 59 € WI ¿/
ï »¿21,467 ° N 157,983 ° W» ¿/ 21,467;
-157,983 7 KauaÊ »i [13] The Garden Isle 22 ° 05 € N
159 ° 30 € / мин> 22,083 ° N
159,5 ° С / С / 22,083; -159,5 8 NiÊ »ihau [14] Запретный остров
21 ° 54 € N 160 ° 10 € WI ¿/ ï ¿21,9 ° N
160,167 ° С »/ 21,9; -160,167
Как видите, там есть "странные" персонажи. Я также пробовал readHTMLTable(u, encoding = "UTF-16")
и readHTMLTable(u, encoding = "UTF-8")
но это не помогло.
Мне кажется, что может быть проблема с взаимодействием настроек Windows набора символов и R.
sessionInfo()
т
> sessionInfo()
R version 2.13.0 (2011-04-13)
Platform: i386-pc-mingw32/i386 (32-bit)
locale:
[1] LC_COLLATE=Dutch_Netherlands.1252 LC_CTYPE=Dutch_Netherlands.1252 LC_MONETARY=Dutch_Netherlands.1252
[4] LC_NUMERIC=C LC_TIME=Dutch_Netherlands.1252
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] XML_3.2-0.2
Я также попытался разрешить R использовать другую настройку, введя: Sys.setlocale("LC_ALL", "en_US.UTF-8")
, но это дает ответ:
> Sys.setlocale("LC_ALL", "en_US.UTF-8")
[1] ""
Warning message:
In Sys.setlocale("LC_ALL", "en_US.UTF-8") :
OS reports request to set locale to "en_US.UTF-8" cannot be honored
Кроме того, я попытался внести изменение непосредственно из командной строки Windows, используя: chcp 65001
и его варианты, но это ничего не изменило.
При поиске в Интернете я заметил, что у других тоже есть проблема, но они не смогли найти решение. Похоже, это вопрос взаимодействия Windows и R. К сожалению, все три компьютера в моем распоряжении имеют эту проблему. Это происходит как под WinXP-x32, так и под Win7-x86.
Есть ли способ заставить R переопределить настройки Windows или проблему можно решить иначе?
Я также пробовал другие веб-сайты, и эта проблема возникает каждый раз, когда в тексте, который нужно выковывать, есть é, ü, ä, î и так далее.
Спасибо,
Roger