Мне интересно использовать R для интеллектуального анализа данных в исследованиях медиа.
Когда я pars xml (просматривая Google RSS) национальный символ (кириллица) ломается:
>xml <- xmlTreeParse(url, useInternalNodes = T)
>xml
<? xml version="1.0" encoding="UTF‑8"?>
<rss version="2.0">
<channel>
<generator>NFE/1.0</generator>
<title>югра OR ханты OR хмао – Новости Google</title>
…
МойСистема:
sessionInfo ()
R версия 2.13.1 (2011-07-08)
Platform: i386-pc‑mingw32/i386 (32-bit)
locale:
[1] LC_COLLATE=Russian_Russia.1251 LC_CTYPE=Russian_Russia.1251
[3] LC_MONETARY=Russian_Russia.1251 LC_NUMERIC=C
[5] LC_TIME=Russian_Russia.1251
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] XML_3.4-2.2 RCurl_1.6-10.1 bitops_1.0-4.1
loaded via a namespace (and not attached):
[1] tools_2.13.1
Я пытаюсь использовать любые пользовательские параметры (localeToCharset(locale="ru_RU.UTF-8")
) - без эффекта.
Я выполняю синтаксический анализ в Linux (Lubuntu 11.04) - нет проблем, вывод национального символа правильный.
Извините за мой английский.
Есть идеи?
Спасибо.