наверху страницы написано
<meta http-equiv="content-type" content="text/html;charset=gb2312">
, что в википедии гласит:
GB2312 - зарегистрированное имя в Интернете для ключевого официального набора символов Китайской Народной Республики,используется для упрощенных китайских символов
Что кажется подходящим (но все же может быть ошибкой).
Чтобы найти поддерживаемые кодировки на вашей платформе:
iconvlist()
по моему, это включает "GB2312".Давайте преобразуем его с помощью iconv:
> a <- readLines("http://www.baidu.com/s?wd=r+project")[132]
> iconv(a, from="gb2312")
[1] "<div id=\"foot\">©2010 Baidu <span>此内容系百度根据您的指令自动搜索的结果,不代表百度赞成被搜索网站的内容或立场</span></div>"
Вот скриншот для хорошей меры:
В долгосрочной перспективе вам нужно будет найти и использовать параметр кодирования из каждоговеб-страница, которую вы загружаете, чтобы получить правильную кодировку.