Чтение htmls, закодированных в windows-1251 (рус) - PullRequest
3 голосов
/ 22 февраля 2012

У меня возникли проблемы при разборе html-файла, закодированного в windows-1251 или CP1251 (на русском). В качестве примера приведен html-файл:

<meta http-equiv=Content-Type content="text/html; charset=windows-1251">
<table cellspacing="0" cellpadding="2" border="0" width="100%">
                          <tr bgcolor="#FFFFFF">
                            <td class="xl27" align="center">Место</td>
                            <td class="xl27" align="center">ПИФ</td>
                            <td class="xl27" align="center">УК</td>
                            <td class="xl27" align="center">Тип фонда</td>
                            <td class="xl27" align="center">Категория фонда</td>
                            <td class="xl27" align="center">Специализация</td>
                            <td class="xl27" align="center">Доходность</td>
                           </tr></table>

Я запускаю следующий скрипт:

Sys.setlocale("LC_ALL", "Russian_Russia.1251")
require(XML)
htmlfile<-paste('C:\\YourWD\\data.html')
htable<-readHTMLTable(htmlfile)[[1]]

А вывод для htable [1,1] - это что-то вроде "я" Кодировка которого определяется как "неизвестная"

unique(sapply(tab,function(x)Encoding(as.character(x))))

Заранее спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...