Я только что столкнулся с этой проблемой. Случайно ли вы используете машину под управлением OSX? Я, кажется, проследил проблему до определения набора символов, с которым R компилируется в этой операционной системе (см. https://stat.ethz.ch/pipermail/r-sig-mac/2012-July/009374.html)
Что я увидел, так это использование решения из FAQ
tm_map(yourCorpus, function(x) iconv(enc2utf8(x), sub = "byte"))
давал мне это предупреждение:
Warning message:
it is not known that wchar_t is Unicode on this platform
Это я проследил до функции enc2utf8
. Плохая новость заключается в том, что это проблема моей основной ОС, а не R.
Итак, вот что я сделал для обхода:
tm_map(yourCorpus, function(x) iconv(x, to='UTF-8-MAC', sub='byte'))
Это вынуждает iconv использовать кодировку utf8 на Macintosh и прекрасно работает без необходимости перекомпиляции.