Я пытаюсь использовать пакет tm в R для выполнения анализа текста. Я связал следующее:
require(tm)
dataSet <- Corpus(DirSource('tmp/'))
dataSet <- tm_map(dataSet, tolower)
Error in FUN(X[[6L]], ...) : invalid input 'RT @noXforU Erneut riesiger (Alt-)�lteppich im Golf von Mexiko (#pics vom Freitag) http://bit.ly/bw1hvU http://bit.ly/9R7JCf #oilspill #bp' in 'utf8towcs'
Проблема в том, что некоторые символы недопустимы. Я хотел бы исключить недопустимые символы из анализа либо из R, либо до импорта файлов для обработки.
Я попытался с помощью iconv преобразовать все файлы в utf-8 и исключить все, что не может быть преобразовано в это, следующим образом:
find . -type f -exec iconv -t utf-8 "{}" -c -o tmpConverted/"{}" \;
как указано здесь Пакетное преобразование файлов latin-1 в utf-8 с помощью iconv
Но я все еще получаю ту же ошибку.
Буду признателен за любую помощь.