R: iconv для удаления не работающих символов ASCII - PullRequest
0 голосов
/ 30 ноября 2018

У меня есть набор данных, содержащий данные Twitter, и я пытаюсь удалить из него все символы, не относящиеся к ASCII.Строки набора данных в настоящее время выглядят так:

'С нетерпением жду сегодняшнего вечера и болею за тех, кто имеет сильную конкуренцию.Sh \ u2026 '

, и я хотел бы получить это:

' С нетерпением жду сегодняшнего вечера и болею за тех, кто имеет сильную конкуренцию.Sh '

Поскольку кодировка моего CSV-файла была «неизвестна», я вынудил его к «UTF-8», используя read.csv2(file, encoding='UTF-8').Кроме того, я преобразовал свой текстовый столбец в вектор, используя as.vector(x), а затем попытался:

iconv(x, from = "UTF-8", to = "ASCII", sub = '')

и

sapply(x, function(row) iconv(row, "UTF-8", "ASCII", sub=""))

в качестве решений, которые я нашел в других подобных вопросах.Однако ничего не изменилось ни в наборе данных, ни в векторе.

Есть идеи о том, что это может быть за проблема?

...