У меня есть набор данных, содержащий данные Twitter, и я пытаюсь удалить из него все символы, не относящиеся к ASCII.Строки набора данных в настоящее время выглядят так:
'С нетерпением жду сегодняшнего вечера и болею за тех, кто имеет сильную конкуренцию.Sh \ u2026 '
, и я хотел бы получить это:
' С нетерпением жду сегодняшнего вечера и болею за тех, кто имеет сильную конкуренцию.Sh '
Поскольку кодировка моего CSV-файла была «неизвестна», я вынудил его к «UTF-8», используя read.csv2(file, encoding='UTF-8')
.Кроме того, я преобразовал свой текстовый столбец в вектор, используя as.vector(x)
, а затем попытался:
iconv(x, from = "UTF-8", to = "ASCII", sub = '')
и
sapply(x, function(row) iconv(row, "UTF-8", "ASCII", sub=""))
в качестве решений, которые я нашел в других подобных вопросах.Однако ничего не изменилось ни в наборе данных, ни в векторе.
Есть идеи о том, что это может быть за проблема?