Для этого обычно требуется реквекс.Извините, но это часть искусства царапанья.Мои две любимые функции, связанные с регулярным выражением, для очистки / очистки: gsub
и strsplit
, например:
gsub("Â", "", "edsÂedfde", fixed=TRUE)
strsplit("e/d/sÂedfde", "Â", fixed=TRUE)[[1]][2]
Запятые в ваших числах также должны быть удалены, если вы хотите, чтобы данныебыть числовым.
РЕДАКТИРОВАТЬ: Я также предлагаю вам ознакомиться с работой моего друга Брайана по анализу HTML-данных здесь (ССЫЛКА) .