Я пытаюсь выполнить очистку данных, которые требуют очистки некоторого текста на основе определенного шаблона, но я все еще новичок в регулярном выражении, основанном на RegExCheatsheet , я попробую несколько простых регулярных выражений для очистки данных (удалите любой шаблон, например, 1000 и 1000 долларов США).
Ниже приведены примеры строк:
[1] "(Promotion) stuff ABC 1pcs"
[2] "(Trial) $200 stuff XYZ 200pcs"
[3] "(Test) $1000 stuff WER 5000pcs"
Я попробовал метод, как показано ниже
x <- c("(Promotion) stuff ABC 1pcs",
"(Trial) $200 stuff XYZ 20pcs",
"(Test) $1000 stuff WER 5000pcs")
gsub('$[0-9][0-9][0-9][0-9]','',x) #replace all $200, $1000 & etc.. into ""
gsub('[0-9][0-9][0-9][0-9]pcs','',x) #replace all 1pcs, 20pcs, 5000pcs & etc.. into ""
Вопрос: Есть ли лучше (более динамичное регулярное выражение), чтобы захватить модель "$ 200 / 5000pcs"? Обратите внимание, что диапазон данных для $ и шт неизвестен, может начинаться с 1 до 10000 или более.
Ожидаемый результат (после подстроки):
[1] "(Promotion) stuff ABC"
[2] "(Trial) stuff XYZ"
[3] "(Test) stuff WER"
Любая помощь и комментарии приветствуются, спасибо!