Я работаю со списком текста, который содержит информацию PII, которая маскируется как XXXX XXXX, это могут быть номера фом или номера адресов. Я хочу снять маску.
x <- c('This is my phone number xxx xxx xxx', 'The account number is XXXXXXXXXX', 'Her age is xx', 'The credit number is xxxx xxxx xxxx xxxx', 'This is the list of accounts xxxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxxxx xxxxxxxxxxxx')
Я написал что-то подобное, но это не заменяет все:
gsub("(?:\\s+|^)\\S*(?<!\\w)(?:xxxx?|xxxxxxxx)(?!\\w)\\S*", "", x, perl=TRUE)
Как мне улучшить этот код?
ожидаемый результат:
«Это мой номер телефона», «Номер счета», «Её возраст», «Номер кредита», «Это список счетов»