У меня есть шаблон регулярного выражения, который идентифицирует даты во всем столбце дат, но некоторые даты включены в строку, в то время как некоторые сами по себе являются просто датами.Мой шаблон регулярных выражений находит каждую дату идеально, но теперь я хотел иметь возможность сказать «удалить все, что не соответствует шаблону даты», что избавит от текста, который находится перед или после некоторых дат.
Пример материала, который я хочу удалить:
Mexico [12/20/1985]
Если бы я мог удалить то, что не соответствует шаблону, скобки и Мексика исчезли бы
Скажимой шаблон регулярного выражения (у меня есть еще два, которые соответствуют более конкретным форматам даты, но не включая их, потому что это не относится к делу:
pattern = (r"(19|20)\d\d")
Я использую has_date = data.str.contains(pattern)
, и это работаетидеально, чтобы найти то, что я ищу. Но теперь, когда я определил наблюдения, в которых есть даты, которые я хочу, мне нужно убрать / удалить / заменить ничто все, что не соответствует этой схеме.
Я сделал файл того, что не соответствовало шаблонам регулярных выражений, и что сделал, и проверил, чтобы убедиться, что мои шаблоны регулярных выражений получили все, поэтому у меня все хорошо.
У всех есть предложения покак заменить то, что не мой шаблон? Добро пожаловать любые мысли. Спасибо