Проблема с форматом даты в столбце моего DataFrame - PullRequest
0 голосов
/ 28 мая 2020

Итак, у меня есть столбец, который содержит даты как строковые объекты, но не все даты в одном формате. Некоторые из них - ММ / ГГГГ или ГГГГ. Я хотел бы, чтобы все они были YYYY, а затем преобразовали их в плавающие объекты. Я пытаюсь использовать регулярное выражение для замены этих строк, но у меня возникают трудности. Имя столбца - 'cease_date', а DF - 'detect_resignations'.

pattern2 = r"(?P<cease_date>[1-2][0-9]{3})?"
years = dete_resignations['cease_date'].str.extractall(pattern2)
print(years['cease_date'].value_counts())
2013    146
2012    129
2014     22
2010      2
2006      1

Итак, из приведенного выше регулярного выражения работает, но я не знаю, как вернуть его в исходный фрейм данных. Я попытался создать логический индекс, но это не сработало. Я ошибаюсь?

1 Ответ

0 голосов
/ 28 мая 2020

Вы можете использовать это регулярное выражение для извлечения последних четырех цифр в ваших строках:

 years = dete_resignations['cease_date'].str.extract('(\d{4})$')[0]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...