Я стараюсь улучшить свой процесс очистки данных и пытаюсь найти подход для обнаружения различных шаблонов / форматов в столбцах данных в Pandas. Данные, которые я использую, постоянно меняются, поэтому я не могу работать со статическими / заранее заданными шаблонами. Пока существующие сообщения stackoverflow и Google не помогли ...
Пример 1-го столбца:
- 4758
- 4957
- 5768
- 2859028
- 3894820
- 3949
- 4954859
- ...
Столбец содержит только целые числа. Здесь я хотел бы посчитать количество вариаций (т.е. разную длину строк / количество цифр). В примере: 2 варианта, то есть 4 цифры и 7 цифр.
Пример 2-го столбца:
- Текст 1234
- 1234 Текст
- 11Text22
- 1Text234
- 4Text321
- ...
Столбец содержит сочетание цифр и букв. Хотя длина строки идентична, шаблон отличается, то есть 4 буквы, за которыми следуют 4 цифры; 4 цифры, за которыми следуют 4 буквы, и так далее. Есть ли способ или библиотека python для обнаружения этих несоответствующих шаблонов?
Пример 3-го столбца:
- 31-12-2019
- 31_12_2019
- 31.12.2019
- 01-01-2020
- 02.02.2020
- 03_03_2020
- ...
Здесь аналогичная проблема: длина строки идентична, но формат даты меняется, то есть с _, - и. Тот же вопрос, есть ли способ обнаружить несовпадающие шаблоны?
Заранее большое спасибо!