Как обнаружить различные закономерности в столбцах данных - PullRequest
1 голос
/ 03 августа 2020

Я стараюсь улучшить свой процесс очистки данных и пытаюсь найти подход для обнаружения различных шаблонов / форматов в столбцах данных в Pandas. Данные, которые я использую, постоянно меняются, поэтому я не могу работать со статическими / заранее заданными шаблонами. Пока существующие сообщения stackoverflow и Google не помогли ...

Пример 1-го столбца:

  • 4758
  • 4957
  • 5768
  • 2859028
  • 3894820
  • 3949
  • 4954859
  • ...

Столбец содержит только целые числа. Здесь я хотел бы посчитать количество вариаций (т.е. разную длину строк / количество цифр). В примере: 2 варианта, то есть 4 цифры и 7 цифр.

Пример 2-го столбца:

  • Текст 1234
  • 1234 Текст
  • 11Text22
  • 1Text234
  • 4Text321
  • ...

Столбец содержит сочетание цифр и букв. Хотя длина строки идентична, шаблон отличается, то есть 4 буквы, за которыми следуют 4 цифры; 4 цифры, за которыми следуют 4 буквы, и так далее. Есть ли способ или библиотека python для обнаружения этих несоответствующих шаблонов?

Пример 3-го столбца:

  • 31-12-2019
  • 31_12_2019
  • 31.12.2019
  • 01-01-2020
  • 02.02.2020
  • 03_03_2020
  • ...

Здесь аналогичная проблема: длина строки идентична, но формат даты меняется, то есть с _, - и. Тот же вопрос, есть ли способ обнаружить несовпадающие шаблоны?

Заранее большое спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...