Question

Я стараюсь улучшить свой процесс очистки данных и пытаюсь найти подход для обнаружения различных шаблонов / форматов в столбцах данных в Pandas. Данные, которые я использую, постоянно меняются, поэтому я не могу работать со статическими / заранее заданными шаблонами. Пока существующие сообщения stackoverflow и Google не помогли ...

Пример 1-го столбца:

4758
4957
5768
2859028
3894820
3949
4954859
...

Столбец содержит только целые числа. Здесь я хотел бы посчитать количество вариаций (т.е. разную длину строк / количество цифр). В примере: 2 варианта, то есть 4 цифры и 7 цифр.

Пример 2-го столбца:

Текст 1234
1234 Текст
11Text22
1Text234
4Text321
...

Столбец содержит сочетание цифр и букв. Хотя длина строки идентична, шаблон отличается, то есть 4 буквы, за которыми следуют 4 цифры; 4 цифры, за которыми следуют 4 буквы, и так далее. Есть ли способ или библиотека python для обнаружения этих несоответствующих шаблонов?

Пример 3-го столбца:

31-12-2019
31_12_2019
31.12.2019
01-01-2020
02.02.2020
03_03_2020
...

Здесь аналогичная проблема: длина строки идентична, но формат даты меняется, то есть с _, - и. Тот же вопрос, есть ли способ обнаружить несовпадающие шаблоны?

Заранее большое спасибо!

Как обнаружить различные закономерности в столбцах данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как обнаружить различные закономерности в столбцах данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов