Я начал работать в компании, и мы используем много таблиц данных, большинство из которых не содержат описания столбцов, и в случае, если столбец является категоричным, большинство определений категорий не определены.Я пришел с решением отправить список категориальных столбцов и категорий деловым партнерам и попросить их заполнить значения категорий.
Но может ли кто-нибудь помочь выяснить, какие из столбцов являются категоричными, поскольку я не могу сделать это вручную, потому что в нем более 20 таблиц с 70-80 столбцами в каждой?
Некоторые решения, которые я мог бы сделатьПредставьте себе:
- Проверка распределения.
- Отношение уникальных значений к общему размеру, превышающему пороговое значение, а затем числовое.
Есть ли у кого-нибудь какие-либодругие идеи?