Предположим, у меня есть таблица данных с несколькими столбцами, и я хочу определить тип данных каждого столбца. В частности, я хочу иметь возможность различать guish между категориальным и некатегоричным и получить в качестве результата одну из этих двух классификаций. Кроме того, я не могу видеть данные, и мне нужно создать алгоритм, который делает это различие для меня и классифицирует столбец как категориальный или некатегоричный. Есть ли что-нибудь в литературе, посвященной этим данным?
Все, что я могу найти, это литература по этим конкретным c типам данных, но ничто алгоритмически не различает их.
Один наивный подход заключается в проверке количества отдельных элементов в столбце и состоянии: если доля отдельных элементов по сравнению с длиной столбца больше x%, то она не категориальна. Спасибо!