Алгоритм различения guish категориальных данных от некатегоричных данных - PullRequest
0 голосов
/ 13 января 2020

Предположим, у меня есть таблица данных с несколькими столбцами, и я хочу определить тип данных каждого столбца. В частности, я хочу иметь возможность различать guish между категориальным и некатегоричным и получить в качестве результата одну из этих двух классификаций. Кроме того, я не могу видеть данные, и мне нужно создать алгоритм, который делает это различие для меня и классифицирует столбец как категориальный или некатегоричный. Есть ли что-нибудь в литературе, посвященной этим данным?

Все, что я могу найти, это литература по этим конкретным c типам данных, но ничто алгоритмически не различает их.

Один наивный подход заключается в проверке количества отдельных элементов в столбце и состоянии: если доля отдельных элементов по сравнению с длиной столбца больше x%, то она не категориальна. Спасибо!

...