У меня есть набор документов, который предварительно помечен определенными темами / категориями.Эти категории являются иерархическими, что означает, что есть 3 основных категории и множество подкатегорий.Каждый документ помечен набором категорий.
Итак, у меня есть список n
размеров для n
документов, и для каждого документа у меня есть набор именованных категорий.
т.е..
....
['M11', 'MCAT'],
['M13', 'M131', 'MCAT'],
['C15', 'C151', 'CCAT'],
['C24', 'CCAT'],
['C15', 'C152', 'CCAT'],
['GCAT'],
['C33', 'CCAT'],
....
Я хотел бы построить распределение категорий в наборе данных.Смысл, я хотел бы видеть объем каждой категории и связь с их подкатегориями, и, конечно, название каждой категории.Но я не знаю, как к этому приблизиться.
Я представлял что-то вроде точечного графика, но для этого требуется x/y
информация.Или, может быть, что-то вроде диаграммы Венна с кодировкой размеров.Но моя идея может не сработать для такого рода данных.
Я буду использовать python для этого, но не стесняйтесь предлагать что-либо.
Есть идеи?