построить конкретный набор данных - PullRequest
0 голосов
/ 30 мая 2018

У меня есть набор документов, который предварительно помечен определенными темами / категориями.Эти категории являются иерархическими, что означает, что есть 3 основных категории и множество подкатегорий.Каждый документ помечен набором категорий.

Итак, у меня есть список n размеров для n документов, и для каждого документа у меня есть набор именованных категорий.

т.е..

....
['M11', 'MCAT'],
['M13', 'M131', 'MCAT'],
['C15', 'C151', 'CCAT'],
['C24', 'CCAT'],
['C15', 'C152', 'CCAT'],
['GCAT'],
['C33', 'CCAT'],
....

Я хотел бы построить распределение категорий в наборе данных.Смысл, я хотел бы видеть объем каждой категории и связь с их подкатегориями, и, конечно, название каждой категории.Но я не знаю, как к этому приблизиться.

Я представлял что-то вроде точечного графика, но для этого требуется x/y информация.Или, может быть, что-то вроде диаграммы Венна с кодировкой размеров.Но моя идея может не сработать для такого рода данных.

Я буду использовать python для этого, но не стесняйтесь предлагать что-либо.

Есть идеи?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...