Я внедряю библиотеку кросс-табуляции в Python как упражнение по программированию для моей новой работы, и у меня есть реализация требований, которые работают , но неэлегатны и избыточны. Я бы хотел для нее более совершенную модель, которая позволила бы аккуратное, чистое перемещение данных между базовой моделью, хранящейся в виде табличных данных в плоских файлах, и всеми результатами статистического анализа, которые могут быть запрошены.
Прямо сейчас у меня есть переход от набора кортежей для каждой строки в таблице к гистограмме, подсчитывающей частоты появления интересующих кортежей, к сериализатору, который - несколько неуклюже - компилирует вывод в набор ячеек таблицы для отображения. Однако в итоге мне приходится возвращаться к таблице или к гистограмме чаще, чем я хочу, потому что информации никогда не хватает.
Итак, есть идеи?
Edit: вот пример некоторых данных, и из которых я хочу иметь возможность строить
Это. Обратите внимание, что "." обозначает немного «отсутствующих» данных, то есть только условно
подсчитывали.
1 . 1
1 0 3
1 0 3
1 2 3
2 . 1
2 0 .
2 2 2
2 2 4
2 2 .
Если бы я смотрел на соотношение между столбцами 0 и 2 выше, у меня была бы таблица:
. 1 2 3 4
1 0 1 0 3 0
2 2 1 1 0 1
Кроме того, я хотел бы иметь возможность рассчитать соотношение частоты / общего, частоты / промежуточного итога и т. Д.