Предварительно агрегированная структура данных в clojure - PullRequest
6 голосов
/ 12 марта 2012

В OLAP-кубах можно очень быстро просматривать большие объемы агрегированных данных.Основная причина этого заключается в том, что предварительно агрегируются данные в операциях, которые легко объединить вверх (в основном +, -, среднее, стандартное, максимальное, минимальное и некоторые другие).

Как получить это "анти-lazy "поведение в clojure?

Я думаю о чем-то вроде

(def world-population {:africa 4e8            ;;this is an aggregation!
                       :africa/liberia 3.4e6
                       :africa/ethiopia 7.4e7
                       ...})

Как обновить структуру данных, подобную этой, и убедиться, что родители объекта также обновлены?Нужно ли бросать свою собственную реф-реализацию?

Ответы [ 2 ]

4 голосов
/ 12 марта 2012

Храня ваши данные в атоме, вы можете добавить часы - по сути, обратные вызовы при обновлении атома

Примерно так:

(def world-population (atom {:africa 4e8
                             :africa/liberia 3.4e6
                             ...}))

(add-watch word-population :population-change-key
      (fn [key ref old new]
         (prn "population change")))

Вы можете построить некоторую логику распространения событий поверх этого.

3 голосов
/ 13 марта 2012

Вы можете написать рекурсивную функцию свертки как функцию более высокого порядка, что-то вроде:

(defn rollup 
  ([data heirarchy func]
    (loop [top (second (first heirarchy))]
      (if (nil? (heirarchy top))
        (rollup data heirarchy func top)
        (recur (heirarchy top)))))
  ([data heirarchy func root]
    (let [children (reduce (fn [l [k v]] (if (= v root) (cons k l) l)) '() heirarchy)
          data (reduce (fn [d c] (if (d c) d (rollup d heirarchy func c))) data children)
          child-values (map data children)]
      (assoc data root (apply func child-values)))))

Который затем можно использовать с любой конкретной операцией или иерархией, которые вам нравятся:

(def populations { :africa/liberia 3.4e6
                   :africa/ethiopia 7.4e7})

(def geography {:africa/liberia :africa 
                :africa/ethiopia :africa
                :africa :world})

(rollup populations geography +)
=> {:africa           7.74E7, 
    :world            7.74E7, 
    :africa/ethiopia  7.4E7, 
    :africa/liberia   3400000.0}

Очевидно, что это становится сложнее, если у вас очень большие наборы данных или несколько иерархий и т. Д., Но этого должно быть достаточно для многих простых случаев.

...