Python, словари и таблица сопряженности хи-квадрат - PullRequest
1 голос
/ 12 июня 2010

Это проблема, над которой я долго ломал голову, поэтому любая помощь будет отличной.У меня есть файл, который содержит несколько строк в следующем формате (слово, время, когда слово произошло, и частота документов, содержащих данное слово в данном экземпляре во времени).Ниже приведен пример того, как выглядит входной файл.

#inputfile
<word, time, frequency>
apple, 1, 3
banana, 1, 2
apple, 2, 1
banana, 2, 4
orange, 3, 1

У меня есть класс Python ниже, который я использовал для создания 2-D словарей для хранения вышеуказанного файла, используя в качестве ключа, и частоты в качестве значения:

class Ddict(dict):
    '''
    2D dictionary class
    '''
    def __init__(self, default=None):
            self.default = default

    def __getitem__(self, key):
            if not self.has_key(key):
                self[key] = self.default()
            return dict.__getitem__(self, key)


wordtime=Ddict(dict) # Store each inputfile entry with a <word,time> key
timeword=Ddict(dict) # Store each inputfile entry with a <time,word> key

# Loop over every line of the inputfile
for line in open('inputfile'):
    word,time,count=line.split(',')

    # If <word,time> already a key, increment count
    try:
        wordtime[word][time]+=count
    # Otherwise, create the key
    except KeyError:
        wordtime[word][time]=count

    # If <time,word> already a key, increment count     
    try:
        timeword[time][word]+=count
    # Otherwise, create the key
    except KeyError:
        timeword[time][word]=count

Вопросчто я имею в виду вычисления определенных вещей при переборе записей в этом двумерном словаре.Для каждого слова 'w' в каждый момент времени 't' рассчитайте:

  1. Количество документов с словом 'w' в течение времени 't',(a)
  2. Количество документов без слова 'w' в течение времени 't'.(b)
  3. Количество документов с словом 'w' вне времени 't'.(c)
  4. Количество документов без слова 'w' вне времени 't'.(d)

Каждый из элементов выше представляет одну из ячеек таблицы сопряженности хи-квадрат для каждого слова и времени.Можно ли все это вычислить в пределах одного цикла или их нужно выполнять по одному за раз?

В идеале я хотел бы, чтобы выходные данные были такими, как показано ниже, где a, b, c, d - всеВычисленные выше элементы:

print "%s, %s, %s, %s" %(a,b,c,d)

В случае входного файла, приведенного выше, результатом попытки найти таблицу сопряженности для слова «яблоко» в момент времени «1» будет (3,2,1,6).Я объясню, как рассчитывается каждая ячейка:

  • '3' документы содержат 'apple' за время '1'.
  • В '1' есть документы '2'которые не содержат «яблоко».
  • Существует документ «1», содержащий «яблоко» вне времени «1».
  • Есть 6 документов вне времени «1», которые несодержит слово «яблоко» (1 + 4 + 1).

1 Ответ

2 голосов
/ 13 июня 2010

Ваши 4 числа для apple / 1 составляют в сумме 12, что превышает общее количество наблюдений (11)! Вне времени «1» есть только 5 документов, в которых нет слова «яблоко».

Вам нужно разделить наблюдения на 4 непересекающихся подмножества:
а: яблоко и 1 => 3
б: не яблочный и 1 => 2
с: яблоко, а не -1 => 1
d: не-яблоко и не-1 => 5

Вот код, показывающий один из способов сделать это:

from collections import defaultdict

class Crosstab(object):

    def __init__(self):
        self.count = defaultdict(lambda: defaultdict(int))
        self.row_tot = defaultdict(int)
        self.col_tot = defaultdict(int)
        self.grand_tot = 0

    def add(self, r, c, n):
        self.count[r][c] += n
        self.row_tot[r] += n
        self.col_tot[c] += n
        self.grand_tot += n

def load_data(line_iterator, conv_funcs):
    ct = Crosstab()
    for line in line_iterator:
        r, c, n = [func(s) for func, s in zip(conv_funcs, line.split(','))]
        ct.add(r, c, n)
    return ct

def display_all_2x2_tables(crosstab):
    for rx in crosstab.row_tot:
        for cx in crosstab.col_tot:
            a = crosstab.count[rx][cx]
            b = crosstab.col_tot[cx] - a
            c = crosstab.row_tot[rx] - a
            d = crosstab.grand_tot - a - b - c
            assert all(x >= 0 for x in (a, b, c, d))
            print ",".join(str(x) for x in (rx, cx, a, b, c, d))

if __name__ == "__main__":

    # inputfile
    # <word, time, frequency>
    lines = """\
    apple, 1, 3
    banana, 1, 2
    apple, 2, 1
    banana, 2, 4
    orange, 3, 1""".splitlines()

    ct = load_data(lines, (str.strip, int, int))
    display_all_2x2_tables(ct)

и вот вывод:

orange,1,0,5,1,5
orange,2,0,5,1,5
orange,3,1,0,0,10
apple,1,3,2,1,5
apple,2,1,4,3,3
apple,3,0,1,4,6
banana,1,2,3,4,2
banana,2,4,1,2,4
banana,3,0,1,6,4
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...