Question

У меня есть список списков, таких как:

test = [['abc', 'bcd', 'dce'], ['abc', 'ab', 'cd'],['cd', be ']]

Я хочу получить частоту каждого уникального значения для каждого подсписка.Например, первый подсписок имеет

abc 1 bcd 1 dce 1 ab 0 ab 0 cd 0 be 0

Я пытаюсь что-то вроде следующего:

def freq(list_):
    df = []
    for c in list_:
        df_= pd.DataFrame.from_dict(Counter(c), orient = "index")
        df_.index.name = 'motif'
        df_.reset_index(inplace = True)
        df.append(df_)
        print(df_)
    print(df)
    df = reduce(lambda  left,right: pd.merge(left,right,on=[0],
                                    how='outer'), df).fillna('void')
    df = df.T
    df.columns = df.iloc[0]
    df = df.iloc[1:]
    df[df == "void"] = 0
    col_names = sorted(df.columns)
    df = df[col_names]
    vals = df.values
    sums = np.sum(vals, axis = 1)
    freqs = vals / sums[:,None]
    return pd.DataFrame(freqs).T

Но это не работает.

Мой желаемый вывод - это фрейм данных с каждым уникальным значением в качестве элемента столбца и каждым подсписком в виде строки.

Как это можно сделать?

РЕДАКТИРОВАТЬ:

Желаемый выход:

   ab  abc  bcd  be  cd  dce
0   0    .33    .33   0   0    .33
1   .33    .33    0   0   .33    0
2   0    0    0   .5   .5    0

jezrael · Answer 1 · 12 июня 2018

Используйте get_dummies с sum:

df = pd.get_dummies(pd.DataFrame(test), prefix_sep='', prefix='').sum(level=0, axis=1)
print (df)
   abc  cd  ab  bcd  be  dce
0    1   0   0    1   0    1
1    1   1   1    0   0    0
2    0   1   0    0   1    0

или Counter с DataFrame конструктором, замените NaN s на 0 и преобразуйте в integer с:

from collections import Counter

df = pd.DataFrame([Counter(x) for x in test]).fillna(0).astype(int)
print (df)
   ab  abc  bcd  be  cd  dce
0   0    1    1   0   0    1
1   1    1    0   0   1    0
2   0    0    0   1   1    0

А затем:

df = df.div(df.sum(axis=1), axis=0)
print (df)
         ab       abc       bcd   be        cd       dce
0  0.000000  0.333333  0.333333  0.0  0.000000  0.333333
1  0.333333  0.333333  0.000000  0.0  0.333333  0.000000
2  0.000000  0.000000  0.000000  0.5  0.500000  0.000000

WeNYoBen · Answer 2 · 12 июня 2018

Поскольку вы помечаете pandas, существует одно решение из pandas get_dummies

pd.DataFrame(test).stack().str.get_dummies().sum(level=0)
Out[301]: 
   ab  abc  bcd  be  cd  dce
0   0    1    1   0   0    1
1   1    1    0   0   1    0
2   0    0    0   1   1    0

Обновлено

s=pd.DataFrame(test).stack().str.get_dummies().sum(level=0)

s.div(s.sum(1),0)
Out[312]: 
         ab       abc       bcd   be        cd       dce
0  0.000000  0.333333  0.333333  0.0  0.000000  0.333333
1  0.333333  0.333333  0.000000  0.0  0.333333  0.000000
2  0.000000  0.000000  0.000000  0.5  0.500000  0.000000

Создать таблицу частот уникальных значений из списка списков

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Создать таблицу частот уникальных значений из списка списков

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов