Question

В настоящее время я использую python3.7 в Jupyter Notebook (v5.6.0) с пандами 0.23.4.

Я написал код для токенизации некоторых японских слов и успешно применил функцию подсчета слов, которая возвращает количество слов из каждой строки в серии панд, например:

0       [(かげ, 20), (モリア, 17), (たち, 15), (お前, 14), (おれ,...
1       [(お前, 11), (ゾロ, 10), (うっ, 10), (たち, 9), (サンジ, ...
2       [(おれ, 11), (男, 6), (てめえ, 6), (お前, 5), (首, 5), ...
3       [(おれ, 19), (たち, 14), (ヨホホホ, 12), (お前, 10), (みん...
4       [(ラブーン, 32), (たち, 14), (おれ, 12), (お前, 12), (船長...
5       [(ヨホホホ, 19), (おれ, 13), (ラブーン, 12), (船長, 11), (...
6       [(わたし, 20), (おれ, 16), (海賊, 9), (お前, 9), (もう, 9...
7       [(たち, 21), (あたし, 15), (宝石, 14), (おれ, 12), (ハッ,...
8       [(おれ, 13), (あれ, 9), (もう, 7), (ヨホホホ, 7), (見え, 7...
9       [(ケイミー, 23), (人魚, 20), (はっち, 14), (おれ, 13), (め...
10      [(ケイミー, 18), (おれ, 17), (め, 14), (たち, 12), (はっち...

Из этогоранее заданный вопрос:

Создание словаря подсчета слов для нескольких текстовых файлов в каталоге

Я подумал, что смогу использовать ответ, чтобы помочь с моей целью.

Я хочу объединить все вышеперечисленные пары в каждой строке в словарь, ключом которого является текст на японском языке, а значением является сумма всех вхождений текста в наборе данных.Я думал, что смогу сделать это с помощью модуля collections.Counter, превратив каждую строку в серии в словарь, например:

vocab_list = []
for i in range(len(wordcount)):
    vocab_list.append(dict(wordcount[i]))

, который дает мне нужный мне формат словаря, где каждая строка вСерия теперь является словарем, вот так:

[{'かげ': 20,
 'モリア': 17,
 'たち': 15,
 'お前': 14,
 'おれ': 11,
 'もう': 9,
 '船長': 7,
 'っ': 7,
 '七武海': 7,
 '言っ': 6, ...

Моя проблема возникает, когда я пытаюсь использовать функцию sum() и Counter() для агрегирования итогов:

vocab_list = sum(vocab_list, Counter())
print(vocab_list)

Вместополучения ожидаемого «агрегированного словаря», я получаю следующую ошибку:

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-37-3c66e97f4559> in <module>()
      3     vocab_list.append(dict(wordcount[i]))
      4 
----> 5 vocab_list = sum(vocab_list, Counter())
      6 vocab_list

TypeError: unsupported operand type(s) for +: 'Counter' and 'dict'

Не могли бы вы объяснить, что именно не так в коде и как это исправить?

user2314737 · Answer 1 · 21 декабря 2018

Если элементы в вашей серии имеют тип Counter, вы можете просто агрегировать по sum

df.agg(sum)

Пример:

from collections import Counter

df = pd.Series([[('かげ', 20), ('男', 17), ('たち', 15), ('お前', 14)],[('お前', 11), ('ゾロ', 10), ('うっ', 10), ('たち', 9)],[('おれ', 11), ('男', 6), ('てめえ', 6), ('お前', 5), ('首', 5)]])   
df = df.apply(lambda x: Counter({y[0]:y[1] for y in x}))

df
# Out:
# 0          {'かげ': 20, '男': 17, 'たち': 15, 'お前': 14}
# 1          {'お前': 11, 'ゾロ': 10, 'うっ': 10, 'たち': 9}
# 2    {'おれ': 11, '男': 6, 'てめえ': 6, 'お前': 5, '首': 5}
# dtype: object

df.agg(sum)
# Out:
# Counter({'うっ': 10,
#          'おれ': 11,
#          'お前': 30,
#          'かげ': 20,
#          'たち': 24,
#          'てめえ': 6,
#          'ゾロ': 10,
#          '男': 23,
#          '首': 5})

Allen P. · Answer 2 · 21 декабря 2018

Я не знаком с Counter (), но я думаю, что это может быть связано с тем, что ваш словарь находится внутри списка.

Кроме того, вы можете сделать это довольно легко без использования дополнительного инструмента(как счетчик).Вот то, что я собрал вместе, что «работает», но может не работать в вашем случае:

vocab_list = [{'かげ': 20,
            'モリア': 17,
            'たち': 15,
            'お前': 14,
            'おれ': 11,
            'もう': 9,
            '船長': 7}]

numberz = list(vocab_list[0].values())
totalz = 0
for x in numberz:
    totalz += x

print(totalz)

Out [29]: 93

Как получить "совокупное" количество слов из элементов серии панд

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как получить "совокупное" количество слов из элементов серии панд

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы