В настоящее время я использую python3.7 в Jupyter Notebook (v5.6.0) с пандами 0.23.4.
Я написал код для токенизации некоторых японских слов и успешно применил функцию подсчета слов, которая возвращает количество слов из каждой строки в серии панд, например:
0 [(かげ, 20), (モリア, 17), (たち, 15), (お前, 14), (おれ,...
1 [(お前, 11), (ゾロ, 10), (うっ, 10), (たち, 9), (サンジ, ...
2 [(おれ, 11), (男, 6), (てめえ, 6), (お前, 5), (首, 5), ...
3 [(おれ, 19), (たち, 14), (ヨホホホ, 12), (お前, 10), (みん...
4 [(ラブーン, 32), (たち, 14), (おれ, 12), (お前, 12), (船長...
5 [(ヨホホホ, 19), (おれ, 13), (ラブーン, 12), (船長, 11), (...
6 [(わたし, 20), (おれ, 16), (海賊, 9), (お前, 9), (もう, 9...
7 [(たち, 21), (あたし, 15), (宝石, 14), (おれ, 12), (ハッ,...
8 [(おれ, 13), (あれ, 9), (もう, 7), (ヨホホホ, 7), (見え, 7...
9 [(ケイミー, 23), (人魚, 20), (はっち, 14), (おれ, 13), (め...
10 [(ケイミー, 18), (おれ, 17), (め, 14), (たち, 12), (はっち...
Из этогоранее заданный вопрос:
Создание словаря подсчета слов для нескольких текстовых файлов в каталоге
Я подумал, что смогу использовать ответ, чтобы помочь с моей целью.
Я хочу объединить все вышеперечисленные пары в каждой строке в словарь, ключом которого является текст на японском языке, а значением является сумма всех вхождений текста в наборе данных.Я думал, что смогу сделать это с помощью модуля collections.Counter
, превратив каждую строку в серии в словарь, например:
vocab_list = []
for i in range(len(wordcount)):
vocab_list.append(dict(wordcount[i]))
, который дает мне нужный мне формат словаря, где каждая строка вСерия теперь является словарем, вот так:
[{'かげ': 20,
'モリア': 17,
'たち': 15,
'お前': 14,
'おれ': 11,
'もう': 9,
'船長': 7,
'っ': 7,
'七武海': 7,
'言っ': 6, ...
Моя проблема возникает, когда я пытаюсь использовать функцию sum()
и Counter()
для агрегирования итогов:
vocab_list = sum(vocab_list, Counter())
print(vocab_list)
Вместополучения ожидаемого «агрегированного словаря», я получаю следующую ошибку:
---------------------------------------------------------------------------
TypeError Traceback (most recent call last)
<ipython-input-37-3c66e97f4559> in <module>()
3 vocab_list.append(dict(wordcount[i]))
4
----> 5 vocab_list = sum(vocab_list, Counter())
6 vocab_list
TypeError: unsupported operand type(s) for +: 'Counter' and 'dict'
Не могли бы вы объяснить, что именно не так в коде и как это исправить?