Создание пакета слов из кадра данных панд - PullRequest
0 голосов
/ 10 декабря 2018

Есть похожий вопрос , но вывод, который я ищу, отличается.

У меня есть фрейм данных, в котором перечислены все слова (столбцы) и их количество для каждого документа(строки).

Это выглядит следующим образом:

{'orange': {0: '1',
1: '3'},
'blue': {0: '0',
1: '2'}}

Выходные данные должны "заново создать" исходный документ в виде пакета слов следующим образом:

corpus = [
['orange'],
['orange', 'orange', 'orange', 'blue', 'blue']]

Как это сделать?

1 Ответ

0 голосов
/ 10 декабря 2018

если вы хотите получить фрейм данных в конце, вы можете сделать:

import pandas as pd
from collections import defaultdict
data = {'orange': {0: '1',
                   1: '3'},
        'blue': {0: '0',
                 1: '2'}}


results = defaultdict(list)
for color, placement in data.items():
    for row, count in placement.items():
        values = results[row]
        values.extend(int(count) * [color])
df = pd.DataFrame.from_dict(results, orient='index')

, если вы хотите список списка, просто сделайте:

[v for row, v in results.items()]

вместо dfстроить

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...