Преобразование нескольких словарей в разреженную матрицу - PullRequest
0 голосов
/ 18 июня 2019

У меня есть фрейм данных, который я хотел бы встроить в coo или csr_matrix, чтобы я мог выполнить регрессию. Хитрость в том, что я пытаюсь найти лучший способ получить содержимое df, которое очень мало, во что-то пригодное для использования в памяти. В настоящее время формат:

Col 1: уникальный идентификатор
Col 2: метка (поплавок)
Кол 3: словарь (матричные элементы - это ключи, а значения - количество)

Итак, две строки могут выглядеть так:

id | этикетка | лексемы
sw1t | 3.4211 | {'foo': 1, 'bar': 3, 'var': 1}
4r3o | 2.9987 | {'foo': 3, 'rev': 2, 'hew': 2}

и так далее ...

Является ли лучший подход для преобразования этого в разреженную матрицу, а затем в нечто вроде списков, таких как coo или csr? Это кажется неэффективным, но принятый вклад в scipy является разреженной матрицей. У меня более 50 000 записей (и они быстро растут), поэтому проблема с памятью.

Ценю любой совет.

...