У меня есть фрейм данных, который я хотел бы встроить в coo или csr_matrix, чтобы я мог выполнить регрессию. Хитрость в том, что я пытаюсь найти лучший способ получить содержимое df, которое очень мало, во что-то пригодное для использования в памяти. В настоящее время формат:
Col 1: уникальный идентификатор
Col 2: метка (поплавок)
Кол 3: словарь (матричные элементы - это ключи, а значения - количество)
Итак, две строки могут выглядеть так:
id | этикетка | лексемы
sw1t | 3.4211 | {'foo': 1, 'bar': 3, 'var': 1}
4r3o | 2.9987 | {'foo': 3, 'rev': 2, 'hew': 2}
и так далее ...
Является ли лучший подход для преобразования этого в разреженную матрицу, а затем в нечто вроде списков, таких как coo или csr? Это кажется неэффективным, но принятый вклад в scipy является разреженной матрицей. У меня более 50 000 записей (и они быстро растут), поэтому проблема с памятью.
Ценю любой совет.