Сохранить фрейм данных Pandas с ndarray в ячейках - PullRequest
0 голосов
/ 25 февраля 2019

Мне нужно сохранить фрейм данных pandas с двумя столбцами встраивания слов (Word2Vec), которые хранятся в виде ndarrays из dim (1300, 300), строки и другого массива с одним горячим представлением этой строки.

TYPE    content   title one_hot_label
------------------------------------------------------------
happy   [[-0.25195312, 0.13085938, 0.05053711, -0.0417... [[0.12792969, -0.055908203, 0.011230469, 0.283... [0, 1, 0]
sad     [[-0.25195312, 0.13085938, 0.05053711, -0.0417... [[0.12792969, -0.055908203, 0.011230469, 0.283... [0, 1, 0]
happy   [[-0.25195312, 0.13085938, 0.05053711, -0.0417... [[0.12792969,-0.055908203, 0.011230469, 0.283...  [0, 1, 0]
sad     [[-0.25195312, 0.13085938, 0.05053711, -0.0417... [[0.12792969, -0.055908203, 0.011230469, 0.283... [0, 1, 0]
...
...
...  

Мне нужно сохранить это в моем приводе.Я попытался сериализовать его (df.to_picke) и работал хорошо, пока количество записей мало.CSV (df.to_csv) добавляет многоточие к столбцам массива Numpy, а to_hdf выдает ошибку переполнения.

Есть ли способ сохранить большие наборы данных с этой структурой?

РЕДАКТИРОВАТЬ

Вызов df.memory_usage(deep=True) дает мне:

Index 23840 type 244425 content 5447697600 title 62976000 one_hot_label 309920 dtype: int64

РЕДАКТИРОВАТЬ 2

Не могли бы вы дать мне другую структуру для создания этого набора данных вложений?

Спасибо

...