Мне нужно сохранить фрейм данных pandas с двумя столбцами встраивания слов (Word2Vec), которые хранятся в виде ndarrays из dim (1300, 300), строки и другого массива с одним горячим представлением этой строки.
TYPE content title one_hot_label
------------------------------------------------------------
happy [[-0.25195312, 0.13085938, 0.05053711, -0.0417... [[0.12792969, -0.055908203, 0.011230469, 0.283... [0, 1, 0]
sad [[-0.25195312, 0.13085938, 0.05053711, -0.0417... [[0.12792969, -0.055908203, 0.011230469, 0.283... [0, 1, 0]
happy [[-0.25195312, 0.13085938, 0.05053711, -0.0417... [[0.12792969,-0.055908203, 0.011230469, 0.283... [0, 1, 0]
sad [[-0.25195312, 0.13085938, 0.05053711, -0.0417... [[0.12792969, -0.055908203, 0.011230469, 0.283... [0, 1, 0]
...
...
...
Мне нужно сохранить это в моем приводе.Я попытался сериализовать его (df.to_picke
) и работал хорошо, пока количество записей мало.CSV (df.to_csv
) добавляет многоточие к столбцам массива Numpy, а to_hdf
выдает ошибку переполнения.
Есть ли способ сохранить большие наборы данных с этой структурой?
РЕДАКТИРОВАТЬ
Вызов df.memory_usage(deep=True)
дает мне:
Index 23840
type 244425
content 5447697600
title 62976000
one_hot_label 309920
dtype: int64
РЕДАКТИРОВАТЬ 2
Не могли бы вы дать мне другую структуру для создания этого набора данных вложений?
Спасибо