У меня есть словарь с около 10000 ключей, где каждый ключ содержит строку, подобную этой:
my_string = pd.DataFrame(np.random.randint(0, 100,size=(3000, 11))).to_string()
Каждая строка, если она преобразована в DataFrame
, имеет размер от 1000 до 5000 в строках,но всегда 11 столбцов.
В конце мне понадобится каждая строка либо в np.array
, либо в pd.DataFrame
, чтобы работать с ней.
Мой вопрос: что такое быстрый формат для доставки полной информации?Лучше ли хранить его в виде словаря тысяч строк или лучше создать какой-нибудь np.array
или xarray
, который содержит 3d-объект?
Проблема с последним заключается в том, чторазмер строки другой, поэтому мне, вероятно, нужно заполнить значениями nan
, чтобы они стали одинаковой длины или что-то еще.
Какова наилучшая практика в таких случаях?Я стараюсь избегать петель, так как это потребует много времени.