У меня есть удаленная база данных, откуда мне нужно несколько раз извлечь около 3 миллионов записей (я экспериментирую с данными). Поскольку база данных удаленная, повторные запросы к ней занимают много времени. Итак, я подумываю вытащить данные один раз и сохранить их локально в каком-то формате. Место для локального хранилища - не большая проблема; Я могу управлять несколькими гигабайтами. Каков был бы самый быстрый способ хранить эти данные локально, чтобы поиск происходил быстро? Я предполагаю, что оптимизация возможна на двух уровнях; структура данных и способ хранения. Что касается формата данных, я использовал tuples
. Я предполагаю, что кадр данных pandas
будет быстрее, чем tuples
. Есть ли еще более быстрый формат?
Что касается техники хранения, я использовал pickle
, но, вероятно, это не лучший способ. Я читал о HDF5
, cPickle
, но я не уверен, какой из них лучше всего подойдет для дампа базы данных и имеет ли значение основная структура данных. Есть ли другие альтернативы?