Коллега написал код для создания таблицы поиска цен на товары, цены на которые меняются в течение года. Он также хранит другую информацию, такую как название сезона, когда он начинается, заканчивается и т. Д. Его коду требуется девять минут для запуска на мощной машине.
Его подход заключается в традиционных записях SQL-loop-over-records. алгоритмы. Я хотел посмотреть, смогу ли я лучше использовать матрицы, поэтому я написал таблицу цен (только цен), используя Pandas. Мой код выполняется за 21 секунду на Macbook Air. Круто.
Мой следующий шаг - добавить другие атрибуты, такие как название сезона, время его начала, окончания и т. Д. Насколько я понимаю, я не должен хранить объекты в своих фреймах данных, потому что это уменьшит скорость,это плохая практика и т. д.
Я думаю, у меня есть два варианта: 1. для каждого нового элемента данных добавить другое измерение, чтобы форма моего информационного кадра изменялась от (продукт X дней) до (продукт X дней Xseason_name X season_start X season_end) или 2. Я бы просто создал новый фрейм данных для каждого атрибута и переходил между ними по мере необходимости.
Моя цель - использовать панд для очень быстрого поиска и вычисления данных.
Или есть лучший способ сделать это с помощью панд?