У меня есть набор данных с 3 миллионами функций, с которыми я работаю Pandas. Этот набор данных похож на регистр городских городских свойств.
Мой вопрос касается лучшего выбора для оптимизации.
- Когда я устанавливаю каждый столбец как строку (объект), размер информационного кадра составляет 7,427 Мб.
- Когда я устанавливаю только числа (int, float), размер составляет 3.119 Мб.
- И когда я устанавливаю тип данных большинства объектов в категории, размер составляет 1.766 МБ.
Первый вариант - просто любопытство. Мое сомнение - между обеими последними конфигурациями. Несколько переменных, как правило, являются категориальными. Они ограничены и фиксированы числом возможных значений. Но я установил несколько столбцов, таких как Names и Pass_id, в категорию. Эти значения просто повторяются несколько раз (макс. 30 раз) и имеют огромный разброс. Таким образом, они почти как неограниченные данные.
Размер кадра данных меньше. Но это плохая практика? Приведет ли это к потере производительности?