Question

У меня есть набор данных с 3 миллионами функций, с которыми я работаю Pandas. Этот набор данных похож на регистр городских городских свойств.

Мой вопрос касается лучшего выбора для оптимизации.

Когда я устанавливаю каждый столбец как строку (объект), размер информационного кадра составляет 7,427 Мб.
Когда я устанавливаю только числа (int, float), размер составляет 3.119 Мб.
И когда я устанавливаю тип данных большинства объектов в категории, размер составляет 1.766 МБ.

Первый вариант - просто любопытство. Мое сомнение - между обеими последними конфигурациями. Несколько переменных, как правило, являются категориальными. Они ограничены и фиксированы числом возможных значений. Но я установил несколько столбцов, таких как Names и Pass_id, в категорию. Эти значения просто повторяются несколько раз (макс. 30 раз) и имеют огромный разброс. Таким образом, они почти как неограниченные данные.

Размер кадра данных меньше. Но это плохая практика? Приведет ли это к потере производительности?

Когда не следует использовать тип данных Category?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Когда не следует использовать тип данных Category?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы