Когда не следует использовать тип данных Category? - PullRequest
0 голосов
/ 09 апреля 2020

У меня есть набор данных с 3 миллионами функций, с которыми я работаю Pandas. Этот набор данных похож на регистр городских городских свойств.

Мой вопрос касается лучшего выбора для оптимизации.

  • Когда я устанавливаю каждый столбец как строку (объект), размер информационного кадра составляет 7,427 Мб.
  • Когда я устанавливаю только числа (int, float), размер составляет 3.119 Мб.
  • И когда я устанавливаю тип данных большинства объектов в категории, размер составляет 1.766 МБ.

Первый вариант - просто любопытство. Мое сомнение - между обеими последними конфигурациями. Несколько переменных, как правило, являются категориальными. Они ограничены и фиксированы числом возможных значений. Но я установил несколько столбцов, таких как Names и Pass_id, в категорию. Эти значения просто повторяются несколько раз (макс. 30 раз) и имеют огромный разброс. Таким образом, они почти как неограниченные данные.

Размер кадра данных меньше. Но это плохая практика? Приведет ли это к потере производительности?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...