Почему Питон Панды? - PullRequest
       13

Почему Питон Панды?

0 голосов
/ 04 ноября 2019

Организация оценивает инструменты преобразования данных. Лицензионные инструменты (SSIS, Informatica и т. Д.) Против Python Pandas

Я понимаю, что сравнение может быть Яблоком и Апельсинами

  1. Почему и когда организация может выбрать Pandas для преобразования данных черезлицензированные инструменты ETL (кроме коэффициента стоимости)?

  2. В СУБД данные хранятся на диске, а SQL извлекает данные. В случае Pandas данные загружаются в ОЗУ или как они хранятся?

  3. 100 МБ CSV-файл при загрузке в DF занимает память более 100 МБ. Почему?

1 Ответ

0 голосов
/ 04 ноября 2019
  1. Когда организация склоняется к Opensource или имеет опыт программирования на python, тогда в основном они предпочитают панд перед другими.
  2. Панды хранят данные в оперативной памяти. но с помощью chunksize или Dask вы можете обрабатывать данные, которые больше памяти.
  3. Это потому, чтокогда данные загружаются с диска, они получают свой конкретный тип данных, который зависит от функции, будь то число, число с плавающей запятой или строка. Он может быть автоматически обнаружен для вас, или вы можете указать тип данных с помощью параметра dtype .

Надеюсь, это поможет!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...