не нужно загружать набор данных снова и снова - PullRequest
0 голосов
/ 30 ноября 2018

В настоящее время в R после загрузки набора данных (например, с помощью read.csv) Rstudio сохраняет его как переменную в глобальной среде.Это гарантирует, что вам не нужно загружать набор данных каждый раз, когда вы делаете определенный тест или изменение.

С Python я не знаю, какой текстовый редактор / IDE позволит мне это сделать.Например, я хочу загрузить набор данных один раз, а затем впоследствии делать с ним все, вместо того, чтобы загружать его каждый раз, когда я запускаю скрипт.

Любые замечания относительно того, как это сделать, были бы очень полезны

Ответы [ 2 ]

0 голосов
/ 30 ноября 2018

Процесс RStudio действительно перезагружает данные при перезапуске рабочего пространства, но он делает это автоматически для вас при повторном открытии рабочего пространства.Поэтому, когда вы говорите, что хотите что-то подобное в Python, я предполагаю, что вы не хотите повторно вводить код для чтения данных каждый раз, но вам нужен какой-то автоматический способ перезагрузки данных.

Это можно сделать с помощью записных книжек Jupyter:

  • создать записную книжку
  • поместить код для загрузки данных в первую ячейку
  • сохранить записную книжку

Затем позже

  • откройте записную книжку, которую вы сохранили
  • запустите первую ячейку для автоматической загрузки данных

Если вы хотите сделатьМножество разных вещей с одними и теми же данными, вы можете сделать копии записной книжки, которая загружает данные и использовать первую ячейку для загрузки данных во всех случаях.Если вы делаете это слишком много, вы, вероятно, должны сделать модуль помощника и импортировать помощник ...

Например, этот ноутбук:

https://github.com/AaronWatters/jp_doodle/blob/master/notebooks/State%20outlines.ipynb

Загрузка и анализ иXML-файл, а затем создает некоторые производные структуры данных, используя данные XML.Поскольку он хранится в записной книжке, мне больше не нужно вводить логику загрузки - я могу просто перезапустить ячейку для загрузки данных.

0 голосов
/ 30 ноября 2018

Это зависит от размера вашего набора данных.

Для относительно небольших наборов данных вы можете посмотреть на установку ноутбуков Anaconda Python Jupyter.Действительно отлично подходит для работы с данными и визуализацией после загрузки набора данных.Для больших наборов данных вы можете написать некоторые функции / генераторы для эффективной итерации по набору данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...