Сохранение только части источника данных - PullRequest
1 голос
/ 14 марта 2020

Я использую потребление для доступа к каталогу catalog.ocean.GFDL_CM2_6.GFDL_CM2_6_control_ocean_surface. В настоящее время я работаю только с небольшими исправлениями этих данных, но доступ к этим данным каждый раз по-прежнему довольно дорогой (это в Google Cloud Storage). Поэтому я хочу использовать постоянную опцию приема для хранения этих данных локально. Однако, насколько я понял из документов, похоже, что можно сохранить только весь набор данных. Для этого конкретного c набора данных это будет почти 400 долларов, если я возьму стоимость 0,1 доллара за ГБ, поскольку общие данные составляют 3976 ГБ.

Отсюда и мои вопросы:

  1. Есть ли способ (особенно для файла zarr, который в теории должен сделать это довольно простым), чтобы сохранить только части данных (например, только подмножество переменных)
  2. Это, вероятно, более сложно, но Могу ли я продолжить работу sh, сохранив интересующие меня области данных (например, с точки зрения значений координат)?

1 Ответ

0 голосов
/ 18 марта 2020

Нет прямого способа приема, чтобы сделать то, что вы просите. Впуск был задуман как способ перевести ваши данные в формат, которым вы можете затем манипулировать, как обычно, то есть работать только с загрузочной частью, так что постоянный набор данных будет таким же, как и исходный.

Однако выполнить sh вручную несложно: вам нужно взять xarray, отфильтровать нужный регион и вызвать to_zarr для сохранения нового набора данных. Затем вы можете указать простую запись каталога, например, старую, в новом месте.

Вы могли бы выполнить эту манипуляцию непосредственно в драйвере, если бы это был конкретный шаблон c, который бы повторять много На самом деле, мы обсуждали идею о том, следует ли / как реализовывать такие шаги обработки в Intake, но пока нет плана. В конце мы можем взять работу на конвейерах в Holoviews, чтобы описать этапы обработки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...