Question

У меня есть большие CSV-файлы, которые представляют данные о погоде для США с почасовым разрешением для сетки 5 км. Данные сохранялись за каждый день, поэтому я объединил их в годовой файл. Конечная цель - вычислить средние значения переменных (скорость ветра, температура, осадки, давление и т. Д. c) за день, неделю и месяц по широте и долготе. Заголовков столбцов нет, поэтому я добавляю имена столбцов в файл, когда читаю его.

Когда я пытался прочитать с помощью Pandas в Python, это не удалось, потому что оно не поместилось в памяти. Я могу читать с помощью Dask, но тогда я не могу найти способ добавить размеры в фрейм данных Dask или преобразовать в xarray и сделать то же самое. Есть ли способ прочитать эти слишком большие для памяти файлы, добавить измерения широты, долготы, даты и времени, вычислить средние значения за день, неделю и месяц для каждого широты и долготы и вывести файл? Или мне нужно преобразовать CSV в netCDF или аналогичный перед чтением?

Charles · Answer 1 · 01 июня 2020

Насколько мне известно, вы не можете загрузить CSV в xarray, не пройдя через pandas. Итак, да, вам нужно будет изменить формат файла, чтобы использовать xarray. Вы также можете разделить данные на файлы меньшего размера.

Как читать большие CSV-файлы, добавлять многомерности и конвертировать ежечасно в ежедневные?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как читать большие CSV-файлы, добавлять многомерности и конвертировать ежечасно в ежедневные?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы