Как читать большие CSV-файлы, добавлять многомерности и конвертировать ежечасно в ежедневные? - PullRequest
0 голосов
/ 28 мая 2020

У меня есть большие CSV-файлы, которые представляют данные о погоде для США с почасовым разрешением для сетки 5 км. Данные сохранялись за каждый день, поэтому я объединил их в годовой файл. Конечная цель - вычислить средние значения переменных (скорость ветра, температура, осадки, давление и т. Д. c) за день, неделю и месяц по широте и долготе. Заголовков столбцов нет, поэтому я добавляю имена столбцов в файл, когда читаю его.

Когда я пытался прочитать с помощью Pandas в Python, это не удалось, потому что оно не поместилось в памяти. Я могу читать с помощью Dask, но тогда я не могу найти способ добавить размеры в фрейм данных Dask или преобразовать в xarray и сделать то же самое. Есть ли способ прочитать эти слишком большие для памяти файлы, добавить измерения широты, долготы, даты и времени, вычислить средние значения за день, неделю и месяц для каждого широты и долготы и вывести файл? Или мне нужно преобразовать CSV в netCDF или аналогичный перед чтением?

1 Ответ

0 голосов
/ 01 июня 2020

Насколько мне известно, вы не можете загрузить CSV в xarray, не пройдя через pandas. Итак, да, вам нужно будет изменить формат файла, чтобы использовать xarray. Вы также можете разделить данные на файлы меньшего размера.

...