У меня есть большие CSV-файлы, которые представляют данные о погоде для США с почасовым разрешением для сетки 5 км. Данные сохранялись за каждый день, поэтому я объединил их в годовой файл. Конечная цель - вычислить средние значения переменных (скорость ветра, температура, осадки, давление и т. Д. c) за день, неделю и месяц по широте и долготе. Заголовков столбцов нет, поэтому я добавляю имена столбцов в файл, когда читаю его.
Когда я пытался прочитать с помощью Pandas в Python, это не удалось, потому что оно не поместилось в памяти. Я могу читать с помощью Dask, но тогда я не могу найти способ добавить размеры в фрейм данных Dask или преобразовать в xarray и сделать то же самое. Есть ли способ прочитать эти слишком большие для памяти файлы, добавить измерения широты, долготы, даты и времени, вычислить средние значения за день, неделю и месяц для каждого широты и долготы и вывести файл? Или мне нужно преобразовать CSV в netCDF или аналогичный перед чтением?