Я импортировал паркетный файл ок.800 МБ с ~ 50 миллионами строк в кадре данных.Есть 5 столбцов: DATE, TICKER, COUNTRY, RETURN, GICS
Вопросы:
- Как мне указать тип данных в read_parquet или я должен сделать это с помощью astype?
- Могу ли ядата разбора в read_parquet
Я просто попытался сделать следующее:
import dask.dataframe as dd
dd.read_parquet('.\abc.gzip')
df['INDUSTRY'] = df.GICS.str[0:4]
n = df.INDUSTRY.unique().compute()
, и для его возврата требуется вечность.Я что-то здесь не так делаю?разделы автоматически устанавливаются на 1.
Я пытаюсь сделать что-то вроде df[df.INDUSTRY == '4010'].compute()
, для возврата или сбоя также требуется вечность.