Разделить строки на огромное количество столбцов в сумерках - PullRequest
0 голосов
/ 08 ноября 2019

У меня есть серия dask X, заполненная строками, содержащими много текста, который я хочу разбить на столбцы. Вот что я делал:

cols = 2867847
W = X.str.split(n=cols, expand=True) #X has 3320 lines and npartitions=1000

Я не могу просто увеличить количество разделов для учета классификатора столбцов, потому что dask разделяет DataFrame по линиям. Можно ли вместо этого сделать столбцы над столбцами?

1 Ответ

1 голос
/ 09 ноября 2019

Странно использовать фреймы данных в стиле Pandas с тысячами столбцов. Возможно, есть какой-то другой API, который бы лучше подходил вашей ситуации? Может быть, dask.delayed или dask.bag или xarray?

...