Как создать фрейм данных dask из строки данных, разделенной символами табуляции и новой строки - PullRequest
0 голосов
/ 22 января 2019

Мои данные представлены в виде строки, разделенной символом \ (для столбцов) и символом новой строки \ n для строк.

ID\Product\quantity\n1\xx\2

Похоже, Dask.array.from_array () поддерживает только массив в качестве входных данных.

Хотя я могу преобразовать приведенный выше текст в np.array, используя

np.array([i.split("\t") for i in data[1].split("\n")])

Интересно, есть ли что-то, эквивалентное прямому преобразованию строки в массив dask или фрейм данных.

1 Ответ

0 голосов
/ 20 февраля 2019

Возможно, вам понадобится функция dask.dataframe.read_csv

import dask.dataframe as dd
df = dd.read_csv('filename.*.csv', sep='\t')
...