Как преобразовать dbf файл в dask dataframe? - PullRequest
0 голосов
/ 07 декабря 2018

У меня большой файл dbf, его преобразование в pandas dataframe занимает много времени.Есть ли способ преобразовать файл в файл данных dask?

1 Ответ

0 голосов
/ 07 декабря 2018

Dask не имеет метода загрузки dbf.

Насколько я могу судить, файлы dbf не поддерживают произвольный доступ к данным, поэтому невозможно прочитать из разделов файла вотдельные работники, параллельно.Я могу ошибаться, но, конечно, dbfreader не упоминает о переходе к произвольной записи.

Следовательно, единственный способ, которым вы могли бы читать из dbf параллельно и надеяться увидеть увеличение скорости, был быразделить ваши исходные данные на несколько файлов dbf и использовать dask.delayed для чтения каждого из них.

Стоит отметить, что, вероятно, причина в том, что dbfreader работает медленно (но, пожалуйста, сделайте свое собственное профилирование!)что он выполняет побайтовые манипуляции и создает объекты python для каждой записи перед передачей записей пандам.Если вы действительно хотите ускорить процесс, этот код следует преобразовать в cython или, возможно, в numba, и назначить предварительно выделенный фрейм данных.

...