Почему Dask меняет содержимое файла csv? - PullRequest
0 голосов
/ 01 июля 2019

Заключение
Работало нормально, добавляя параметр в read_csv.
... Но двойная кавычка все еще ушел.

Страница, которая стала полезной
https://www.kaggle.com/szelee/how-to-import-a-csv-file-of-55-million-rows#369081


Я читаю файл CSV от Dask и ничего не делая, пишу файл CSV от dask.
Но Dask изменяет содержимое CSV-файла.

import os
import dask.dataframe as dd

user_name = os.environ['USERPROFILE'].replace('\\', '/')
dir = user_name + '/Desktop/'

types_dict = {
  'Region': 'object', 
  'Product': 'object',
  'Date': 'object',
  'Sales': 'object'
}
#I changed to the following code. df = dd.read_csv(dir + 'Sales_Data_1.csv')
df = dd.read_csv(dir + 'Sales_Data_1.csv', dtype=types_dict)

# In case of no dtype parameter on read_csv()
# print(df.dtypes)
# Region      object
# Product     object
# Date        object
# Sales      float64
# dtype: object

# Error Occurs
# FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\username\\Desktop\\Sales_Data_1.csv\\1.part'
#df.to_csv(dir + 'Sales_Data_1.csv')

df.compute().to_csv(dir + 'Sales_Data_1_dask.csv', index=False, quotechar = '"', doublequote = True)

Я скачал файл CSV с этого сайта.
https://www.masterdataanalysis.com/ms-excel/analyzing-50-million-records-excel/

Разница Sales_Data_1.csv и Sales_Data_1_dask.csv
diff от Winmerge

1 Ответ

0 голосов
/ 02 июля 2019
# FileNotFoundError: [Errno 2] No such file or directory: 'C:\\Users\\username\\Desktop\\Sales_Data_1.csv\\1.part'
#df.to_csv(dir + 'Sales_Data_1.csv')

df.compute().to_csv(dir + 'Sales_Data_1_dask.csv', index=False, quotechar = '"', doublequote = True)

Dask dataframe не записывает ни один файл (это трудно сделать параллельно).Вместо этого вы предоставляете ему каталог, и он записывает много файлов в этот каталог.Я рекомендую вам прочитать строку документации для этой функции.

...