игнорировать несовпадающие типы столбцов с помощью to_csv и dask - PullRequest
0 голосов
/ 16 октября 2019

Я пытаюсь экспортировать фрейм данных с помощью dask с помощью команды dask.dataframe.to_csv(datframe_name, file etc..), которая была указана в руководстве по Dask: https://docs.dask.org/en/latest/dataframe-api.html#dask.dataframe.read_csv

Я использую dask, поскольку исходный файл CSV был очень большим(20 Гб), и он очень медленно использовал панды для чтения файла.

Однако, все, что я пытаюсь экспортировать в фрейм данных, я получаю следующую ошибку:

ValueError: Mismatched dtypes found in `pd.read_csv`/`pd.read_table`.

+----------+--------+----------+
| Column   | Found  | Expected |
+----------+--------+----------+
| DeviceID | object | int64    |
| Lat      | object | float64  |
| Long     | object | float64  |
+----------+--------+----------+

Странно, что фрейм данных находит столбцы как объекты, когда их dtypesцелое число и число с плавающей запятой.

Есть ли способ игнорировать чтение типов столбцов и просто экспортировать кадр данных как есть?

1 Ответ

0 голосов
/ 19 октября 2019

В сообщении об ошибке сообщается, что при чтении ваших данных из исходных файлов CSV фрейм данных Dask обнаружил, что ваши данные на самом деле не были числовыми, как первоначально предполагалось. Распространенной причиной этого является то, что у вас есть несколько строк данных, которые на самом деле не являются числовыми. Возможно, у вас есть пользовательское значение NA или некоторые строки ваших данных каким-то образом не совпадают.

...