Question

Я пытаюсь экспортировать фрейм данных с помощью dask с помощью команды dask.dataframe.to_csv(datframe_name, file etc..), которая была указана в руководстве по Dask: https://docs.dask.org/en/latest/dataframe-api.html#dask.dataframe.read_csv

Я использую dask, поскольку исходный файл CSV был очень большим(20 Гб), и он очень медленно использовал панды для чтения файла.

Однако, все, что я пытаюсь экспортировать в фрейм данных, я получаю следующую ошибку:

ValueError: Mismatched dtypes found in `pd.read_csv`/`pd.read_table`.

+----------+--------+----------+
| Column   | Found  | Expected |
+----------+--------+----------+
| DeviceID | object | int64    |
| Lat      | object | float64  |
| Long     | object | float64  |
+----------+--------+----------+

Странно, что фрейм данных находит столбцы как объекты, когда их dtypesцелое число и число с плавающей запятой.

Есть ли способ игнорировать чтение типов столбцов и просто экспортировать кадр данных как есть?

MRocklin · Answer 1 · 19 октября 2019

В сообщении об ошибке сообщается, что при чтении ваших данных из исходных файлов CSV фрейм данных Dask обнаружил, что ваши данные на самом деле не были числовыми, как первоначально предполагалось. Распространенной причиной этого является то, что у вас есть несколько строк данных, которые на самом деле не являются числовыми. Возможно, у вас есть пользовательское значение NA или некоторые строки ваших данных каким-то образом не совпадают.

игнорировать несовпадающие типы столбцов с помощью to_csv и dask

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

игнорировать несовпадающие типы столбцов с помощью to_csv и dask

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы