Dask read_csv-- Несоответствующие dtypes найдены в `pd.read_csv` /` pd.read_table` - PullRequest
0 голосов
/ 24 сентября 2018

Я пытаюсь использовать dask для чтения CSV-файла, и он выдал ошибку, как показано ниже.Но дело в том, что я хочу, чтобы мои ARTICLE_ID были object(string).Кто-нибудь может помочь мне успешно прочитать данные?

Трассировка, как показано ниже:

ValueError: Mismatched dtypes found in `pd.read_csv`/`pd.read_table`.

+------------+--------+----------+

| Column     | Found  | Expected |

+------------+--------+----------+

| ARTICLE_ID | object | int64    |

+------------+--------+----------+

The following columns also raised exceptions on conversion:

ARTICLE_ID:


ValueError("invalid literal for int() with base 10: ' July 2007 and 31 March 2008. Diagnostic practices of the medical practitioners for establishing the diagnosis of different types of EPTB were studied. Results: For the diagnosi\\\\'",)

Usually this is due to dask's dtype inference failing, and
*may* be fixed by specifying dtypes manually by adding:

dtype={'ARTICLE_ID': 'object'}

to the call to `read_csv`/`read_table`.

1 Ответ

0 голосов
/ 25 сентября 2018

В сообщении предлагается изменить ваш вызов с

df = dd.read_csv('mylocation.csv', ...)

на

df = dd.read_csv('mylocation.csv', ..., dtype={'ARTICLE_ID': 'object'})

, где вы должны изменить местоположение файла и любые другие аргументы на то, что вы использовали ранее.Если это по-прежнему не работает, пожалуйста, обновите ваш вопрос.

...