Расхождение в кодировке с набором данных Iris - PullRequest
0 голосов
/ 01 сентября 2018

После того, как я скачал набор данных как iris.data, я переименовал его в iris.data.txt. Я пытался обойти эту ошибку на SO:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd1 in position 8: invalid continuation byte

После прочтения я попробовал это:

dataset = pd.read_csv('iris.data.txt', header=None, names=names,encoding="ISO-8859-1")

Это частично решило ошибку, но некоторые строки все еще были мусором.

Затем я попытался открыть его с помощью Sublime, сохранить в кодировке utf-8, а затем dataset = pd.read_csv('iris.data.txt', header=None, names=names,encoding="utf-8")

Но это тоже не решает проблему. Я использую Python 3 в Mac OS. Что может сделать данные читаемыми напрямую?

[EDIT]: Тип данных гласит: Веб-архив. В Spyder файл отображается как iris.data.webarchive

Если я попытаюсь dataset = pd.read_csv('iris.data.webarchive', header=None), он выдаст следующую трассировку:

ParserError: Error tokenizing data. C error: Expected 1 fields in line 2, saw 5

Если я попытаюсь dataset = pd.read_csv('iris.data', header=None), это даст FileNotFoundError: File b'iris.data' does not exist

1 Ответ

0 голосов
/ 03 сентября 2018

Я понял мою ошибку новичка. Мне пришлось сохранить страницу как «источник» вместо «веб-архив» (это настройка Mac по умолчанию)

...