Question

После того, как я скачал набор данных как iris.data, я переименовал его в iris.data.txt. Я пытался обойти эту ошибку на SO:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd1 in position 8: invalid continuation byte

После прочтения я попробовал это:

dataset = pd.read_csv('iris.data.txt', header=None, names=names,encoding="ISO-8859-1")

Это частично решило ошибку, но некоторые строки все еще были мусором.

Затем я попытался открыть его с помощью Sublime, сохранить в кодировке utf-8, а затем dataset = pd.read_csv('iris.data.txt', header=None, names=names,encoding="utf-8")

Но это тоже не решает проблему. Я использую Python 3 в Mac OS. Что может сделать данные читаемыми напрямую?

[EDIT]: Тип данных гласит: Веб-архив. В Spyder файл отображается как iris.data.webarchive

Если я попытаюсь dataset = pd.read_csv('iris.data.webarchive', header=None), он выдаст следующую трассировку:

ParserError: Error tokenizing data. C error: Expected 1 fields in line 2, saw 5

Если я попытаюсь dataset = pd.read_csv('iris.data', header=None), это даст FileNotFoundError: File b'iris.data' does not exist

srkdb · Answer 1 · 03 сентября 2018

Я понял мою ошибку новичка. Мне пришлось сохранить страницу как «источник» вместо «веб-архив» (это настройка Mac по умолчанию)

Расхождение в кодировке с набором данных Iris

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Расхождение в кодировке с набором данных Iris

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы