Почему при загрузке файла CSV с моего Github возникает ошибка «Ошибка токенизации данных», но при загрузке точно такого же файла с жесткого диска не возникает? - PullRequest
0 голосов
/ 02 марта 2019

Я совершенно новый в Python.Я пытаюсь научиться загружать наборы данных из разных источников.Я не нашел следующую проблему в переполнении стека или в поиске Google.У меня есть файл данных .csv, который я изначально скачал из хранилища научных данных.Когда я загружаю его со своего жесткого диска, проблем не возникает, и я могу быстро получить основные факты о данных и увидеть, что в заголовках столбцов только два NaN и нет синтаксических ошибок.Когда я пытаюсь загрузить его из своего репозитория Github, я получаю следующее:

Код:

import pandas as pd
import numpy as np

df = pd.read_csv('https://github.com/hXXX/YYY/blob/master/CCCC.csv')

Это вызывает следующий вывод ошибки:

Error:
---------------------------------------------------------------------------
ParserError                               Traceback (most recent call last)
<ipython-input-34-d5c99e7779b6> in <module>
----> 1 df = pd.read_csv('https://github.com/hXXX/YYY/blob/master/CCCC.csv')
...
...

ParserError: Error tokenizing data. C error: Expected 1 fields in line 75, saw 4

У меня естьЭтот тип ошибок рассматривался в нескольких вопросах переполнения стека, где были обнаружены ошибки при наборе в файле данных.Но в моем csv-файле нет ни одного файла, особенно когда я сравниваю строки между файлом на моем жестком диске и файлом в моем репозитории Github (я загрузил файл в свой репозиторий со своего жесткого диска).Я получил код для загрузки в Python из Stack Overflow, поэтому предположим, что он должен работать.Файл не очень большой, (3696, 22).Я ценю любую помощь.Спасибо, Хибер

1 Ответ

0 голосов
/ 02 марта 2019

URL-адрес, который вы используете, указывает на веб-средство просмотра GitHub для содержимого репозитория, поэтому загружаемые данные являются веб-страницей, а не необработанным CSV-файлом.GitHub использует другую схему URL для необработанного содержимого файла, это можно увидеть с помощью кнопки «Raw», отображаемой в веб-интерфейсе при просмотре любого данного файла.Например, URL-адрес будет https://raw.githubusercontent.com/hXXX/YYY/master/CCCC.csv.

. Обратите внимание, что GitHub официально не предоставляет это в качестве способа программного извлечения данных из своих репозиториев, поэтому он может не работать вечно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...