Pandas read_csv создает конечные безымянные столбцы и не читается во всем файле csv - PullRequest
0 голосов
/ 09 мая 2020

Я нашел здесь несколько похожих вопросов, но ни один из них не решил мою проблему. У меня есть файл csv с одним столбцом, содержащим несколько длинных строк, а в других столбцах - короткие строки. Когда я прочитал его с помощью

df = pd.read_csv(file_path, encoding = 'UTF-8')

, я получил:

text    colA     colB    colC   colD      Unnamed: 5    Unnamed: 6  Unnamed: 7  Unnamed: 8  Unnamed: 9  Unnamed: 10

Но у меня есть только text colA colB colC colD эти столбцы в файле csv.

Я подумал, что это было хорошо, я могу просто удалить эти безымянные столбцы, но я обнаружил, что df.shape is (180106, 11) \ Однако мой файл csv составляет около 270000 строк. Я не знаю, связаны ли эти две проблемы друг с другом.

Я попытался добавить параметр quoting=csv.QUOTE_NONE в read_csv Это дает мне:

b'Skipping line 17: expected 11 fields, saw 12\nSkipping line 18: expected 11 fields, saw 12\nSkipping line 19: expected 11 fields, saw 12\

Это пропускает еще больше строк , что делает его даже меньше, чем 180106

Я думаю, это может быть связано с тем, как анализируется файл CSV, но я не знаю, как я могу его полностью прочитать. К сожалению, данные в CSV-файле конфиденциальны, поэтому я не могу поделиться образцом.

1 Ответ

0 голосов
/ 09 мая 2020

просто перенесите файл csv в имя файла, в котором вы работаете

df=pd.read_csv("file_name")
df.isnull().sum()
df.describe()
df.info()

, если значение null, вы можете получить сумму истинных значений всех столбцов данных , используя descrbive вы получаете статистику c описание данных используя info вы получаете все детали данных если ни один из них не показывал информацию о данных, удалите данные и загрузите снова

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...