Чтение CSV-файла с правильной кодировкой в ​​пандах - PullRequest
0 голосов
/ 24 сентября 2019

Я не могу прочитать файл csv в моем jupiternotebook, вот ссылка github ссылка на файл csv

https://github.com/roshanthokchom/new-assignment/blob/master/spam.csv

 import numpy as np
 import pandas as pd
 from sklearn.naive_bayes import GaussianNB
 import urllib
 pd.read_csv('spam.csv',encoding='latin-1')

ParserError: Error tokenizing data. C error: Expected 2 fields in line 13, saw 4

1 Ответ

0 голосов
/ 24 сентября 2019

@ Рошан вот решение вашей проблемы:

import pandas as pd
import csv
with open('spam.csv', newline='') as f:
    csvread = csv.reader(f)
    raw_data = list(csvread)

data = []
for i in batch_data:
    i = i[0].split("\t")
    data.append(i)

final_data = pd.DataFrame(data)

Вы можете указать кодировку, как вы сделали, но ваш файл состоит из запятых между текстом, так что если вы читаете нормально, панды будут разделять данные на основе"".Вот почему вы получаете ошибку

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...