Мой код выглядит так: я использую PyCharm в качестве своей IDE, а файл csv, который я использую, взят из MS Excess. Я закодировал csv как UTF-8. Я пытаюсь прочитать файл, используя pandas. Я хочу иметь возможность различать sh между объектами и int при вызове df.info (). По этой же причине я не изменил его на 'latin-1' или 'ISO ...'
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')
cols = ['sentiment','id','date','query_string','user','text']
df = pd.read_csv("trainingandtestdata\\training.1600000.processed.noemoticon.csv", header=None,
names=cols, encoding='utf-8')#low_memory=False dtype='unicode' encoding='latin1'
df.head()
df.info()
df.sentiment.value_counts()
Моя ошибка выглядит так: Как исправить невозможность декодирования байтов в позициях от xxxx до xxxx?
"C:\Users\dashg\PycharmProjects\Twitter Sentiment\venv\Scripts\python.exe"
"C:/Users/dashg/PycharmProjects/Twitter Sentiment/Reviewer.py"
Traceback (most recent call last):
File "C:/Users/dashg/PycharmProjects/Twitter Sentiment/Reviewer.py", line 6, in <module>
df = pd.read_csv("trainingandtestdata\\training.1600000.processed.noemoticon.csv", header=None,
names=cols, encoding='utf-8')#low_memory=False dtype='unicode' encoding='latin1'
File "C:\Users\dashg\PycharmProjects\Twitter Sentiment\venv\lib\site-
packages\pandas\io\parsers.py", line 676, in parser_f
return _read(filepath_or_buffer, kwds)
File "C:\Users\dashg\PycharmProjects\Twitter Sentiment\venv\lib\site-
packages\pandas\io\parsers.py", line 454, in _read
data = parser.read(nrows)
File "C:\Users\dashg\PycharmProjects\Twitter Sentiment\venv\lib\site-
packages\pandas\io\parsers.py",
line 1133, in read
ret = self._engine.read(nrows)
File "C:\Users\dashg\PycharmProjects\Twitter Sentiment\venv\lib\site-
packages\pandas\io\parsers.py", line 2037, in read
data = self._reader.read(nrows)
File "pandas\_libs\parsers.pyx", line 860, in pandas._libs.parsers.TextReader.read
File "pandas\_libs\parsers.pyx", line 875, in pandas._libs.parsers.TextReader._read_low_memory
File "pandas\_libs\parsers.pyx", line 929, in pandas._libs.parsers.TextReader._read_rows
File "pandas\_libs\parsers.pyx", line 916, in pandas._libs.parsers.TextReader._tokenize_rows
File "pandas\_libs\parsers.pyx", line 2063, in pandas._libs.parsers.raise_parser_error
UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 51845-51846: invalid continuation
byte
Process finished with exit code 1