, поэтому я пытаюсь использовать что-то под названием DeepMoji, чтобы оценить CSV, полный твитов. Твиты должны быть закодированы в Unicode. Я смог заставить его работать с небольшим набором данных, но с тем, что у меня более 200 000 точек, я получаю эту ошибку:
UnicodeDecodeError: кодек «utf8» не может декодировать байт 0xe2 в позиции 254: неожиданный конец данных.
Код и решение, которые я попробовал, следующие, но выдает ту же ошибку, у кого-нибудь есть идеи?
TEST_SENTENCES = []
with open('Cleaned_Data3.csv', 'rU') as csvfile:
reader = csv.DictReader(csvfile)
for row in reader:
TEST_SENTENCES.append(row["Tweet"])
try:
[x.encode('utf-8') for x in TEST_SENTENCES]
except:
for rows in TEST_SENTENCES: #attempt to fix the problem
str=unicode(str, errors='replace')
Вот полный код ошибки.
Traceback (most recent call last):
File "C:\Users\pjame\Desktop\DeepMoji-master\examples\score_texts_emojis.py", line 24, in <module>
for row in reader:
File "C:\Python27\lib\site-packages\unicodecsv\py2.py", line 217, in next
row = csv.DictReader.next(self)
File "C:\Python27\lib\csv.py", line 108, in next
row = self.reader.next()
File "C:\Python27\lib\site-packages\unicodecsv\py2.py", line 128, in next
for value in row]
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe2 in position 254: unexpected end of data