UnicodeDecodeError Sentiment140 Kaggle - PullRequest
       5

UnicodeDecodeError Sentiment140 Kaggle

0 голосов
/ 25 августа 2018

Я пытаюсь прочитать Sentiment140.csv, доступный на Kaggle: https://www.kaggle.com/kazanova/sentiment140

Мой код такой:

import pandas as pd
import os

cols = ['sentiment','id','date','query_string','user','text']
BASE_DIR = ''
df = pd.read_csv(os.path.join(BASE_DIR, 'Sentiment140.csv'),header=None, names=cols)

И это дает мне эту ошибку:

UnicodeDecodeError: кодек «utf-8» не может декодировать байты в позиции 80-81: недопустимый байт продолжения

Я хотел бы понять следующее:

1) Как мне решить эту проблему?

2) Где я могу увидеть, какой тип кодировки следует использовать вместо "utf-8", в зависимости от ошибки?

3) Использование других методов кодирования позже вызовет у меня другие проблемы?

Заранее спасибо

P.s. Я использую Python3 на Mac

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...