Я пытаюсь прочитать csv-файл, содержащий арабские символы в pytho3, используя панд.Как исправить эту ошибку: UnicodeDecodeError: кодек «utf-8» не может декодировать байт 0xc3 в позиции 0: недопустимый байт продолжения
для приведенного ниже кода. Я получил ошибку:
import pandas as pd
df= pd.read_csv('C:/Users/DELL/Desktop/test_model.csv',encoding='utf-8')
print(pd)
another code gave me NAN values for Arabic texts :
import chardet
import pandas as pd
def find_encoding(fname):
r_file = open(fname, 'rb').read()
result = chardet.detect(r_file)
charenc = result['encoding']
return charenc
my_encoding = find_encoding('C:/Users/DELL/Desktop/test_model.csv')
df = pd.read_csv('C:/Users/DELL/Desktop/test_model.csv', encoding=my_encoding,dtype='object',)
print (df)
результаты:
rid id OutOfScope ... polarity from to
0 456 456:00:00 NaN ... positive 31 35
1 456 456:01:00 NaN ... positive 5 11
2 456 456:01:00 NaN ... positive 25 33
3 456 456:01:00 NaN ... positive 35 48
4 456 456:01:00 NaN ... negative 67 78
5 456 456:02:00 NaN ... positive 0 4
6 1322 1322:00:00 NaN ... positive 25 29
7 1322 1322:00:00 NaN ... positive 0 0
8 1322 1322:00:00 NaN ... positive 0 0
9 1322 1322:01:00 NaN ... positive 21 36
10 1322 1322:01:00 NaN ... positive 59 75
11 1322 1322:02:00 NaN ... positive 0 10
12 1322 1322:03:00 NaN ... positive 0 4
13 1322 1322:04:00 NaN ... positive 4 11
14 1322 1322:04:00 NaN ... positive 0 0
15 1322 1322:04:00 NaN ... positive 0 0
16 1606 1606:00:00 NaN ... positive 89 92
17 1606 1606:00:00 NaN ... positive 98 103