Как решить проблему чтения CSV-файла с арабскими символами в Python 3 с помощью панд - PullRequest
0 голосов
/ 28 апреля 2019

Я пытаюсь прочитать csv-файл, содержащий арабские символы в pytho3, используя панд.Как исправить эту ошибку: UnicodeDecodeError: кодек «utf-8» не может декодировать байт 0xc3 в позиции 0: недопустимый байт продолжения

для приведенного ниже кода. Я получил ошибку:

import pandas as pd 


df= pd.read_csv('C:/Users/DELL/Desktop/test_model.csv',encoding='utf-8')


print(pd)

another code gave me NAN values for Arabic texts :

import chardet


import pandas as pd


def find_encoding(fname):

    r_file = open(fname, 'rb').read()


    result = chardet.detect(r_file)


    charenc = result['encoding']

    return charenc


my_encoding = find_encoding('C:/Users/DELL/Desktop/test_model.csv')


df = pd.read_csv('C:/Users/DELL/Desktop/test_model.csv', encoding=my_encoding,dtype='object',)


print (df)

результаты:

 rid          id OutOfScope ...   polarity from   to
0    456   456:00:00        NaN ...   positive   31   35
1    456   456:01:00        NaN ...   positive    5   11
2    456   456:01:00        NaN ...   positive   25   33
3    456   456:01:00        NaN ...   positive   35   48
4    456   456:01:00        NaN ...   negative   67   78
5    456   456:02:00        NaN ...   positive    0    4
6   1322  1322:00:00        NaN ...   positive   25   29
7   1322  1322:00:00        NaN ...   positive    0    0
8   1322  1322:00:00        NaN ...   positive    0    0
9   1322  1322:01:00        NaN ...   positive   21   36
10  1322  1322:01:00        NaN ...   positive   59   75
11  1322  1322:02:00        NaN ...   positive    0   10
12  1322  1322:03:00        NaN ...   positive    0    4
13  1322  1322:04:00        NaN ...   positive    4   11
14  1322  1322:04:00        NaN ...   positive    0    0
15  1322  1322:04:00        NaN ...   positive    0    0
16  1606  1606:00:00        NaN ...   positive   89   92
17  1606  1606:00:00        NaN ...   positive   98  103
...