Я новичок в pyspark, я пишу код на python для чтения csv как rdd.
Но я согласился с UnicodeDecodeError: кодек «ascii» не может декодировать байт 0xe5 в позиции 1055: порядковый номер не в диапазоне (128).
Вот решение, которое я пробовал, но оно не работает:
PySpark - UnicodeEncodeError: кодек «ascii» не может кодировать символ
import pandas as pd
from pyspark.sql import SparkSession
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.types import *
spark=SparkSession.builder.appName("hj").getOrCreate()
sc = SparkContext.getOrCreate()
lines = sc.textFile('/hello.csv')
lines = lines.filter(lambda row:row != header)
header = lines.first()
print(header)
Я набрал "export PYTHONIOENCODING = utf8" перед отправкой с помощью spark, но это не сработало. Может кто-нибудь мне помочь? большое спасибо!