pyspark: UnicodeDecodeError: кодек «ascii» не может декодировать байт 0xe5 в позиции 1055: порядковый номер не в диапазоне (128) - PullRequest
0 голосов
/ 20 мая 2019

Я новичок в pyspark, я пишу код на python для чтения csv как rdd. Но я согласился с UnicodeDecodeError: кодек «ascii» не может декодировать байт 0xe5 в позиции 1055: порядковый номер не в диапазоне (128).

Вот решение, которое я пробовал, но оно не работает: PySpark - UnicodeEncodeError: кодек «ascii» не может кодировать символ

import pandas as pd
from pyspark.sql import SparkSession
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.types import *


spark=SparkSession.builder.appName("hj").getOrCreate()
sc = SparkContext.getOrCreate()

lines = sc.textFile('/hello.csv')


lines = lines.filter(lambda row:row != header)
header = lines.first()
print(header)

Я набрал "export PYTHONIOENCODING = utf8" перед отправкой с помощью spark, но это не сработало. Может кто-нибудь мне помочь? большое спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...