Question

Я новичок в pyspark, я пишу код на python для чтения csv как rdd. Но я согласился с UnicodeDecodeError: кодек «ascii» не может декодировать байт 0xe5 в позиции 1055: порядковый номер не в диапазоне (128).

Вот решение, которое я пробовал, но оно не работает: PySpark - UnicodeEncodeError: кодек «ascii» не может кодировать символ

import pandas as pd
from pyspark.sql import SparkSession
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.types import *


spark=SparkSession.builder.appName("hj").getOrCreate()
sc = SparkContext.getOrCreate()

lines = sc.textFile('/hello.csv')


lines = lines.filter(lambda row:row != header)
header = lines.first()
print(header)

Я набрал "export PYTHONIOENCODING = utf8" перед отправкой с помощью spark, но это не сработало. Может кто-нибудь мне помочь? большое спасибо!

pyspark: UnicodeDecodeError: кодек «ascii» не может декодировать байт 0xe5 в позиции 1055: порядковый номер не в диапазоне (128)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

pyspark: UnicodeDecodeError: кодек «ascii» не может декодировать байт 0xe5 в позиции 1055: порядковый номер не в диапазоне (128)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов