Как прочитать файл с Ç в качестве разделителя в Pyspark (SyntaxError: не-ASCII символ '\ xc3' в файле) - PullRequest
0 голосов
/ 06 февраля 2020

Эксперты, я пытаюсь прочитать файл с разделителем ccedilla (Ç) в Pyspark, напечатанный как ALT + 0199, и он хорошо работает, когда я делаю это в Pyspark Shell (Spark 1.6, Python 2.7)


$ hdfs dfs -cat /user/user1/test.dat
AÇBÇC

>>> sqlContext.read.format("com.databricks.spark.csv").option("header","false").option("inferSchema","false").option("delimiter",'Ç').load("/user/user1/test.dat").show()
+---+---+---+
|_c0|_c1|_c2|
+---+---+---+
|  A|  B|  C|
+---+---+---+

Однако, когда я пытаюсь сделать то же самое в моей программе Pyspark (.py скрипт), я получаю ошибку ниже -

SyntaxError: Non-ASCII character '\xc3' in file createDFs.py on line 53, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

Я пытался доказать эти опции в скрипте, но не не удалось избавиться от этой ошибки.

# -*- coding: utf-8 -*-

Также попытался указать кодировку в опции -

df=sqlContext.read.format("com.databricks.spark.csv").option("header","true").option("inferSchema","false").option("delimiter",'Ç').option("encoding","utf-8").load("/user/user1/test.dat")
...