Эксперты, я пытаюсь прочитать файл с разделителем ccedilla (Ç) в Pyspark, напечатанный как ALT + 0199, и он хорошо работает, когда я делаю это в Pyspark Shell (Spark 1.6, Python 2.7)
$ hdfs dfs -cat /user/user1/test.dat
AÇBÇC
>>> sqlContext.read.format("com.databricks.spark.csv").option("header","false").option("inferSchema","false").option("delimiter",'Ç').load("/user/user1/test.dat").show()
+---+---+---+
|_c0|_c1|_c2|
+---+---+---+
| A| B| C|
+---+---+---+
Однако, когда я пытаюсь сделать то же самое в моей программе Pyspark (.py скрипт), я получаю ошибку ниже -
SyntaxError: Non-ASCII character '\xc3' in file createDFs.py on line 53, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
Я пытался доказать эти опции в скрипте, но не не удалось избавиться от этой ошибки.
# -*- coding: utf-8 -*-
Также попытался указать кодировку в опции -
df=sqlContext.read.format("com.databricks.spark.csv").option("header","true").option("inferSchema","false").option("delimiter",'Ç').option("encoding","utf-8").load("/user/user1/test.dat")