Есть ли способ для преобразования кодировки в Python Pyspark? - PullRequest
0 голосов
/ 21 октября 2019

У меня есть текстовый файл, сохраненный как файл UTF-8.

Я прочитал его как фрейм данных в pyspark:

df = spark.read.csv("C://Users//User-7//Desktop//test1.txt", header = True, inferSchema= True, sep = ',')

Сработало успешно! Результат:

+---------+-------+------+-----+
|اسم الطفل| الوالد|الشهرة|العمر|
+---------+-------+------+-----+
|   ابتهاج|    فرح|  سرور|   28|
|     دعاء| ابتهال|  تضرع|   26|
|     احمد|   محمد|   حسن|   26|
|     عابد|   كميل|  عبود|   15|
+---------+-------+------+-----+

Я пытаюсь сохранить его как CSV-файл:

df.coalesce(1).write.csv('C://Users//User-7//Desktop//test//test1//test1.csv',header=True,encoding='utf-8')

Файл test1.csv сохранен, но результат в Excel:

enter image description here

Пожалуйста, помогите

...