Pyspark - UnicodeEncodeError: кодек «ascii» не может кодировать символ - PullRequest
0 голосов
/ 23 ноября 2018

Получение unicodeerror при запуске указанной ниже программы при попытке вставить данные в базу данных Oracle.

# -*- coding: utf-8 -*-
#import unicodedata
from pyspark.sql import SparkSession
from pyspark.sql import SQLContext
from pyspark.sql.types import *
from pyspark.sql.functions import udf
import sys
print(sys.getdefaultencoding())

u = 'abcdé'
a = 'Austròalia'
print(u)
print(a)

spark = SparkSession.builder.master("local") \
        .appName("Unicode_Error") \
        .getOrCreate()

sqlContext = SQLContext(spark)

l = [(340, 'India',1),(340, 'Canada',2),(341, u'abcdé',3),(340, 'Japan',4),(341, u'Austròalia',5),(341, 'China',6)]
df = sqlContext.createDataFrame(l, ['CUSTOMER_ID', 'COUNTRY', 'LINENUMBER'])
df.show()

data_tuples = [tuple(x) for x in df.rdd.collect()]

print(str(data_tuples))

print(type(data_tuples))

query = "INSERT INTO CUSTOMERS VALUES (:1, :2, :3)"
cur = con.cursor()
cur.prepare(query)
cur.executemany(None, data_tuples)
con.commit()
cur.close()
con.close()

Перед отправкой задания Spark было задано значение PYTHONIOENCODING=utf8, которое решилопроблемы с dataframe.show () .а также # -*- coding: utf-8 -*- помог с разрешением операторов печати python.

Хотя теперь я получаю сообщение об ошибке даже после того, как информационный фрейм отображает данные правильно.Преобразование кадра данных в список - это то место, где обычно возникает проблема, не могли бы вы сообщить, что еще нужно сделать.

ascii
abcdé
Austròalia
+-----------+----------+----------+
|CUSTOMER_ID|   COUNTRY|LINENUMBER|
+-----------+----------+----------+
|        340|     India|         1|
|        340|    Canada|         2|
|        341|     abcdé|         3|
|        340|     Japan|         4|
|        341|Austròalia|         5|
|        341|     China|         6|
+-----------+----------+----------+

[(340, u'India', 1), (340, u'Canada', 2), (341, u'abcd\xe9', 3), (340, u'Japan', 4), (341, u'Austr\xf2alia', 5), (341, u'China', 6)]
<type 'list'>

> Traceback (most recent call last): cur.executemany(None, data_tuples)
> UnicodeEncodeError: 'ascii' codec can't encode character u'\xe9' in
> position 4: ordinal not in range(128)

В списке кортежа есть данные Unicode, и использование encode не быловозможно то же самое, но распечатка каждого элемента в списке кортежей дала мне точный вывод, как показано ниже

[('340', "u'India'", '1'), ('340', "u'Canada'", '2'), ('341', "u'abcd\\xe9'", '3'), ('340', "u'Japan'", '4'), ('341', "u'Austr\\xf2alia'", '5'), ('341', "u'China'", '6')]
***********************
India
340
India
1
340
Canada
2
341
abcdé
3
340
Japan
4
341
Austròalia
5
341
China
6

1 Ответ

0 голосов
/ 27 ноября 2018

Эта проблема была решена путем передачи дополнительных параметров при подключении к Oracle через cx_Oracle.

Установите метод кодирования для среды Python для поддержки обработки данных Unicode

# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

Укажите свойства кодированияв cx_Oracle connect

con = cx_Oracle.connect(connection_string, encoding = "UTF-8", nencoding = "UTF-8")

Вы можете сослаться на https://github.com/oracle/python-cx_Oracle/issues/36, чтобы получить больше информации о том же.

...