Прочитайте арабский текст из БД и сохраните в формате паркет в s3 - PullRequest
0 голосов
/ 05 декабря 2018

У меня есть скрипт pyspark, который читает данные mysql, которые содержат значения столбцов во фрейме данных, и сохраняет данные в формате паркета в aws s3, но при запросе с использованием aws athena он показывает некоторый случайный текст, а не арабский.Я делаю что-то не так.Пожалуйста, помогите в этом разобраться.Текст, который я получаю, - это, как это можно преобразовать в арабский язык.

При чтении данных из mysql с помощью pyspark я получаю данные в формате: 'ا٠„Ø´Ø ±Ù,ÙŠØ ©».

Заранее спасибо.

1 Ответ

0 голосов
/ 14 декабря 2018

При чтении из mysql нам нужно передать "? UseUnicode = true & characterEncoding = UTF-8" со строкой URL, например,

user_df = sqlContext.read.format("jdbc").options(
                                   url="jdbc:mysql://HOST/DB_NAME?useUnicode=true&characterEncoding=UTF-8",
                                   driver="com.mysql.jdbc.Driver",
                                   dbtable="users",
                                   user="root",
                                   password="root"
                                  ).load()

Это решило мою проблему.

...