Я пытаюсь обработать текстовые данные (твиты Twitter) с помощью PySpark. Эмодзи и специальные символы правильно отображаются красным цветом, но символы "\ n", "&" не отображаются. Spark их не узнает. Наверное, другие тоже. Один пример твита в моем Spark DF мог бы выглядеть так:
- «Всем привет \ n \ nКак у вас дела? ? Будьте осторожны и наслаждайтесь»
Я бы хотел Spark, чтобы правильно их прочитать. Файлы хранятся как паркет, и я читаю их следующим образом:
tweets = spark.read.format('parquet')\
.option('header', 'True')\
.option('encoding', 'utf-8')\
.load(path)
Ниже приведены некоторые образцы входных данных, которые я взял из исходных файлов JSONL (позже я сохранил данные как паркет).
"full_text": "RT @OurWarOnCancer: Где наша ФЕДЕРАЛЬНАЯ просветительская кампания по вакцинации против ВПЧ ?! Где наша ФЕДЕРАЛЬНАЯ программа скрининга # легких ?! (и \ u2026"
"full_text": "\ u2b55 \ ufe0f # ВПЧ - наиболее важная причина #CervicalCancer Но это не только вызывает рак шейки матки (см. Рисунок \ ud83d \ udc47) \ n \ u2b55 \ ufe0f, что означает, что их можно ПРЕДОТВРАТИТЬ »
Чтение результатов непосредственно из файлов JSONL в том же распознавании проблем.
tweets = spark.read.\
.option('encoding', 'utf-8')\
.json(path)
Как Spark может их правильно распознать? Заранее спасибо.