парсинг неструктурированных данных с помощью pyspark - PullRequest
0 голосов
/ 09 июля 2020

Я новичок в Spark. Я пытаюсь проанализировать неструктурированные данные в формате ниже.

Весь набор данных находится в одной строке .

Каждая строка / запись разделена специальным символом ~ $ | , и каждый столбец записи разделен пробелом табуляции.

Итак, как я могу проанализировать это и преобразовать во фрейм данных?

Raj India 1000 ~$| John Canada 2000 ~$| Steve USA 3000 ~$| Jason USA 4000

1 Ответ

1 голос
/ 09 июля 2020

Используйте метод spark.read.text() и параметр In, сохраните свой собственный lineSep

spark.read.option("lineSep", '~$|').text('<filepath>').withColumn("value",regexp_replace(col("value"),'\n','')).show()
#+------------------+
#|             value|
#+------------------+
#|   Raj India 1000 |
#| John Canada 2000 |
#|   Steve USA 3000 |
#|    Jason USA 4000|
#+------------------+

После создания фрейма данных используйте функцию split для значения column для создания новых столбцов в фрейме данных с помощью функций .getItem, element_at.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...