Question

Я новичок в Spark. Я пытаюсь проанализировать неструктурированные данные в формате ниже.

Весь набор данных находится в одной строке .

Каждая строка / запись разделена специальным символом ~ $ | , и каждый столбец записи разделен пробелом табуляции.

Итак, как я могу проанализировать это и преобразовать во фрейм данных?

Raj India 1000 ~$| John Canada 2000 ~$| Steve USA 3000 ~$| Jason USA 4000

Shu · Answer 1 · 09 июля 2020

Используйте метод spark.read.text() и параметр In, сохраните свой собственный lineSep

spark.read.option("lineSep", '~$|').text('<filepath>').withColumn("value",regexp_replace(col("value"),'\n','')).show()
#+------------------+
#|             value|
#+------------------+
#|   Raj India 1000 |
#| John Canada 2000 |
#|   Steve USA 3000 |
#|    Jason USA 4000|
#+------------------+

После создания фрейма данных используйте функцию split для значения column для создания новых столбцов в фрейме данных с помощью функций .getItem, element_at.

парсинг неструктурированных данных с помощью pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

парсинг неструктурированных данных с помощью pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы