Question

Я хотел бы создать фрейм данных spark в pyspark из текстового файла с разным количеством строк и столбцов и сопоставить его с парой ключ / значение, ключ - это первые 4 символа из первого столбца текстового файла. , Я хочу сделать это для того, чтобы удалить лишние строки и иметь возможность сгруппировать их позже по значению ключа. Я знаю, как это сделать на пандах, но все еще не понял, с чего начать в pyspark.

Мой ввод - это текстовый файл, который имеет следующее:

  1234567,micheal,male,usa
  891011,sara,femal,germany

Я хочу иметь возможность группировать каждую строку по первым шести символам в первом столбце

Tim · Answer 1 · 29 октября 2018

Создайте новый столбец, который содержит только первые шесть символов первого столбца, а затем сгруппируйте по этому:

from pyspark.sql.functions import col
df2 = df.withColumn("key", col("first_col")[:6])
df2.groupBy("key").agg(...)

Сопоставьте текстовый файл с парой ключ / значение, чтобы сгруппировать их в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Сопоставьте текстовый файл с парой ключ / значение, чтобы сгруппировать их в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы