Сопоставьте текстовый файл с парой ключ / значение, чтобы сгруппировать их в pyspark - PullRequest
0 голосов
/ 29 октября 2018

Я хотел бы создать фрейм данных spark в pyspark из текстового файла с разным количеством строк и столбцов и сопоставить его с парой ключ / значение, ключ - это первые 4 символа из первого столбца текстового файла. , Я хочу сделать это для того, чтобы удалить лишние строки и иметь возможность сгруппировать их позже по значению ключа. Я знаю, как это сделать на пандах, но все еще не понял, с чего начать в pyspark.

Мой ввод - это текстовый файл, который имеет следующее:

  1234567,micheal,male,usa
  891011,sara,femal,germany

Я хочу иметь возможность группировать каждую строку по первым шести символам в первом столбце

1 Ответ

0 голосов
/ 29 октября 2018

Создайте новый столбец, который содержит только первые шесть символов первого столбца, а затем сгруппируйте по этому:

from pyspark.sql.functions import col
df2 = df.withColumn("key", col("first_col")[:6])
df2.groupBy("key").agg(...)
...