Я хотел бы создать фрейм данных spark в pyspark из текстового файла с разным количеством строк и столбцов и сопоставить его с парой ключ / значение, ключ - это первые 4 символа из первого столбца текстового файла. , Я хочу сделать это для того, чтобы удалить лишние строки и иметь возможность сгруппировать их позже по значению ключа. Я знаю, как это сделать на пандах, но все еще не понял, с чего начать в pyspark.
Мой ввод - это текстовый файл, который имеет следующее:
1234567,micheal,male,usa
891011,sara,femal,germany
Я хочу иметь возможность группировать каждую строку по первым шести символам в первом столбце