Получить отдельные строки из RDD [type] в Scala Spark - PullRequest
0 голосов
/ 28 марта 2019

Допустим, у меня есть СДР в формате, подобном этому СДР [сотрудник], и примеры данных следующие: -

FName,LName,Department,Salary
dubert,tomasz ,paramedic i/c,91080.00,
edwards,tim p,lieutenant,114846.00,
edwards,tim p,lieutenant,234846.00,
edwards,tim p,lieutenant,354846.00,
elkins,eric j,police,104628.00,
estrada,luis f,police officer,96060.00,
ewing,marie a,clerk,53076.00,
ewing,marie a,clerk,13076.00,
ewing,marie a,clerk,63076.00,
finn,sean p,firefighter,87006.00,
fitch,jordan m,law clerk,14.51
fitch,jordan m,law clerk,14.51

Ожидаемый результат: -

dubert,tomasz ,paramedic i/c,91080.00,
edwards,tim p,lieutenant,354846.00,
elkins,eric j,police,104628.00,
estrada,luis f,police officer,96060.00,
ewing,marie a,clerk,63076.00,
finn,sean p,firefighter,87006.00,
fitch,jordan m,law clerk,14.51

Я хочу однуСтрока каждого на основе отдельного Fname

1 Ответ

1 голос
/ 28 марта 2019

Я думаю, вы хотите сделать что-то подобное:

df
.groupBy('Fname)
.agg(
  first('LName),
  first('Department),
  first('Salary)
)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...