У меня есть два набора данных как
DATASET1
+-------+--------------------+
| id| name|
+-------+--------------------+
|S703401| Ryan P Cassidy|
|S703401|Christopher J Mat...|
|S703401| Frank E LaSota|
|S703401| Ryan P Cassidy|
|S703401|Anthony L Locricchio|
|S703401| Jason Monte|
+-------+--------------------+
DATASET2
+-------+------+
| id| nic|
+-------+------+
|S703401| RC82|
|S703401| NA|
|S703401| FL3|
|S703401| RC82|
|S703401| NA|
|S703401|JM2080|
+-------+------+
, и я хочу присоединить их к идентификатору, чтобы можно было выводить как
+-------+--------------------+-----------+
| id| name| nic |
+-------+--------------------+-----------+
|S703401| Ryan P Cassidy| RC82|
|S703401|Christopher J Mat...| NA|
|S703401| Frank E LaSota| FL3|
|S703401| Ryan P Cassidy| RC82|
|S703401|Anthony L Locricchio| NA|
|S703401| Jason Monte| JM2080|
+-------+--------------------+-----------+
Я использую java spark Набор данных join = dataset1.join (dataset2, "id"); но из них я получаю декартово произведение для всех строк, например
+-------+--------------------+------+
| id | name| nic|
+-------+--------------------+------+
|S703401| Ryan P Cassidy|JM2080|
|S703401| Ryan P Cassidy| NA|
|S703401| Ryan P Cassidy| RC82|
|S703401| Ryan P Cassidy| FL3|
|S703401| Ryan P Cassidy| NA|
|S703401| Ryan P Cassidy| RC82|
|S703401|Christopher J Mat...|JM2080|
|S703401|Christopher J Mat...| NA|
|S703401|Christopher J Mat...| RC82|
|S703401|Christopher J Mat...| FL3|
|S703401|Christopher J Mat...| NA|
|S703401|Christopher J Mat...| RC82|
|S703401| Frank E LaSota|JM2080|
|S703401| Frank E LaSota| NA|
|S703401| Frank E LaSota| RC82|
|S703401| Frank E LaSota| FL3|
|S703401| Frank E LaSota| NA|
|S703401| Frank E LaSota| RC82|
|S703401| Ryan P Cassidy|JM2080|
|S703401| Ryan P Cassidy| NA|
+-------+--------------------+------+
Так чего мне здесь не хватает?