У меня проблемы с отбрасыванием дублирующихся строк в наборе кортежей данных Dataset[(LeftDs, RightDs)]
Попытка объединить два набора данных, как это:
val comparableDs = leftDs.joinWith(
rightDs,
fuzzyMatch(leftDs.col("name"), rightDs.col("officialName"))
)
Я хочу удалить дубликаты для двух полей:
val resultDs = comparableDs.dropDuplicates("_1.name", "_2.officialName")
Но получаю эту ошибку:
Cannot resolve column name "_1.name" among (_1, _2);
Это схема comparableDs
:
root
|-- _1: struct (nullable = false)
| |-- id: string (nullable = true)
| |-- name: string (nullable = true)
|-- _2: struct (nullable = false)
| |-- id: string (nullable = true)
| |-- category: string (nullable = true)
| |-- officialName: string (nullable = true)
Как записать параметры столбца в метод dropDuplicates
для этой схемы?