Я хотел бы сравнить два кадра данных df1 df2 в столбце list_id:
df1 =
+---------+
| list_id|
+---------+
|[1, 2, 3]|
|[4, 5, 6]|
|[7, 8, 9]|
+---------+
df2 =
+------------+
| list_id|
+------------+
| [10, 3, 11]|
|[12, 13, 14]|
| [15, 6, 16]|
+------------+
Желаемый результат:
df2 =
+-------------------+
| list_id|
+-------------------+
| [1, 2, 3, 10, 11] |
| [4, 5, 6, 15, 16] |
| [7, 8, 9] |
| [12, 13, 14] |
+-------------------+
Моя цель - объединить списки, в которыхих пересечение не пустое, и остальные остаются такими же, как с pyspark.
Примечание: мои кадры данных очень велики, использование объединения с Spark Sql невозможно.