Я создал фрейм данных Spark, присоединившись к UNIQUE_ID, созданному со следующим кодом:
ddf_A.join(ddf_B, ddf_A.UNIQUE_ID_A == ddf_B.UNIQUE_ID_B, how = 'inner').limit(5).toPandas()
UNIQUE_ID (dtype = 'int')
создается в начальном фрейме данных с использованием следующего кода:
row_number().over(Window.orderBy(lit(1))
И ddf_A, и ddf_B создаются как подмножества из исходного кадра данных с использованием внутренних объединений с двумя дополнительными таблицами.UNIQUE_ID был переименован в обоих фреймах данных с использованием псевдонима UNIQUE_ID_A и UNIQUE_ID_B соответственно.
Результат (5 строк) внутреннего соединения между ddf_A и ddf_B выглядит следующим образом:
|----|------------------|-------------------|
| | UNIQUE_ID_A | UNIQUE_ID_B |
|----|------------------|-------------------|
| 0 | 451123 | 451123 |
| 1 | 451149 | 451149 |
| 2 | 451159 | 451159 |
| 3 | 451345 | 451345 |
| 4 | 451487 | 451487 |
|----|------------------|-------------------|
Это выглядит приемлемо для меня с первого взгляда.Тем не менее, я не могу найти 451123 в ddf_A со следующим кодом:
ddf_A.filter(col('UNIQUE_ID_A') == 451123).show()
Вы знаете, что здесь не так?