Регистрация в PySpark дает неожиданные результаты - PullRequest
0 голосов
/ 16 мая 2018

Я создал фрейм данных Spark, присоединившись к UNIQUE_ID, созданному со следующим кодом:

ddf_A.join(ddf_B, ddf_A.UNIQUE_ID_A == ddf_B.UNIQUE_ID_B, how = 'inner').limit(5).toPandas()

UNIQUE_ID (dtype = 'int') создается в начальном фрейме данных с использованием следующего кода:

row_number().over(Window.orderBy(lit(1))

И ddf_A, и ddf_B создаются как подмножества из исходного кадра данных с использованием внутренних объединений с двумя дополнительными таблицами.UNIQUE_ID был переименован в обоих фреймах данных с использованием псевдонима UNIQUE_ID_A и UNIQUE_ID_B соответственно.

Результат (5 строк) внутреннего соединения между ddf_A и ddf_B выглядит следующим образом:

|----|------------------|-------------------|
|    |    UNIQUE_ID_A   |    UNIQUE_ID_B    |
|----|------------------|-------------------|
|  0 |         451123   |         451123    |
|  1 |         451149   |         451149    |
|  2 |         451159   |         451159    |
|  3 |         451345   |         451345    |
|  4 |         451487   |         451487    |
|----|------------------|-------------------|

Это выглядит приемлемо для меня с первого взгляда.Тем не менее, я не могу найти 451123 в ddf_A со следующим кодом:

ddf_A.filter(col('UNIQUE_ID_A') == 451123).show()

Вы знаете, что здесь не так?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...