Pyspark: добавить столбец со значениями из других строк на основе текущего в качестве ключа для доступа к этим строкам - PullRequest
0 голосов
/ 12 июня 2019

У меня есть фрейм данных со следующими столбцами:

DataFrame[timestamp: string, city_id: string, item_id: string, target_value: double, date: date, datestr: string, city_id: string, holiday_name: string, holiday_date: date, reference_date_id: date, hour_of_day: int]

Я хочу создать новый столбец с именем ref_val, который имеет значение из другой строки с тем же city_id, hexcluster_id, но комбинацией даты и часа из текущей строки. Этот ref val должен иметь то же значение, что и целевое значение для того же city_id, hexcluster_id, но и даты, что и комбинация ref_date

Например:

+-------------------+-------+--------------------+------------+----------+----------+-------+--------------------+------------+-----------------+-----------+-----------+
|          timestamp|city_id|             item_id|target_value|      date|   datestr|city_id|        holiday_name|holiday_date|reference_date_id|hour_of_day|day_of_week|ref_val|
+-------------------+-------+--------------------+------------+----------+----------+-------+--------------------+------------+-----------------+-----------+-----------+
|2018-10-07 11:00:00|     10|0df9c29d-8776-436...|        92.0|2018-10-07|2018-10-07|     10|Columbus Day(shou...|  2018-10-07|       2017-10-08|         11|        Sun| 2
|2018-10-07 11:00:00|     10|0df9c29d-8776-436...|        92.0|2018-10-07|2018-10-07|     10|Columbus Day(shou...|  2018-10-07|       2017-10-08|         11|        Sun| 92
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...