Предположим, что у нас есть фрейм данных PySpark с двумя столбцами, ID (он уникален) и VALUE.
Мне нужно добавить третий столбец, который всегда содержит одно и то же значение, то есть максимальное значение столбца VALUE. Я заметил, что в этом случае не имеет никакого смысла группировать по идентификатору, потому что мне нужен глобальный максимум.
Это звучит очень просто и, вероятно, так и есть, но я видел только решения, включающие группировку, которые делаютне подходит для моего случая. Я много чего перепробовал, но ничего не получалось.
Мне нужно решение только в PySpark / Python Code. Большое спасибо!