Как получить последнее значение столбца в PySpark - PullRequest
0 голосов
/ 21 июня 2019

Вопрос очень тривиальный, но я совершенно новый в мире PySpark, и у меня много проблем, даже с простыми задачами.

Предположим, у нас есть фрейм данных df со столбцом A.

Я хочу создать еще один фрейм данных, содержащий только один столбец с последним значением A (под последним значением здесь я имею в виду действительно записьвнизу столбца A).

Я уже пробовал что-то вроде

df["A"][-1], но получаю ошибку.

Пожалуйста, я хотел бы иметь решение для кода Python в PySpark и Pyspark Sql, если это возможно.

1 Ответ

1 голос
/ 21 июня 2019

Будьте осторожны с вашими заказами, потому что в pyspark DataFrame не упорядочены по умолчанию.Это означает, что df.take(1) не всегда может возвращать одно и то же значение.

Это сообщение очень ясно об этом.https://issues.apache.org/jira/browse/SPARK-16207

2 решения:

  1. Выберите любое случайное значение из столбца -> take(1) в порядке
  2. У вас есть какой-то порядок, а затем выможно использовать функцию sort и параметр asc для обратной сортировки.
...