Question

Вопрос очень тривиальный, но я совершенно новый в мире PySpark, и у меня много проблем, даже с простыми задачами.

Предположим, у нас есть фрейм данных df со столбцом A.

Я хочу создать еще один фрейм данных, содержащий только один столбец с последним значением A (под последним значением здесь я имею в виду действительно записьвнизу столбца A).

Я уже пробовал что-то вроде

df["A"][-1], но получаю ошибку.

Пожалуйста, я хотел бы иметь решение для кода Python в PySpark и Pyspark Sql, если это возможно.

pLOPeGG · Answer 1 · 21 июня 2019

Будьте осторожны с вашими заказами, потому что в pyspark DataFrame не упорядочены по умолчанию.Это означает, что df.take(1) не всегда может возвращать одно и то же значение.

Это сообщение очень ясно об этом.https://issues.apache.org/jira/browse/SPARK-16207

2 решения:

Выберите любое случайное значение из столбца -> take(1) в порядке
У вас есть какой-то порядок, а затем выможно использовать функцию sort и параметр asc для обратной сортировки.

Как получить последнее значение столбца в PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как получить последнее значение столбца в PySpark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы