Question

У меня есть фрейм данных pyspark с именем df. Я хочу знать, содержат ли его столбцы NA, Мне все равно, если это только одна строка или все из них. Проблема в том, что мой текущий способ узнать, есть ли NA, таков:

from pyspark.sql import functions as F

if (df.where(F.isnull('column_name')).count() >= 1):
    print("There are nulls")
else:
    print("Yey! No nulls")

Проблема, которую я вижу здесь, заключается в том, что мне нужно вычислить количество нулей в целом столбце , и это огромная трата времени, потому что я хочу, чтобы процесс останавливался, когда он находит первый ноль.

Я думал об этом решении, но я не уверен, что оно работает (потому что я работаю в кластере с большим количеством других людей, поэтому время выполнения зависит от множества заданий, выполняемых другими людьми в кластере, поэтому я не могу сравнить два подхода в четных условиях):

(df.where(F.isnull('column_name')).limit(1).count() == 1)

Помогает ли добавление лимита? Есть ли более эффективные способы достижения этого?

Jesse Amano · Answer 1 · 01 апреля 2019

Не существует неисчерпывающего поиска чего-то, чего там нет.

Вероятно, мы сможем значительно повысить производительность вашего запроса для случая, когда существует запись со значением null (см. ниже), но как насчет того, когда это не так?Если вы планируете запускать этот запрос несколько раз, а ответ меняется каждый раз, вы должны знать (я не имею в виду, что это не так), что если ответ «нет», значений null нетво всем фрейме данных ", тогда вам придется сканировать весь фрейм данных, чтобы узнать это, и быстрого способа сделать это не существует.Если вам часто нужна такая информация, а ответ может быть «нет», вам почти наверняка захочется сохранить эту информацию где-нибудь и обновлять ее всякий раз, когда вы вставляете запись, которая может иметь значения null, проверяя толькоэта запись.

Не используйте count ().

count() , вероятно, ухудшает ситуацию.

В случае подсчета Spark использовал широкое преобразование и фактически применяет LocalLimit для каждого раздела и перетасовывает частичные результаты для выполнения GlobalLimit.

В случае взятия Spark использовал узкое преобразование и оценивал LocalLimit только в первом разделе.

Другими словами, .limit(1).count() означает вероятность для выбора одного примера из каждого раздела вашего набора данных, прежде чем выбрать один пример из этого списка примеров.Ваше намерение состоит в том, чтобы прервать работу, как только будет найден один пример, но, к сожалению, count() не кажется достаточно умным, чтобы достичь этого самостоятельно.

Как и в этом же примере, выможно использовать take(), first() или head() для достижения желаемого варианта использования. Это будет более эффективно ограничивать количество проверяемых разделов:

Если не требуется перемешивание (никаких объединений, объединений или сортировок), эти операции будут оптимизированы для проверкидостаточно разделов для выполнения операции - вероятно, гораздо меньшее подмножество общих разделов набора данных.

Обратите внимание, что count() может быть более производительным в других случаях.Как справедливо указал другой вопрос SO ,

ни один не гарантирует лучшую производительность в целом.

Может быть большевы можете сделать.

В зависимости от вашего метода хранения и схемы, вы можете увеличить производительность вашего запроса.

Поскольку вас даже не интересует значениеиз строки, выбранной в этом случае, вы можете бросить select(F.lit(True)) между вашим isnull и вашим take.Это должно в теории уменьшить количество информации, которую должны передавать работники кластера.Это вряд ли имеет значение, если у вас есть только несколько столбцов простых типов, но если у вас сложные структуры данных, это может помочь и вряд ли повредит.
Если вы знаете, как ваши данные разбиты на разделы и вы знаете, какой раздел (ы) вас интересует или у вас есть очень хорошее предположение о том, какие разделы (если есть) могут содержать значения null, вам следует определенно фильтруйте ваш фрейм данных по этому разделу, чтобы ускорить ваш запрос.

Эффективный способ проверить, есть ли NA в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Не существует неисчерпывающего поиска чего-то, чего там нет.

Не используйте count ().

Может быть большевы можете сделать.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Эффективный способ проверить, есть ли NA в pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Не существует неисчерпывающего поиска чего-то, чего там нет.

Не используйте count ().

Может быть большевы можете сделать.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов