Разница между описанием () и резюме () в Apache Spark - PullRequest
0 голосов
/ 03 июня 2019

В чем разница между summary() и describe()?Кажется, что они оба служат одной и той же цели, но не смогли найти никаких отличий (если они есть).

Ответы [ 3 ]

2 голосов
/ 03 июня 2019

Если мы передаем какие-либо аргументы, то эти функции работают для разных целей:

.describe() функция принимает cols:String* (столбцы в df) в качестве необязательных аргументов.

.summary() функция принимает statistics:String* (count, mean, stddev..etc) в качестве необязательных аргументов.

Пример:

scala> val df_des=Seq((1,"a"),(2,"b"),(3,"c")).toDF("id","name")
scala> df_des.describe().show(false) //without args
//Result:
//+-------+---+----+
//|summary|id |name|
//+-------+---+----+
//|count  |3  |3   |
//|mean   |2.0|null|
//|stddev |1.0|null|
//|min    |1  |a   |
//|max    |3  |c   |
//+-------+---+----+
scala> df_des.summary().show(false) //without args
//+-------+---+----+
//|summary|id |name|
//+-------+---+----+
//|count  |3  |3   |
//|mean   |2.0|null|
//|stddev |1.0|null|
//|min    |1  |a   |
//|25%    |1  |null|
//|50%    |2  |null|
//|75%    |3  |null|
//|max    |3  |c   |
//+-------+---+----+
scala> df_des.describe("id").show(false) //descibe on id column only
//+-------+---+
//|summary|id |
//+-------+---+
//|count  |3  |
//|mean   |2.0|
//|stddev |1.0|
//|min    |1  |
//|max    |3  |
//+-------+---+
scala> df_des.summary("count").show(false) //get count summary only
//+-------+---+----+
//|summary|id |name|
//+-------+---+----+
//|count  |3  |3   |
//+-------+---+----+
0 голосов
/ 03 июня 2019

Оба имеют одинаковую функциональность, но синтаксис API просто отличается. Надеюсь, это поможет

0 голосов
/ 03 июня 2019

Первая операция, которую нужно выполнить после импорта данных, - получить представление о том, как они выглядят.Для числовых столбцов знание описательной сводной статистики может очень помочь в понимании распределения ваших данных.Функция description возвращает DataFrame, содержащий такую ​​информацию, как количество ненулевых записей (количество), среднее значение, стандартное отклонение, а также минимальное и максимальное значение для каждого числового столбца.https://databricks.com/blog/2015/06/02/statistical-and-mathematical-functions-with-dataframes-in-spark.html Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...