Julia - функция description () отображает неполную сводную статистику - PullRequest
0 голосов
/ 05 января 2019

Я пытаюсь провести базовый анализ данных с Юлией

Я следую этому учебнику с наборами данных поезда, которые можно найти здесь (с именем train_u6lujuX_CVtuZ9i.csv) со следующим кодом:

using DataFrames, RDatasets, CSV, StatsBase
train = CSV.read("/Path/to/train_u6lujuX_CVtuZ9i.csv");
describe(train[:LoanAmount])

и получите этот вывод:

Summary Stats:
Length:         614
Type:           Union{Missing, Int64}
Number Unique:  204

вместо вывода учебника:

Summary Stats:
Mean:           146.412162
Minimum:        9.000000
1st Quartile:   100.000000
Median:         128.000000
3rd Quartile:   168.000000
Maximum:        700.000000
Length:         592
Type:           Int64
% Missing:      3.583062

Что также соответствует выводу StatsBase.jl , который функция describe() должна дать

1 Ответ

0 голосов
/ 05 января 2019

Так в настоящее время (в текущем выпуске) реализовано в StatsBase.jl. Короче говоря, train[:LoanAmount] не имеет eltype, который является подтипом Real, а затем StatsBase.jl использует резервный метод, который печатает только длину, тип и количество уникальных значений. Вы можете написать describe(collect(skipmissing(train[:LoanAmount]))), чтобы получить сводную статистику (кроме количества пропущенных конечно).

На самом деле, однако, я бы порекомендовал вам использовать другой подход. Если вы хотите получить более подробный вывод для одного столбца, используйте:

describe(train[[:LoanAmount]], stats=:all)

вы получите вывод, который дополнительно возвращается как DataFrame, чтобы вы могли не только видеть статистику, но и получать к ней доступ.

Опция stats=:all напечатает всю статистику. Пожалуйста, обратитесь к describe docstring в DataFrames.jl, чтобы увидеть доступные опции.

Некоторые примеры использования этой функции можно найти в текущей версии DataFrames.jl здесь .

...