Question

Расчет перекоса с использованием scipy.stats

from scipy.stats import skew

val = [120.7, 120.5, 120.4, 120.2, 120.1]
skew(val)

0.13802317223314806

Расчет перекоса с использованием Excel, упорядочение значений в каждой строке в одном столбце и использование функции перекоса

=SKEW(A1:A5)

0.2057527971

Почему существует разница в перекосе? То же самое происходит с pandas и pyspark. При вычислении перекоса с помощью pyspark он дает тот же результат, что и scipy, а при вычислении с помощью pandas он дает тот же результат, что и excel

Wavy · Answer 1 · 30 мая 2020

Вероятно, это разница между смещенным и несмещенным расчетом асимметрии. scipy реализация skew по умолчанию смещена. Если вы укажете дополнительное ключевое слово bias=False, вы получите объективный результат:

from scipy.stats import skew

val = [120.7, 120.5, 120.4, 120.2, 120.1]
skew(val, bias=False)
>>0.20575279705565366

Реализация Excel и реализация pandas по умолчанию объективны. Я не проверял версию pyspark, но предполагаю, что по умолчанию она смещена.

Почему значение перекоса, вычисленное с помощью листа Excel, отличается от значения, рассчитанного с помощью pyspark / scipy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему значение перекоса, вычисленное с помощью листа Excel, отличается от значения, рассчитанного с помощью pyspark / scipy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов