Почему значение перекоса, вычисленное с помощью листа Excel, отличается от значения, рассчитанного с помощью pyspark / scipy - PullRequest
0 голосов
/ 30 мая 2020

Расчет перекоса с использованием scipy.stats

from scipy.stats import skew

val = [120.7, 120.5, 120.4, 120.2, 120.1]
skew(val)

0.13802317223314806

Расчет перекоса с использованием Excel, упорядочение значений в каждой строке в одном столбце и использование функции перекоса

=SKEW(A1:A5)

0.2057527971

Почему существует разница в перекосе? То же самое происходит с pandas и pyspark. При вычислении перекоса с помощью pyspark он дает тот же результат, что и scipy, а при вычислении с помощью pandas он дает тот же результат, что и excel

1 Ответ

2 голосов
/ 30 мая 2020

Вероятно, это разница между смещенным и несмещенным расчетом асимметрии. scipy реализация skew по умолчанию смещена. Если вы укажете дополнительное ключевое слово bias=False, вы получите объективный результат:

from scipy.stats import skew

val = [120.7, 120.5, 120.4, 120.2, 120.1]
skew(val, bias=False)
>>0.20575279705565366

Реализация Excel и реализация pandas по умолчанию объективны. Я не проверял версию pyspark, но предполагаю, что по умолчанию она смещена.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...