<첨도(kurtosis)>
첨도(kurtosis)란 확률 분포의 뾰족한 정도를 나타내는 척도로, 관측치들이 얼마만큼 평균에 몰려 있는가를 측정할 때 사용됩니다. 첨도값(κ, kappa)이 3에 가까우면 산포도가 정규분포에 가깝다고 할 수 있으며, 3보다 작을 경우 정규분포보다 더 완만한, 납작한 분포로 판단할 수 있으며, 첨도값이 3보다 큰 경우에는 정규분포보다 더 뾰족한 분포로 생각할 수 있습니다.
(* κ=3일때 정규분포를 가지는 것을 Pearson's definition에 따름)
- 수식으로는 아래와 같이 z-score의 4승의 평균값으로 구할 수 있습니다.
<Excess kurtosis>
kurtosis에서 3을 뺀 값으로, 값이 0일 때 경우 정규분포를 가지도록 하기 위해 고안됨. 본문에서는 γ2(gamma)로 표현하겠습니다.
(* Fisher's definition이라고도 불림)
○ Mesokurtic
: γ2 = 0일 경우, 정규분포
○ Leptokurtic
: γ2 > 0일 경우, 'Lepto'는 라틴어로 '얇다'는 뜻으로 분포의 형태가 평균을 중심으로 더 뾰족하게 모인 형태를 보입니다. 정규분포에 비해 양쪽 꼬리 부분이 더 두껍다(fat-tailed, heavy-tailed). 이러한 분포를 super-Gaussian 분포라고 부르기도 합니다.
○ Platykurtic
: γ2 > 0일 경우, 'Platy'는 라틴어로 '넓다'라는 뜻으로 분포의 형태가 평균을 중심으로 더 넓게 펼쳐진 형태를 보입니다. 정규분포에 비해 양쪽 꼬리 부분이 더 얇다(thin-tailed). 이러한 분포를 sub-Gaussian 분포라고 부르기도 합니다.
♣ 실습 ♣
파이썬 패키지인 SciPy의 stats모듈의 kurtosis 함수를 이용하여 구하거나, 직접 함수를 만들어 구할 수 있습니다.
1) 임의 데이터 생성
2) Excess kurtosis 함수 정의
3) 정의된 excess kurtosis 함수로 연산
4) SciPy의 kurtosis 함수로 excess kurtosis 값 연산
4-1) SciPy의 kurtosis 함수에서 'fisher' 파라미터를 'False'로 설정하면 Pearson's 정의에 의한 kurtosis 값을 구할 수 있습니다.
- Excess kurtosis에 대해 자세히 설명된 아래 사이트를 추천합니다.
: https://climatebysurly.com/2017/10/12/kurtosis-fat-tails-and-extremes/
<Reference>
- https://en.wikipedia.org/wiki/Kurtosis
- https://ko.wikipedia.org/wiki/%EC%B2%A8%EB%8F%84
- https://doi.org/10.1093%2Fbiomet%2F4.1-2.169
- https://doi.org/10.1098%2Frspa.1930.0185
- https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kurtosis.html
'통계, 신호처리, 알고리즘 > 통계 기초' 카테고리의 다른 글
왜도(skewness) (0) | 2020.05.18 |
---|---|
표준화(standardization) vs 정규화(normalization) (0) | 2020.04.22 |