정규분포는 통계학에서 가장 널리 사용되는 확률분포 중 하나로, 데이터가 평균을 중심으로 좌우 대칭을 이루는 종 모양의 분포를 가진다. 많은 자연현상이나 사회 현상에서 측정된 데이터가 정규분포를 따르는 경우가 많기 때문에, 이 분포는 데이터 분석과 통계학에서 매우 중요하다. 정규분포를 이해하기 위해서 먼저, 정규분포의 특수한 케이스인 표준정규분포를 이해하고 넘어가는 것이 좋다.
1. 표준정규분포(Standard normal distribution)
연속확률변수 Z의 확률밀도함수 PDF가 아래와 같은 형태일 때 Z는 표준정규분포를 따른다고 정의한다. 표준정규분포는 평균이 0이고 분산이 1이며 Z~N(0,1)로 표기한다. ϕ(z)는 표준정규분포의 확률밀도함수, Φ(z)는 표준정규분포의 누적분포함수를 말한다.
- 표준정규분포의 평균 E(Z)=0
- 표준정규분포의 분산 Var(Z)=1
- 확률밀도함수 대칭성 : ϕ(z) = ϕ(-z)
- 누적분포함수의 대칭성: Φ(z) = 1 - Φ(-z)
- Z~N(0,1)라면, -Z~N(0,1)
표준정규분포가 중요한 이유는 이를 적분하여 누적분포함수를 구하기가 계산으로는 불가능하므로 표준정규분포의 누적분포함숫값을 모두 구하여 표로 정리해 두었기 때문에 우리는 표준정규분포포의 누적분포함숫값을 표를 이용해 쉽게 계산할 수 있다.
표준정규분포표를 보는 방법은 다음과 같다.
- 위의 표는 표준정규확률분포표로 각 칸의 값은 지정된 z값까지의 표준정규곡선 아래의 정적분값, 즉 P(Z≤z) 값을 나타낸다.
- P(Z≤0)=0.5
- ex) Z가 1.21보다 작을 확률을 구한다 하면, 맨 왼쪽 열에서 1.2를 찾고 맨 위쪽 행에서 0.01을 찾아 교차하는 곳의 값을 나타내면 된다. 따라서 Z가 1.21보다 작을 확률은 0.8869이다.
- ex) Z가 0과 1.21 사이에 포함될 확률을 구한다면 P(Z≤0)=0.5를 0.8869에서 빼주면 되므로, 0.3869이다.
2. 정규분포(Normal distribution)
이제 표준정규분포에서 정규분포를 정의해 보도록 하자. 표준정규분포를 따르는 확률변수 Z가 있을 때, 확률변수 X를 다음과 같이 정의하자.
확률 변수 X는 평균이 μ이고 분산이 σ^2인 정규 분포를 따르며 X~N(μ,σ^2)으로 표기한다.
- E(X) = E(μ+σZ) = μ+σE(Z) = μ+ σx0 = μ
- Var(X) = Var(μ+σZ) = σ^2Var(Z) = σ^2 x 1 = σ^2
이때 정규 분포 X∼N(μ,σ^2)의 확률 밀도 함수는 다음과 같다.
확률 변수 X가 평균 μ와 분산 σ2인 정규 분포를 따를 때, 즉 라고 할 때, 선형 변환을 통해 새로운 확률 변수를 정의할 수 있다. 선형 변환이란, Y=aX+b의 형태를 말하는 것으로 Y도 정규분포를 따르며 평균은 aμ+b, 분산은 a^2σ^2이다.
확률변수가 X∼N(μ,σ^2)라 할 때, 표준정규분포 Z는 아래 식을 통해 선형 변환한 μ=0, σ=1인 특수케이스로 볼 수 있다.
따라서, 확률 변수 가 정규 분포를 따를 때, 표준정규분포 로의 선형 변환을 통해 문제를 표준화하고 확률 값을 쉽게 계산할 수 있다. 정규분포와 관련된 몇가지 성질을 더 알아보도록 하자.
2.1 정규분포의 가법성(Additivity)
정규 분포의 가법성(Additivity)은 여러 개의 독립적인 정규 분포 확률 변수들의 합도 정규 분포를 따른다는 중요한 성질을 의미한다. 이 성질은 정규 분포의 유용성과 적용 범위를 확장하는 데 매우 중요한 역할을 한다.
독립적인 두 정규 확률 변수 과 X2가 각각 평균 μ1 , 표준편차σ1와 평균 μ2 , 표준편차 σ2를 가진 정규 분포를 따를 때, 이들 변수의 합 S=X1+X2 도 정규 분포를 따른다.
가법성의 이론은 두 개 이상의 독립적인 정규 분포 확률 변수들에 대해서도 성립한다. 즉, 독립적인 개의 정규 분포 확률 변수 X1, X2,…, Xn가 각각 평균 μi와 표준편차σi 을 가질 때, 이들의 합: S=X1+X2+⋯+Xn도 정규 분포를 따르며, 평균과 분산은 다음과 같이 계산된다.
2.2 이항분포의 정규근사
확률변수 X가 모수가 n, p인 이항분포 B(n, p)를 따른다고 할 때, n이 충분히 크고 p가 0과 1에 충분히 가깝지 않으면 X는 N(np, np(1-p)에 근사한다.
최소 np > 5와 n(1-p) > 5를 동시에 만족할 때 무난하게 정규분포에 근사한다고 말할 수 있다.
p가 0에 가깝다면 이는 정규분포보다는 포아송분포에 근사한다고 본다.
- 연속성 보정
이항 분포는 이산 분포이기 때문에, 정규 분포로 근사할 때 연속성 보정을 추가하는 것이 좋다. 연속성 보정은 이산 확률 변수의 근사를 더 정확하게 하기 위해 다음과 같은 방법으로 적용한다.
- P(X=k)를 P(k−0.5<X<k+0.5)로 근사
이 방법을 통해, 특정 구간의 확률을 정규 분포로 근사할 때 좀 더 정확한 값을 얻을 수 있다.
'통계학' 카테고리의 다른 글
상관계수의 정의와 역할, 피어슨 상관계수(Pearson Correlation Coefficient)와 스피어만 순위 상관계수(Spearman's Rank Correlation Coefficient)의 계산 방법 (0) | 2024.11.15 |
---|---|
포아송분포(Poisson distribution)와 지수분포(Exponential distribution) (1) | 2024.09.19 |
연속확률변수와 확률밀도함수 (0) | 2024.09.15 |
통계학과란? 통계학과 진학 방법 (1) | 2023.11.23 |
시계열 데이터(Longitudinal Data) (3) | 2023.11.21 |