본문 바로가기
통계학

정규분포(Normal distribution)와 표준정규분포표

by 이징이 2024. 9. 19.

정규분포는 통계학에서 가장 널리 사용되는 확률분포 중 하나로, 데이터가 평균을 중심으로 좌우 대칭을 이루는 종 모양의 분포를 가진다. 많은 자연현상이나 사회 현상에서 측정된 데이터가 정규분포를 따르는 경우가 많기 때문에, 이 분포는 데이터 분석과 통계학에서 매우 중요하다. 정규분포를 이해하기 위해서 먼저, 정규분포의 특수한 케이스인 표준정규분포를 이해하고 넘어가는 것이 좋다.

 

1. 표준정규분포(Standard normal distribution)

 

연속확률변수 Z의 확률밀도함수 PDF가 아래와 같은 형태일 때 Z는 표준정규분포를 따른다고 정의한다. 표준정규분포는 평균이 0이고 분산이 1이며 Z~N(0,1)로 표기한다. ϕ(z)는 표준정규분포의 확률밀도함수, Φ(z)는 표준정규분포의 누적분포함수를 말한다.

  • 표준정규분포의 평균 E(Z)=0
  • 표준정규분포의 분산 Var(Z)=1
  • 확률밀도함수 대칭성 : ϕ(z) = ϕ(-z)
  • 누적분포함수의 대칭성: Φ(z) = 1 - Φ(-z)
  • Z~N(0,1)라면, -Z~N(0,1)

표준정규분포가 중요한 이유는 이를 적분하여 누적분포함수를 구하기가 계산으로는 불가능하므로 표준정규분포의 누적분포함숫값을 모두 구하여 표로 정리해 두었기 때문에 우리는 표준정규분포포의 누적분포함숫값을 표를 이용해 쉽게 계산할 수 있다.

  • 위의 표는 표준정규확률분포표로 각 칸의 값은 지정된 z값까지의 표준정규곡선 아래의 정적분값, 즉 P(Z≤z) 값을 나타낸다.
  • P(Z≤0)=0.5
  • ex) Z가 1.21보다 작을 확률을 구한다 하면, 맨 왼쪽 열에서 1.2를 찾고 맨 위쪽 행에서 0.01을 찾아 교차하는 곳의 값을 나타내면 된다. 따라서 Z가 1.21보다 작을 확률은 0.8869이다.
  • ex) Z가 0과 1.21 사이에 포함될 확률을 구한다면 P(Z≤0)=0.5를 0.8869에서 빼주면 되므로, 0.3869이다.

 

표준정규분포표.pdf
0.01MB

 

 

 

2. 정규분포(Normal distribution)

이제 표준정규분포에서 정규분포를 정의해 보도록 하자. 표준정규분포를 따르는 확률변수 Z가 있을 때, 확률변수 X를 다음과 같이 정의하자.

확률 변수 X는 평균이 μ이고 분산이 σ^2인 정규 분포를 따르며 X~N(μ,σ^2)으로 표기한다.

  • E(X) = E(μ+σZ) = μ+σE(Z) = μ+ σx0 = μ
  • Var(X) = Var(μ+σZ) = σ^2Var(Z) = σ^2 x 1 = σ^2

이때 정규 분포 X∼N(μ,σ^2)의 확률 밀도 함수는 다음과 같다.

확률 변수 X가 평균 μ와 분산 σ2인 정규 분포를 따를 때, 즉 라고 할 때, 선형 변환을 통해 새로운 확률 변수를 정의할 수 있다. 선형 변환이란, Y=aX+b의 형태를 말하는 것으로 Y도 정규분포를 따르며 평균은 aμ+b, 분산은 a^2σ^2이다.

확률변수가 X∼N(μ,σ^2)라 할 때, 표준정규분포 Z는 아래 식을 통해 선형 변환한 μ=0, σ=1인 특수케이스로 볼 수 있다.

따라서, 확률 변수 가 정규 분포를 따를 때, 표준정규분포 로의 선형 변환을 통해 문제를 표준화하고 확률 값을 쉽게 계산할 수 있다. 정규분포와 관련된 몇가지 성질을 더 알아보도록 하자.

 

2.1 정규분포의 가법성(Additivity)

정규 분포의 가법성(Additivity)은 여러 개의 독립적인 정규 분포 확률 변수들의 합도 정규 분포를 따른다는 중요한 성질을 의미한다. 이 성질은 정규 분포의 유용성과 적용 범위를 확장하는 데 매우 중요한 역할을 한다.

 

독립적인 두 정규 확률 변수 과 X2가 각각 평균 μ1, 표준편차σ1와 평균 μ2, 표준편차 σ2를 가진 정규 분포를 따를 때, 이들 변수의 합 S=X1+X2 도 정규 분포를 따른다.

가법성의 이론은 두 개 이상의 독립적인 정규 분포 확률 변수들에 대해서도 성립한다. 즉, 독립적인 개의 정규 분포 확률 변수 X1, X2,…, Xn가 각각 평균 μi와 표준편차σi을 가질 때, 이들의 합: S=X1+X2+⋯+Xn도 정규 분포를 따르며, 평균과 분산은 다음과 같이 계산된다.

 

2.2 이항분포의 정규근사

확률변수 X가 모수가 n, p인 이항분포 B(n, p)를 따른다고 할 때, n이 충분히 크고 p가 0과 1에 충분히 가깝지 않으면 X는 N(np, np(1-p)에 근사한다.

최소 np > 5와 n(1-p) > 5를 동시에 만족할 때 무난하게 정규분포에 근사한다고 말할 수 있다.

p가 0에 가깝다면 이는 정규분포보다는 포아송분포에 근사한다고 본다.

- 연속성 보정

이항 분포는 이산 분포이기 때문에, 정규 분포로 근사할 때 연속성 보정을 추가하는 것이 좋다. 연속성 보정은 이산 확률 변수의 근사를 더 정확하게 하기 위해 다음과 같은 방법으로 적용한다.

  • P(X=k)를 P(k−0.5<X<k+0.5)로 근사

이 방법을 통해, 특정 구간의 확률을 정규 분포로 근사할 때 좀 더 정확한 값을 얻을 수 있다.