포아송분포와 지수분포를 각각 알아보고, 포아송분포와 지수분포의 관계에 대해서 알아보도록 하자.
1. 포아송분포(Poisson distribution)
포아송 분포(Poisson distribution)는 주어진 시간이나 공간 내에서 어떤 사건이 발생하는 횟수를 모델링하는 확률 분포이다. 특히, 사건이 발생하는 평균 횟수가 알려져 있을 때 유용하게 사용된다.
포아송 분포는 사건이 독립적이고, 평균 발생률이 일정한 상황에서 적합하다.
ex) 주어진 시간 동안 콜센터로 들어오는 전화의 수, 특정 지역에서 발생하는 교통사고의 수 등이 포아송 분포로 모델링 될 수 있다.
양의 실수 λ에 대해 확률변수 X가 다음과 같은 확률질량함수를 가질 때, X는 모수가 λ인 포아송분포를 따른다고 정의하고 X ~ poi(λ)로 표기한다.
- E(X)=λ
- Var(X)=λ
- λ는 포아송분포의 발생률이라고 부른다.
1.1 이항분포의 포아송근사
n이 매우 크고 p가 매우 작을 때, 이항 분포는 포아송 분포로 근사할 수 있다. n -> ∞, p -> 0, np -> λ가 성립하면 B(n, p)는 poi(λ)에 수렴한다.
문제: 공장에서 제품을 검사할 때, 결함이 있는 제품이 전체 제품 중 극히 적은 확률로 발생한다고 가정해 보자. 이 경우, 전체 제품 수가 매우 크고 결함이 발생할 확률이 작다면, 결함이 있는 제품의 수를 포아송 분포로 근사할 수 있다.
근사의 이유: 포아송 분포는 계산이 간단하므로, 큰
이항 분포의 포아송 근사는 대량의 시행이 있는 상황에서 개별 사건의 확률이 낮을 때, 이항 분포를 간단히 포아송 분포로 근사하여 계산의 복잡성을 줄이는 데 유용하다.
1.2 포아송분포의 가법성
포아송 분포의 가법성(Additivity) 속성은 포아송 분포가 독립적인 사건의 발생 횟수를 모델링하는 데 유용하다는 것을 보여주는 중요한 특징이다. 이 속성에 따르면, 두 개 이상의 독립적인 포아송 분포를 가지는 사건들의 총합도 포아송 분포를 따른다.
한 지역에서 발생하는 두 종류의 사건이 서로 독립적일 때, 각 사건의 발생 횟수는 포아송 분포로 모델링될 수 있다. 이 두 사건의 총 발생 횟수도 포아송 분포로 근사할 수 있다.
ex) 공장에서의 두 가지 결함의 발생 횟수, 전화 통화의 두 가지 종류의 수신 횟수 등이 이에 해당된다.
2. 지수분포(Exponential distribution)
지수 분포(Exponential distribution)는 사건이 발생하는 시간 간격을 모델링하는 연속 확률 분포이다. 주로 사건 발생 간의 시간 간격이 지수적으로 분포할 때 사용된다.
연속확률변수 X의 확률밀도함수가 아래와 같은 형태일 때, X는 모수가 λ인 지수분포를 따른다고 정의하며 X ~Exp(λ)로 표기한다.
- λ는 사건의 발생률 (파라미터)로, λ>0
지수 분포의 누적 분포 함수는 다음과 같다.
- E(X)=1/λ, 즉, 평균 대기 시간은 사건의 발생률의 역수
- -> 발생률이 증가할수록 평균 발생시간은 작아진다
- Var(X)=1/λ^2, 대기 시간의 변동성을 나타냄
2.1 지수분포의 무기억성(Memoryless Property)
특정 확률 분포의 중요한 특성 중 하나로, 사건 발생 간의 시간이 일정하게 유지된다는 의미이다. 이 성질은 주어진 시간 동안 사건이 발생하지 않았을 때, 추가로 걸리는 시간은 이전 시간에 무관하다는 것을 의미한다.
메모리리스 성질을 수학적으로 표현하면 다음과 같다.
사건이
- 시간 간격의 독립성: 메모리리스 성질은 사건 발생 간의 시간 간격이 서로 독립적이라는 것을 의미한다. 즉, 사건이 발생하지 않은 시간이 길어졌다고 해서 사건이 발생할 확률에 영향을 미치지 않는다.
ex) 평균 10분마다 전화가 걸려오는 콜센터에서, 현재까지 전화가 걸려오지 않은 시간이 15분이라면, 이후에 전화가 걸려올 시간은 여전히 평균 10분과 같다는 의미이다.
3. 지수분포의 포아송과정
지수 분포는 포아송 분포와 밀접하게 연관되어 있다. 포아송 분포는 특정 시간 동안의 사건 발생 횟수를 모델링하는 반면, 지수 분포는 사건이 발생하기까지 걸리는 시간 간격을 모델링한다. X(t) ~ poi(λt)가 t시간당 사건의 발생 횟수를 나타내는 확률변수일 때, 동일한 확률실험 상황에서 사건 간 시간 간격 Y는 Exp(λ)를 따른다. 반대로 사건 발생 간격이 지수 분포를 따른다면, 특정 시간 구간 내에서 사건의 발생 횟수는 포아송 분포를 따른다.
ex) 콜센터에서 다음 전화가 걸려오는 시간 간격이 지수 분포를 따른다고 가정해보자. 만약 평균적으로 5분마다 전화가 걸려온다면, 이 경우 지수 분포의 파라미터는 λ=1/5이다.
연속적 사건 발생: 사건이 평균적으로 단위 시간 동안 λ만큼 발생한다고 가정한다.
- 포아송 분포에서 λ는 특정 시간 동안의 평균 사건 발생 횟수
- 지수 분포에서 λ는 사건 발생 비율로, 시간 단위당 사건의 평균 발생률
포아송과 지수의 관계: 포아송 분포의 λ와 지수 분포의 λ는 서로 보완적인 관계를 가진다
- 포아송 분포의 평균 사건 발생 횟수는 t
- 지수 분포의 평균 시간 간격은 1/λ
'통계학' 카테고리의 다른 글
정규분포(Normal distribution)와 표준정규분포표 (0) | 2024.09.19 |
---|---|
연속확률변수와 확률밀도함수 (0) | 2024.09.15 |
통계학과란? 통계학과 진학 방법 (1) | 2023.11.23 |
시계열 데이터(Longitudinal Data) (3) | 2023.11.21 |
디지털 마케팅 분석(Digital Marketing Analytics) (1) | 2023.11.21 |