본문 바로가기
통계학

상관계수의 정의와 역할, 피어슨 상관계수(Pearson Correlation Coefficient)와 스피어만 순위 상관계수(Spearman's Rank Correlation Coefficient)의 계산 방법

by 이징이 2024. 11. 15.

상관계수와 공분산의 정의와 역할, 그리고 피어슨 상관계수(Pearson Correlation Coefficient)와 스피어만 순위 상관계수(Spearman's Rank Correlation Coefficient), 켄달의 타우 (Kendall's Tau) 상관계수를 알아보며 이들이 데이터 분석에서 어떻게 활용되는지 자세히 알아보겠습니다. 또한 공분산과 상관계수의 역할을 비교하며 각각의 개념에 대해 깊이 있게 이해해 보시기 바랍니다. 

1. 상관계수의 정의

상관계수는 특정한 관계가 두 변수 사이에 존재하는지와 그 관계의 강도를 나타내는 측정값입니다. 예를 들어, 키와 몸무게가 높은 상관관계를 보인다면, 키가 커질수록 몸무게도 커지는 경향이 있다고 해석할 수 있습니다. 상관계수는 이러한 관계의 방향(양의 관계, 음의 관계)과 강도(절댓값 크기에 따라 강한 관계인지 약한 관계인지)를 수치적으로 나타내어, 데이터 해석에 있어 간편한 지표를 제공합니다.

 

  • +1: 완전한 양의 선형 관계. 두 변수가 정비례 관계로 증가하거나 감소합니다.
  • 0: 두 변수 간에 선형적인 관계가 거의 없습니다.
  • -1: 완전한 음의 선형 관계. 한 변수가 증가할 때 다른 변수는 일정하게 감소하는 반비례 관계를 가집니다.

 

2. 상관계수의 역할 

상관계수는 데이터 분석과 통계학에서 여러 가지로 중요한 역할을 합니다. 

 

  • 데이터 패턴과 관계 파악: 두 변수 간의 상관 관계는 데이터 패턴을 이해하는 데 도움을 줍니다. 예를 들어, 마케팅 데이터에서 특정 변수들 간의 상관관계를 분석하면 소비자 행동과 판매량의 관계 등을 예측할 수 있습니다.
  • 데이터 모델링 및 예측: 상관계수를 활용하여 두 변수 간의 관계가 예측 가능한지 확인할 수 있습니다. 상관관계가 강하면 예측 모델을 설계할 때 유용하며, 선형 회귀 분석과 같은 모델링 기법의 기초를 제공합니다.
  • 의사결정 및 정책 수립: 상관 관계가 높은 변수를 식별함으로써 정책 수립 시 중요한 요소를 파악할 수 있습니다. 예를 들어, 건강 데이터에서 운동과 심장 건강 사이의 상관관계를 확인하면 건강 정책 수립에 기초 자료로 활용할 수 있습니다.
  • 다차원 데이터 분석: 여러 변수 간 관계를 파악함으로써 복잡한 데이터를 효과적으로 요약하고, 중요한 변수들 간의 상관관계를 중심으로 분석을 집중시킬 수 있습니다.

 

3. 상관계수의 종류

 

상관계수는 두 변수 간의 관계를 측정하는 다양한 방식에 따라 여러 종류로 나뉩니다. 주로 피어슨 상관계수, 스피어만 순위 상관계수, 켄달의 타우 상관계수가 널리 사용됩니다. 각 상관계수는 측정 방식이나 목적에 따라 다른 특징을 지니며, 데이터 특성에 맞는 상관계수를 선택하는 것이 중요합니다.

 

1) 피어슨 상관계수 (Pearson Correlation Coefficient)

피어슨 상관계수는 가장 일반적으로 사용되는 상관계수로, 연속형 변수들 간의 선형 관계를 측정하는 데 적합합니다. 두 변수 간의 비례 관계를 나타내며, 계산식은 다음과 같습니다.

  • 여기서 X와

해석:

  • r=1: 완전한 양의 선형 관계
  • r=−1: 완전한 음의 선형 관계
  • r=0: 선형 관계가 없음

피어슨 상관계수는 두 변수의 관계가 직선 형태로 변할 때 유효합니다. 비선형적인 관계를 갖는 경우 피어슨 상관계수는 적절하지 않습니다.

 

2) 스피어만 순위 상관계수 (Spearman's Rank Correlation Coefficient)

스피어만 상관계수서열형 데이터비선형 관계를 측정할 때 유용합니다. 두 변수의 순위 간 상관 관계를 평가하여, 데이터가 서열 형태일 때도 사용할 수 있습니다.

  • 여기서 d_i는 각 관측치 순위 차이의 제곱합이고,

해석:

  • ρ=1: 완전한 양의 순위 관계
  • ρ=−1: 완전한 음의 순위 관계
  • ρ=0: 순위 간 상관관계가 없음

스피어만 순위 상관계수는 데이터 분포가 비선형이거나 이상치가 있는 경우에도 사용하기 좋습니다.


3) 켄달의 타우 (Kendall's Tau)

켄달의 타우순위 일관성을 측정하는 상관계수로, 스피어만 상관계수와 유사하게 순위 간의 관계를 분석할 때 사용됩니다. 두 변수 간의 순위 쌍을 비교하여 일관성을 평가합니다.

  • 순응 쌍(concordant pairs)과 불순응 쌍(discordant pairs)의 개수를 기반으로 계산됩니다.

해석:

  • τ=1: 순위가 완전히 일치
  • τ=−1: 순위가 완전히 불일치
  • τ=0: 순위 간 관계가 거의 없음

켄달의 타우는 특히 관측 데이터가 적거나 순위 간 일관성을 세밀하게 분석할 때 유리합니다. 예를 들어, 설문 응답에서 같은 순위를 비교할 때 자주 사용됩니다.

 

4. 상관계수와 공분산의 관계

상관계수는 공분산을 기반으로 계산됩니다. 공분산을 각 변수의 표준 편차로 나누어 무단위화한 값이 상관계수이며, 이를 통해 데이터의 관계를 해석하기 쉽게 만듭니다. 상관계수의 값은 항상 -1과 +1 사이로 정규화되어 있어, 절대적인 크기 비교가 가능합니다.

 

상관계수 공식 (피어슨 상관계수)

  • 여기서 Cov(X,Y)는 두 변수

공분산은 상관계수의 기본 개념이지만, 공분산은 단위의 영향을 받기 때문에 해석이 어려운 반면, 상관계수는 -1에서 +1 사이의 범위를 가져 직관적입니다.

구분 공분산 상관계수
정의 두 변수 간의 공동 변화 정도 두 변수 간 선형 관계의 방향과 강도를 나타내는 무단위화된 값
범위 -∞에서 +∞까지 다양하게 나타날 수 있으며 단위의 영향을 받음 -1에서 +1 사이의 무단위 값으로 정규화되어 직관적인 해석이 가능
단위 변수 단위에 의존하여 절대적 크기는 해석이 어려움 단위가 없어서 변수 단위에 무관하게 해석 가능
사용 목적 두 변수의 방향성 확인에 유리, 다른 분석(분산분석 등)에서 사용되기도 함 변수 간 상관 관계를 직관적으로 해석하거나 비교하기에 유리
장점 계산이 간단하며, 공분산의 부호만으로 두 변수의 방향성 파악 가능 -1에서 +1 범위로 직관적 해석 가능, 다양한 데이터와 상황에서 사용될 수 있음
단점 단위에 영향을 받으며, 두 변수의 크기에 따라 값의 해석이 달라지므로 변수 간 비교가 어려움 공분산처럼 방향과 변화의 비례 정도를 정확히 측정하지는 못할 수 있으나 직관적 해석이 용이하고 간결함

 

요약하자면, 공분산과 상관계수는 서로 밀접하게 관련되어 있으면서도 목적에 따라 다르게 사용됩니다. 데이터 분석에서 상관계수가 더 직관적이므로 선호되지만, 공분산 역시 분산분석이나 통계적 검정에서 자주 사용됩니다. 상황에 맞는 지표를 선택하여 분석하는 것이 중요합니다.