본문 바로가기
통계학

기술 통계학(Descriptive statistics)

by 이징이 2023. 11. 4.

기술 통계학은 데이터의 주요 특성을 요약하고 설명하는 통계학의 한 분야입니다. 이는 데이터의 중심 경향, 분산, 분포 형태 등을 파악하고 이해하는 데 중요한 도구로 사용됩니다. 이 글을 통해서 기술 통계학이란 무엇인지 알아보고, 기술 통계량의 종류와 추론통계와의 차이점에 대해서 알아보겠습니다.

 

1. 기술 통계학의 정의

기술통계학이란, 수집된 데이터를 정리하고 요약하여 그 특성을 파악하는 통계학의 한 분야입니다. 이는 대량의 데이터를 다루기 쉽도록 간결하고 정확하게 표현하는 데 중점을 두며, 이를 위해 다양한 통계적 방법과 기법들을 사용합니다.

 

2. 기술 통계의 중요성

1) 기술 통계는 데이터의 전반적인 특성을 이해하는 데 도움이 됩니다. 평균, 중앙값, 최댓값, 최솟값, 범위, 표준 편차 등의 통계치를 통해 데이터의 중심 경향, 분산, 분포 형태 등을 파악할 수 있습니다.

2) 대량의 데이터를 요약하고 정리하는 데 기술 통계가 사용됩니다. 이를 통해 복잡한 데이터를 간략히 표현하고, 주요 특징을 쉽게 이해할 수 있습니다.

3) 기술 통계는 서로 다른 데이터 그룹을 비교하는 데 사용됩니다. 예를 들어, 두 그룹의 평균을 비교하여 그룹 간 차이를 파악할 수 있습니다.

4) 기술 통계를 통해 데이터의 이상치를 탐지할 수 있습니다. 예를 들어, 평균에서 크게 벗어난 값이나 사분위수 범위를 크게 벗어난 값 등을 이상치로 판단할 수 있습니다.

5) 기술 통계는 데이터 분석의 첫 단계로, 이후의 분석 방법(예: 추론 통계, 머신러닝)을 선택하고 결과를 해석하는 데 중요한 기초를 제공합니다.

 

3. 기술 통계량

기술통계량은 데이터 집합의 주요 특성을 요약하여 나타내는 수치를 말합니다. 이들은 데이터의 중심 경향, 산포도, 분포의 형태 등을 나타내는 척도로 사용되며, 대량의 데이터를 이해하기 위한 필수적인 도구입니다.

 

1) 중심 경향성

중심 경향의 척도는 데이터의 중심이 어디에 위치하는지를 나타내는 통계적 척도로, 데이터의 대표값이라고도 할 수 있습니다. 주로 사용되는 중심 경향의 척도에는 평균, 중앙값, 최빈값이 있습니다.

 

- 평균(Mean): 데이터의 합을 데이터의 개수로 나눈 값입니다. 모든 데이터를 균등하게 고려하기 때문에 가장 널리 사용되는 중심 경향의 척도입니다. 하지만 이상치(outlier)에 영향을 크게 받는 단점이 있습니다. 예를 들어, 매출액 데이터에서 한 번의 큰 거래가 평균을 크게 높일 수 있습니다.

 

- 중앙값(Median): 데이터를 크기 순으로 나열했을 때 가장 가운데 위치하는 값입니다. 데이터의 개수가 홀수일 경우 중앙의 값이고, 짝수일 경우 중앙 두 값의 평균이 됩니다. 이상치에 대해 강건(robust) 하기 때문에 평균보다 이상치의 영향을 덜 받습니다. 이러한 특성 때문에 소득이나 집 값 등 왜곡된 분포를 갖는 데이터의 중심 경향을 나타내는 데 주로 사용됩니다.

 

- 최빈값(Mode): 데이터 집합에서 가장 자주 등장하는 값입니다. 범주형 데이터나 이산형 데이터에서 중심 경향을 나타내는 데 주로 사용됩니다. 연속형 데이터에서는 특정 값이 정확히 동일하게 반복될 확률이 적기 때문에 최빈값을 구하는 것이 어려울 수 있습니다.

 

이들 중 어떤 척도를 사용할지는 데이터의 특성과 분석 목적에 따라 달라집니다. 이상치가 많거나 데이터가 왜곡된 경우 중앙값을, 범주형 데이터를 다루는 경우 최빈값을, 일반적인 경우에는 평균을 사용하는 것이 일반적입니다.

 

2) 산포도

산포도의 척도는 데이터가 얼마나 퍼져있는지를 나타내는 통계적 척도입니다. 기본적으로 데이터가 한 곳에 집중되어 있으면 산포도가 작고, 넓게 퍼져있으면 산포도가 큽니다. 산포도의 척도에는 범위, 분산, 표준편차 등이 있습니다.

 

- 범위(Range): 데이터의 최대값과 최소값의 차이를 나타냅니다. 계산이 간단하고 이해하기 쉽지만, 이상치에 매우 민감하다는 단점이 있습니다. 따라서 이상치가 있는 경우에는 다른 산포도 척도를 사용하는 것이 좋습니다.

 

- 분산(Variance): 각 데이터가 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도입니다. 각 데이터와 평균의 차이를 제곱하여 평균 낸 값입니다. 제곱을 하기 때문에 데이터가 평균을 중심으로 얼마나 넓게 분포하는지를 나타냅니다. 하지만 단위가 원래의 데이터 단위의 제곱이므로, 해석하기 어렵다는 단점이 있습니다.

 

- 표준편차(Standard Deviation): 분산의 제곱근으로, 데이터가 평균 주변에 얼마나 퍼져 있는지를 나타냅니다. 분산과 마찬가지로 데이터의 퍼짐 정도를 나타내지만, 분산과 달리 원래의 데이터 단위와 동일하므로 해석하기 쉽습니다.

 

3) 분포

분포의 척도는 데이터의 분포 형태를 설명하는 척도로, 왜도와 첨도가 있습니다. 왜도와 첨도는 데이터의 대칭성과 뾰족함에 대한 중요한 정보를 제공하며, 이를 통해 데이터의 분포 형태를 이해하는 데 도움을 줍니다. 이러한 정보는 데이터의 특성을 파악하거나, 데이터가 특정 분포(예: 정규분포)에 근접하는지 확인하는 데 유용합니다.

 

- 왜도(Skewness): 왜도는 데이터의 분포가 어느 쪽으로 치우쳐 있는지를 나타내는 척도입니다. 왜도가 0이면 분포가 완벽하게 대칭을 이룹니다. 왜도가 0보다 크면 오른쪽으로 긴 꼬리를 가진 분포(즉, 오른쪽으로 치우친 분포)를 나타내고, 왜도가 0보다 작으면 왼쪽으로 긴 꼬리를 가진 분포(즉, 왼쪽으로 치우친 분포)를 나타냅니다.

 

- 첨도(Kurtosis): 첨도는 데이터의 분포가 얼마나 뾰족한지, 꼬리 부분이 얼마나 두꺼운지를 나타내는 척도입니다. 첨도가 0이면 정규분포와 같은 첨도를 가진다는 것을 의미합니다. 첨도가 0보다 크면 정규분포보다 뾰족하고 꼬리가 두꺼운 분포를 나타내고, 첨도가 0보다 작으면 정규분포보다 완만하고 꼬리가 얇은 분포를 나타냅니다.

 

4. 기술 통계와 추론 통계

기술 통계(Descriptive Statistics)와 추론 통계(Inferential Statistics)는 통계학의 두 주요 분야로, 다음과 같은 차이점을 가지고 있습니다.

 

- 기술 통계(Descriptive Statistics): 기술 통계는 데이터를 요약하고 설명하는 방법을 다룹니다. 이는 데이터를 수집하고 정리하여 중심 경향, 산포도 및 분포의 형태와 같은 주요 특성을 파악하는 데 사용됩니다. 기술 통계는 "데이터가 어떻게 생겼는지"를 설명하는 데 초점을 맞춥니다.

 

- 추론 통계(Inferential Statistics): 추론 통계는 표본 데이터를 기반으로 전체 모집단에 대한 결론을 도출하는 방법을 다룹니다. 이는 표본을 통해 모집단의 평균, 비율, 차이 등을 추정하거나 두 변수 사이의 관계를 분석하거나 미래의 결과를 예측하는 데 사용됩니다. 추론 통계는 "이 데이터를 바탕으로 우리가 무엇을 알 수 있는가"에 대한 질문에 답하는 데 초점을 맞춥니다.

 

따라서, 기술 통계는 데이터를 요약하고 설명하는 방법을 제공하며, 추론 통계는 이러한 데이터를 바탕으로 일반화하고 예측하는 방법을 제공합니다. 이 두 분야는 서로 보완적인 관계에 있으며, 데이터 분석에서 모두 중요한 역할을 합니다.

 

 

5. 기술 통계학의 적용

기술 통계학은 수집된 데이터를 요약하고 표현하는 데 사용되는 방법을 제공하며, 다양한 분야에서 적용되고 있습니다.

 

- 의료 분야

의료 데이터 분석에서 기술 통계는 중요한 역할을 합니다. 예를 들어, 특정 질병에 대한 환자 데이터를 분석할 때, 기술 통계를 사용해 환자의 나이, 성별, 병의 기간, 치료 반응 등에 대한 평균, 표준편차, 중앙값 등을 계산할 수 있습니다. 이러한 통계는 의사들이 질병의 패턴을 이해하고, 적절한 치료 계획을 수립하는데 도움을 줍니다.

 

- 시장 연구

시장 연구분야에서, 기술 통계는 소비자의 행동과 선호도를 이해하는데 사용됩니다. 예를 들어, 설문조사 데이터를 기반으로 고객의 연령, 성별, 소득 등에 대한 평균 및 분포를 분석하거나, 특정 제품에 대한 고객 만족도의 평균 및 범위를 계산할 수 있습니다. 이 정보는 기업에게 시장의 동향을 파악하고, 마케팅 전략을 개발하는 데 도움을 줍니다.

 

- 교육 분야

성적 데이터 분석에 기술 통계를 사용하여 학생들의 성적 분포, 평균 성적, 성적의 표준편차 등을 파악할 수 있습니다. 이를 통해 교육자들이 학생들의 학습 성과를 평가하고, 교육 방법을 개선하는 데 도움이 됩니다.

 

- 금융 분야

기술 통계는 주식 시장의 변동성 분석, 투자 포트폴리오의 수익률 및 위험 분석 등에 사용될 수 있습니다. 예를 들어, 주식의 일일 수익률의 평균, 표준편차, 최대값, 최소값 등을 계산하여 주식의 변동성을 이해하고, 이를 바탕으로 투자 전략을 수립할 수 있습니다.

 

이처럼, 기술 통계학은 다양한 분야에서 데이터를 요약하고, 이해하는 데 중요한 도구로 사용됩니다.

'통계학' 카테고리의 다른 글

인구 통계학(Demography)  (1) 2023.11.09
베이지안 통계학(Bayesian Statistics)  (0) 2023.11.08
지구 통계학(Geostatistics)  (0) 2023.11.08
추론 통계학(Inferential Statistics)  (0) 2023.11.05
통계학의 정의 및 역사  (1) 2023.11.03