확률분포 (Probability Distribution)
정의
확률분포는 어떤 확률변수가 취할 수 있는 모든 가능한 값과 그 값들이 발생할 확률을 나타내는 함수입니다. 이는 확률변수가 취할 수 있는 값들의 집합과 각각의 값에 할당된 확률로 구성됩니다.
유형
확률분포는 크게 이산확률분포와 연속확률분포로 나눌 수 있습니다.
- 이산확률분포: 이산적인 값을 가지는 확률변수를 위한 분포 (예: 이항분포, 푸아송분포).
- 연속확률분포: 연속적인 값을 가지는 확률변수를 위한 분포 (예: 정규분포, t-분포, 카이제곱분포)
1. 정규분포 (Normal Distribution)
정의
정규분포는 연속확률분포, 데이터가 평균을 중심으로 대칭적으로 분포하는 형태를 가지며, 가장 널리 알려진 연속확률분포입니다. 이는 종 모양의 곡선으로 표현되며, 평균(μ)과 표준편차(σ)에 의해 정의됩니다.
연속확률분포: 정규분포는 연속적인 데이터 값이 주어졌을 때 사용됩니다.
특성: 평균과 중앙값, 최빈값이 모두 동일하고, 대칭적입니다. 데이터의 68%, 95%, 99.7%가 각각 1, 2, 3 표준편차 내에 존재합니다.
응용
- 시험 점수, 키, 혈압 등의 자연현상과 사회현상을 모델링하는 데 사용됩니다.
- 중심극한정리에 의해 많은 통계적 방법들이 정규분포를 가정하고 개발되었습니다.
t-분포 (t-Distribution)
정의 및 특성
- t-분포는 표본 크기가 작거나 모집단의 표준편차를 모를 때 사용됩니다. 평균이 0이고, 분산이 ν/인 대칭 분포입니다.
특성: 평균은 0이며, 자유도가 커질수록 정규분포에 가까워집니다.
응용
- 소규모 표본에서 평균 차이를 검정하는 t-검정에 유용합니다.
- 신뢰구간 계산, 가설 검정 등에 사용됩니다.
카이제곱분포 (Chi-Square Distribution)
정의 및 특성
- 카이제곱분포는 정규분포를 따르는 독립적인 제곱합으로 정의되는 분포입니다.
특성: 항상 양의 값만 가지며, 자유도가 커질수록 정규분포에 가까워집니다.
응용
- 분산 분석(ANOVA), 독립성 검정, 적합도 검정 등에 사용됩니다.
1. 카이제곱분포의 특성
카이제곱분포는 정규분포를 따르는 독립적인 제곱합으로 정의되는 분포입니다. 자유도에 따라 분포 모양이 달라지며, 항상 양의 값만을 가집니다. 이 분포는 다음과 같은 특성을 가지고 있습니다:
- 양수 값만 가짐: 데이터가 0보다 크거나 같은 값을 가질 때 적합합니다.
- 자유도에 따른 변화: 자유도가 증가할수록 정규분포에 가까워지며, 이는 다양한 상황에서 유연하게 사용될 수 있습니다.
사용되는 예시 : 분산 분석 (ANOVA)
분산 분석(ANOVA, Analysis of Variance)은 여러 그룹 간의 평균을 비교하여 각 그룹의 평균이 서로 다른지(또는 같은지)를 검정하는 통계적 방법입니다. 이는 특히 두 개 이상의 그룹을 비교할 때 사용됩니다. ANOVA는 크게 일원분산분석(One-Way ANOVA)과 이원분산분석(Two-Way ANOVA)로 나뉩니다.
즉, 여러 그룹(카테고리)의 평균이 같은지 다른지를 검정하는 것, 구체적으로는, 각 그룹의 평균이 동일하다는 귀무가설을 검정하여, 해당 가설을 기각할 수 있는지를 평가합니다.
이항분포 (Binomial Distribution)
정의 및 특성
- 이항분포는 성공 확률 p를 가지는 실험을 n번 반복했을 때 성공한 횟수의 분포를 나타냅니다.
응용
- 성공/실패 실험의 결과를 모델링하는 데 사용됩니다.
- 예: 동전 던지기, 제품의 결함 여부 검사 등
푸아송분포 (Poisson Distribution)
정의 및 특성
- 푸아송분포는 이산확률분포로, 주어진 시간 또는 공간 내에 사건이 발생하는 횟수를 모델링합니다. 단위 시간 내 평균 사건 발생률이 λ(lambda)일 때 정의됩니다.
응용
- 전화 콜센터의 전화 도착률, 웹사이트 방문자 수, 특정 시간 내 차량 사고 수 등을 모델링합니다.
☑️ 데이터 수가 충분하다 → (무조건) 정규분포
☑️ 데이터 수가 작다 → 스튜던트 t 분포
☑️ 일부 데이터가 전체적으로 큰 영향을 미친다 → 롱 테일 분포 (파레토 분포)
☑️ 범주형 데이터의 독립성 검정이나 적합도 검정 → 카이 제곱 분포
☑️ 결과가 두 개(성공 or 실패)만 나오는 상황 → 이항 분포
☑️ 특정 시간, 공간에서 발생하는 사건 → 푸아송 분포
이러한 분포를 알고 있어야 하는 이유 ?
데이터 분석가가 다양한 통계적 분포를 이해하고 있는 것은 데이터 분석, 해석, 모델링, 그리고 의사결정에 매우 중요합니다. 아래에서는 그 이유를 자세히 설명하겠습니다.
1. 데이터 이해 및 특성 파악
데이터의 본질 파악
- 정확한 데이터 특성 이해: 데이터가 어떤 분포를 따르는지 아는 것은 데이터의 특성과 본질을 파악하는 데 필수적입니다. 예를 들어, 데이터가 정규분포를 따르는지 여부는 많은 통계적 기법의 전제가 되므로 매우 중요합니다.
- 이상치 탐지: 데이터가 예상되는 분포를 따르지 않으면 이상치를 탐지하거나 데이터 수집 과정에서 문제가 있었는지 확인할 수 있습니다.
2. 적절한 분석 기법 선택
올바른 방법론 적용
- 모델 선택: 데이터의 분포에 따라 적절한 통계 모델을 선택해야 합니다. 예를 들어, 정규분포를 가정하는 방법론과 그렇지 않은 방법론은 다르며, 부적절한 모델 선택은 잘못된 결론을 초래할 수 있습니다.
- 검정 방법 선택: 데이터의 분포에 따라 t-검정, ANOVA, 카이제곱 검정 등 적절한 통계적 검정을 선택하는 데 도움이 됩니다.
3. 신뢰성 있는 예측 및 해석
예측의 정확성
- 정확한 예측: 데이터 분포를 알고 있으면 예측 모델의 정확도를 높일 수 있습니다. 예를 들어, 특정 분포를 가정한 예측 모델은 해당 분포를 따르는 데이터를 더 잘 예측합니다.
- 해석의 신뢰성: 데이터 분석 결과를 해석할 때, 데이터 분포를 이해하면 결과의 신뢰성을 평가하는 데 도움이 됩니다. 예를 들어, 정규분포를 가정한 결과가 비정규분포 데이터를 기반으로 한 경우 신뢰할 수 없습니다.
4. 가설 검정 및 통계적 유의성 평가
가설 검정의 기초
- 유의성 검정: 가설 검정을 수행할 때, 데이터 분포를 알고 있으면 p-값을 정확히 계산하고 결과의 통계적 유의성을 평가할 수 있습니다. 잘못된 분포 가정은 잘못된 결론을 도출할 수 있습니다.
5. 데이터 변환 및 처리
데이터 전처리
- 정규화 및 변환: 데이터가 특정 분포를 따르지 않으면 데이터 변환(예: 로그 변환)을 통해 정규분포로 변환하여 분석 기법을 적용할 수 있습니다.
- 피처 엔지니어링: 데이터 분포를 이해하면 효과적인 피처 엔지니어링을 수행할 수 있습니다. 예를 들어, 분포가 치우친 데이터를 처리할 때 적절한 변환을 적용할 수 있습니다.
6. 다양한 도메인에 대한 적용
도메인 특화 분석
- 도메인 지식: 특정 도메인에서 데이터가 어떤 분포를 따르는지 아는 것은 매우 중요합니다. 예를 들어, 생물학적 데이터는 종종 정규분포를 따르지만, 금융 데이터는 종종 로그 정규분포를 따릅니다.
- 맞춤형 분석: 각 도메인의 특성에 맞는 분석 방법을 선택하고 적용할 수 있습니다.
왜 데이터 분석가는 통계 분포를 알아야 할까?
다양한 통계적 분포를 이해하는 것은 분석 결과의 근거를 마련하고, 신뢰도를 높이며, 예측 결과를 향상시키기 위한 핵심 요소이기 때문이다.
이를 통해 데이터(정보, 관측값)의 특성을 정확히 파악하고 적절한 분석 방법을 적용할 수 있다.
'About Statistics (통계)' 카테고리의 다른 글
회귀분석, R squared (설명력??) 의 의미 (1) | 2024.08.08 |
---|---|
A/B 테스트(검정)란? (0) | 2024.08.07 |
표본오차와 신뢰구간 (0) | 2024.08.07 |
상관관계와 인과관계 | Correlation does not imply causation (0) | 2024.08.01 |
기술통계와 추론통계 (0) | 2024.08.01 |