상관관계란(Correlation) ?
두 변수 간의 관계를 나타내며, 한 변수의 변화가 다른 변수의 변화에 어떻게 영향을 미치는지를 설명합니다. 양의 상관관계, 음의 상관관계, 또는 상관관계가 없는 경우로 구분된다.
산점도(Scatter plot) 예시 (상관계수를 함께 표현)
- 양의 상관관계: 한 변수가 증가할 때 다른 변수도 증가하는 관계. 예를 들어, 키와 체중.
- 음의 상관관계: 한 변수가 증가할 때 다른 변수가 감소하는 관계. 예를 들어, 운동량과 체지방율.
- 상관관계 없음: 두 변수 간에 규칙적인 패턴이 없는 경우.

상관계수의 의미와 한계:
- 상관계수는 두 변수 간의 선형 관계만을 측정합니다. 비선형 관계를 감지하는 데는 한계가 있습니다.
- 상관계수는 데이터의 척도와 단위에 영향을 받지 않으므로, 서로 다른 단위의 데이터를 비교할 때 유용합니다.
상관계수 구하는 법
상관계수(Correlation Coefficient)는 두 변수 간의 상관관계의 강도와 방향을 수치화한 값입니다. 가장 일반적으로 사용되는 상관계수는 피어슨 상관계수(Pearson Correlation Coefficient)입니다. 피어슨 상관계수는 -1과 1 사이의 값을 가지며, 1에 가까울수록 강한 양의 상관관계, -1에 가까울수록 강한 음의 상관관계를 의미합니다. 0에 가까울수록 상관관계가 거의 없음을 나타냅니다.

**분자: 공분산 (Covariance)
분자 부분은 두 변수 간의 공분산을 계산합니다:

- 공분산의 의미: 공분산은 두 변수 간의 공동 변동성을 나타냅니다. 두 변수가 함께 어떻게 변하는지를 측정합니다. 공분산 값이 양수면 두 변수가 같은 방향으로 변하고, 음수면 반대 방향으로 변하며, 0에 가까우면 서로 독립적임을 나타냅니다.
- 중심화(Centering): 각 관측값에서 평균값을 빼는 이유는 데이터를 중심화(중심점을 원점으로 이동)하여, 단위의 영향을 제거하고 순수한 변동성을 비교하기 위함입니다.
- 1, 2, 3, 4, 5, 6 -> -2.5, -1.5, -.5, .5, 1.5, 2.5
- 편차 : 평균에서 얼마나 떨어져 있는지에 대한 거리
중심화의 의미
중심화는 데이터를 평균 중심으로 이동시켜, 데이터 간의 상대적 변동성을 분석하는 데 도움을 줍니다. 이는 데이터의 분포 형태를 유지하면서도, 평균 중심으로 데이터를 재조정하여 통계적 계산을 단순화하고 명확하게 합니다.
**분모: 표준편차의 곱 (Product of Standard Deviations)

- 표준편차의 의미: 표준편차는 데이터가 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도입니다. 각 변수의 표준편차를 곱함으로써, 공분산을 두 변수의 변동성 크기로 정규화(normalize)할 수 있습니다.
- 정규화(Normalization): 공분산을 각 변수의 표준편차로 나누면, 두 변수 간의 변동성 차이를 제거하고 순수한 상관관계만을 비교할 수 있습니다. 이를 통해 상관계수는 -1에서 1 사이의 값을 가지게 됩니다.
수학적 직관
- 공분산이 크다는 것은 두 변수 간의 변동이 강하게 연관되어 있음을 의미합니다. 예를 들어, X가 증가할 때 Y도 증가하는 경우(양의 공분산) 또는 X가 증가할 때 Y가 감소하는 경우(음의 공분산).
- 공분산을 각 변수의 표준편차로 나누면, 이는 두 변수 간의 변동성 차이를 제거하여 순수한 상관관계의 강도를 나타냅니다. 예를 들어, X와 Y의 단위가 다르더라도 상관계수는 동일하게 해석될 수 있습니다.
나누기의 수학적 의미
- 정규화 (Normalization):
- 목적: 데이터를 일정한 범위로 스케일링하여 비교 가능하게 만듭니다.

- 표준화 (Standardization):
- 목적: 데이터의 평균을 0, 표준편차를 1로 맞추어 스케일링합니다.

- 비율 계산:
- 목적: 두 값의 상대적 크기를 비교합니다.

2. 상관관계와 인과관계의 구분
- 상관관계 vs. 인과관계:
- 상관관계는 두 변수 간의 관계를 나타내지만, 인과관계를 의미하지는 않습니다.
- 인과관계를 검증하기 위해서는 추가적인 연구 설계와 통계적 검정이 필요합니다. 예를 들어, 무작위 대조 실험(RCT)이나 종단 연구(longitudinal study)를 통해 인과관계를 검증할 수 있습니다.
- 혼란 변수(Confounding Variable):
- 제3의 변수가 두 변수 간의 상관관계를 왜곡할 수 있습니다. 이를 혼란 변수라고 하며, 상관관계 분석 시 반드시 고려해야 합니다.
- 혼란 변수를 통제하기 위해 다변량 회귀분석이나 구조방정식 모델링(SEM)을 사용할 수 있습니다.
3. 다양한 상관계수의 비교
- 피어슨 상관계수:
- 선형 관계를 측정하며, 두 변수 모두 연속형 변수일 때 사용합니다.
- 스피어만 상관계수:
- 비모수적 방법으로 순위 데이터를 사용하여 상관관계를 측정합니다.
- 데이터가 비선형 관계일 때 유용합니다.
- 켄달의 타우:
- 비모수적 방법으로 순위 일관성을 측정합니다.
- 데이터에 동순위 값이 많을 때 유용합니다.
4. 상관관계 분석의 고급 기법
- 편상관계수 (Partial Correlation):
- 두 변수 간의 상관관계를 계산할 때 다른 변수들의 영향을 통제합니다.
- 이를 통해 두 변수 간의 직접적인 관계를 더 명확하게 이해할 수 있습니다.
- 다변량 상관분석 (Multivariate Correlation Analysis):
- 여러 변수 간의 상관관계를 동시에 분석합니다.
- 다변량 회귀분석이나 주성분 분석(PCA)을 통해 변수 간의 복잡한 관계를 이해할 수 있습니다.
5. 상관관계의 시각화
- 산점도 행렬 (Scatter Plot Matrix):
- 여러 변수 간의 상관관계를 시각적으로 표현합니다.
- 각 변수 쌍의 산점도를 행렬 형태로 배열하여, 변수 간의 관계를 한눈에 볼 수 있습니다.
- 상관 행렬 (Correlation Matrix):
- 여러 변수 간의 상관계수를 행렬 형태로 표현합니다.
- 이를 통해 각 변수 쌍의 상관관계를 쉽게 비교할 수 있습니다.


6. 상관관계의 실제 적용 사례
- 금융 시장 분석:
- 주식 간의 상관관계를 분석하여 포트폴리오를 최적화하고 리스크를 관리합니다.
- 상관관계 네트워크 분석을 통해 금융 자산 간의 관계를 시각화하고 이해할 수 있습니다.
- 생물학적 연구:
- 유전자 간의 상관관계를 분석하여 유전자 네트워크를 구성하고, 유전자 기능을 이해합니다.
- 환경 요인과 건강 결과 간의 상관관계를 분석하여 공중 보건 정책을 수립합니다.
- 사회과학 연구:
- 사회적 변수 간의 상관관계를 분석하여 사회 현상을 이해하고, 정책 결정을 지원합니다.
- 설문조사 데이터를 기반으로 상관관계 분석을 수행하여 행동 패턴을 파악합니다.
결론
상관관계에 대한 수준 높은 고찰은 단순한 상관계수 계산을 넘어서, 다양한 통계적 기법과 시각화 도구를 활용하여 변수 간의 관계를 심도 있게 이해하는 데 있습니다. 이를 통해 데이터의 복잡한 구조를 이해하고, 의미 있는 결론을 도출할 수 있습니다.
반응형
'About Statistics (통계)' 카테고리의 다른 글
통계 분포 (0) | 2024.08.07 |
---|---|
표본오차와 신뢰구간 (0) | 2024.08.07 |
기술통계와 추론통계 (0) | 2024.08.01 |
데이터 분석에서 통계가 중요한 이유 (0) | 2024.08.01 |
ROC curve 와 AUC (0) | 2022.03.30 |