기술 통계와 추론 통계: 데이터의 이해와 해석
데이터 분석은 크게 기술 통계와 추론 통계로 나눌 수 있습니다. 이 두 가지 접근법은 데이터를 이해하고 결론을 도출하는 데 중요한 역할을 합니다. 이번 글에서는 기술 통계와 추론 통계의 핵심 개념과 방법들을 살펴보겠습니다.
기술 통계
기술 통계는 데이터를 요약하고 설명하는 방법입니다. 데이터의 대략적인 특징을 간단하고 쉽게 알 수 있으며, 데이터셋의 대표적인 값을 도출하는 데 유용합니다. 단, 예외(이상치)가 항상 존재할 수 있고 데이터의 모든 부분을 완벽하게 설명하지는 못할 수 있습니다.
평균
평균은 데이터셋의 모든 값을 더한 후 데이터의 개수로 나누어 계산합니다. 이는 데이터의 일반적인 경향을 파악하는 데 유용합니다.
예시: 학생들의 수학 점수가 70, 80, 90, 100이라면, 평균은 (70+80+90+100)/4 = 85입니다.
평균은 데이터를 대표하는 값으로 널리 사용되지만, 극단값(이상치)에 의해 크게 영향을 받을 수 있습니다.
중앙값
중앙값은 데이터를 크기 순서대로 정렬했을 때 중앙에 위치한 값입니다. 이는 이상치에 덜 영향을 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법입니다. 데이터가 짝수 개라면 중앙에 있는 두 값의 평균을 중앙값으로 합니다.
예시: 70, 80, 90, 100의 중앙값은 (80+90)/2 = 85입니다.
중앙값은 특히 데이터에 이상치가 있을 때 평균보다 더 정확한 대표값을 제공할 수 있습니다.
분산 (Variance)
분산은 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도로, 데이터의 흩어짐 정도를 측정합니다. 각 데이터 값에서 평균을 뺀 값을 제곱한 후, 이를 모두 더하고 데이터의 개수로 나누어 계산합니다.
예시: 70, 80, 90, 100의 분산은 [(70-85)^2 + (80-85)^2 + (90-85)^2 + (100-85)^2]/4 = 125입니다.
분산은 데이터의 변동성을 나타내지만, *값이 제곱되어 원래 데이터 단위와 달라지기 때문에 직관적으로 이해하기 어려울 수 있습니다.
표준편차 (Standard Deviation)
표준편차는 분산의 제곱근으로, 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 통계적 척도입니다. 이는 데이터의 변동성을 측정하며, 값이 클수록 데이터가 평균으로부터 더 넓게 퍼져 있음을 의미합니다.
예시: 70, 80, 90, 100의 표준편차는 √125 ≈ 11.18입니다.
표준편차는 분산과 달리 *원래 데이터 값과 동일한 단위로 변환되므로 이해하기 더 쉽습니다. 예를 들어, 0에서 100 사이의 값을 가지는 변수의 표준편차가 11.18이라면, 이는 데이터 값이 평균으로부터 약 11.18 정도 떨어져 있음을 의미합니다.
추론 통계
추론 통계는 표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법입니다. 주로 신뢰구간과 가설검정을 사용하여 데이터를 일부를 통해 전체를 추정합니다.
- 점추정
- 구간추정
구간 추정
점추정을 통한 '하나의 추정값'에 '오차의 개념'을 추가하는 것. 점추정의 단점을 보완하기 위한 방법.
즉, "신뢰 구간"을 추정하는 작업
신뢰 구간 (Confidence Interval)
신뢰구간은 모집단의 파라미터(모수)(예: 평균, 비율, 분산 등)가 특정 범위 내에 있을 것이라는 확률을 나타냅니다. 일반적으로 95% 신뢰구간이 사용되며, 이는 모집단 평균이 100번 중 95번은 이 구간 내에 있음을 의미합니다.
더 자세히 말하자면, '특정한 확률분포의 가정 하에서 일정한 오차 범위 내에서 어떤 미지의 모수에 대한 추정치를 포함하는 구간'
예시: 어떤 설문조사에서 평균 만족도가 75점이고, 신뢰구간이 70점에서 80점이라면, 우리는 95% 확률로 실제 평균 만족도가 이 범위 내에 있다고 말할 수 있습니다.
신뢰구간은 모집단의 평균뿐만 아니라 비율, 분산 등 다른 모집단 특성에 대해서도 계산할 수 있습니다. 신뢰구간이 넓을수록 불확실성이 크다는 것을 의미합니다.
신뢰구간=표본 통계량±(임계값×표준오차)
- 표본 통계량: 표본에서 계산된 평균, 비율, 분산 등의 값입니다.
- 임계값: 선택된 신뢰 수준에 대응하는 값입니다(예: 95% 신뢰수준의 경우 일반적으로 1.96을 사용).
- 표준오차: 표본 통계량의 표준편차입니다.
예제
표본에서 어떠한 표본 통계량 (평균, 분산, 표준편차 등등등등) 이 나왔을 때, 이게 모집단에서 해당 통계량이 어떤 구간안에서 나올 확률이 몇 %(90, 95, 99)이다 라는 것을 추론하는 과정
어떤 설문조사에서 100명의 표본을 대상으로 평균 만족도를 조사한 결과, 평균 만족도가 75점이고 표준편차가 5점이라고 가정합니다. 95% 신뢰구간을 계산하면 다음과 같습니다:
이 결과는 모집단의 평균 만족도가 95% 확률로 74.02점에서 75.98점 사이에 있음을 의미합니다.
신뢰 수준 or 신뢰도 (Confidence Level)(1- α )이란?
* α : 모수가 신뢰구간 안에 포함되지 않을 확률
* P(a≤μ≤b) = 1 − α : 모수가 a~b 사이에 포함될 확률 : 1-α (0.99, 0.95, 0.90)
* 신뢰수준 1-α 가 0.95, 즉 95% 라고 하면, α = 0.05
* P(Z>=1.96) = 0.025
*P(-1.96 <= Z <= 1.96) = 0.95
신뢰 수준(Confidence Level)은 신뢰구간을 계산할 때 사용하는 개념으로, 표본 통계량이 모집단 파라미터(모수)를 포함할 확률을 나타냅니다. 이는 통계적 추정의 신뢰도를 평가하는 중요한 척도입니다. 일반적으로 사용되는 신뢰 수준은 90%, 95%, 99% 등이 있으며, 각 신뢰 수준은 해당 신뢰구간이 실제 모집단 파라미터를 포함할 가능성을 나타냅니다.
신뢰 수준이 95% 이다. = 오차 범위가 5% 이다.
-> "동일한 방식으로, 동일한 모집단에서, 동일한 크기로" 추출된 표본들을 가지고 100번의 (구간)추정을 하면 그 중 95번은 "실제 모수가 신뢰구간에 포함되어 있을 것으로 기대할 수 있다."
높은 신뢰 수준: 신뢰 수준이 높다는 것은 우리가 더 큰 확신을 가지고 모집단 파라미터가 신뢰구간 안에 있을 것이라고 말할 수 있다는 뜻입니다. 예를 들어, 99% 신뢰 수준은 모집단 평균이 신뢰구간 내에 있을 확률이 99%라는 의미
넓어지는 신뢰구간: 신뢰 수준을 높이면, 더 많은 표본을 포함해야 하므로 신뢰구간이 넓어집니다. 예를 들어, 99% 신뢰 수준에서는 95% 신뢰 수준보다 더 넓은 범위를 사용합니다. 이는 불확실성을 줄이기 위해 더 넓은 범위를 커버하는 것
Z값
99% : 2.576
95% : 1.96
90% : 1.645
가설검정 (Hypothesis Testing)
가설검정은 모집단에 대한 가설을 검증하기 위해 사용됩니다. 일반적으로 두 가지 가설이 있습니다:
- 귀무가설 (Null Hypothesis): 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설 (변화가 없다, 효과가 없다).
- 대립가설 (Alternative Hypothesis): 귀무가설의 반대 가설로, 변화나 효과가 있음을 주장.
예시: 새로운 교육 프로그램의 효과를 검증하기 위해, 기존 방법과 새 방법을 비교하는 실험을 한다고 가정합니다. 실험 결과, p-value가 0.03이라면, 이는 귀무가설(교육 프로그램의 효과가 없다)을 기각하고, 새 방법이 효과가 있음을 의미합니다.
가설검정의 결과는 p-value를 통해 결정합니다. p-value는 귀무가설이 참일 때 관찰된 데이터가 나타날 확률을 의미합니다. 일반적으로 p-value가 0.05 미만이면 귀무가설을 기각합니다.
가설검정은 연구의 타당성을 평가하는 데 중요한 역할을 합니다. p-value가 낮다는 것은 데이터가 귀무가설 하에서 매우 드물게 나타날 결과임을 의미하며, 이는 대립가설이 옳을 가능성을 시사합니다.
p-value(probability value)의 의미와 해석 방법
p-value란?
p-value는 가설검정에서 사용되는 중요한 통계적 개념으로, 관찰된 데이터가 귀무가설(null hypothesis) 하에서 나타날 확률을 의미(귀무가설이 참일 때, 관찰된 데이터가 나타날 확률을 나타내는 값)합니다. 구체적으로, p-value는 귀무가설이 참일 때, 관찰된 데이터 또는 그보다 더 극단적인 데이터가 나타날 가능성을 측정합니다. 이를 통해 우리는 귀무가설을 기각할지 여부를 결정하게 됩니다.
귀무가설이 참일 때, p-value 가 0.024이다. 귀무가설이 참일 때, 관찰된 혹은 관찰될 데이터가 나타날 확률이 0.024로 매우 작기 때문에, 대립가설을 채택한다.
p-value 해석 방법
p-value는 통계적 유의성(significance)을 평가하는 데 사용됩니다. 일반적으로 다음과 같은 기준을 사용하여 p-value를 해석합니다:
- p-value ≤ 0.05: 귀무가설을 기각합니다. 이 경우, 관찰된 데이터가 귀무가설 하에서 나타날 확률이 매우 낮기 때문에, 대립가설(alternative hypothesis)을 지지하는 증거가 충분하다고 봅니다.
- p-value > 0.05: 귀무가설을 기각하지 않습니다. 이 경우, 관찰된 데이터가 귀무가설 하에서 나타날 가능성이 비교적 높기 때문에, 귀무가설을 기각할 충분한 증거가 없다고 봅니다.
예제
예제를 통해 p-value의 의미와 해석 방법을 더 구체적으로 설명해보겠습니다.
예제 상황: 한 회사에서 새로운 마케팅 캠페인이 기존 캠페인보다 효과가 있는지 검증하고자 합니다. 이를 위해 두 그룹의 고객을 대상으로 각각 새로운 캠페인과 기존 캠페인을 실시하고, 구매율을 비교합니다.
- 귀무가설(H₀): 새로운 캠페인은 기존 캠페인과 구매율에 차이가 없다.
- 대립가설(H₁): 새로운 캠페인은 기존 캠페인보다 구매율이 높다.
실험 결과, 새로운 캠페인의 구매율이 20%, 기존 캠페인의 구매율이 15%였다고 가정합니다. 이 결과에 대한 p-value를 계산했더니 0.03이 나왔다고 합니다.
해석:
- p-value = 0.03은 귀무가설이 참일 때, 새로운 캠페인의 구매율이 기존 캠페인보다 5% 더 높게 나타날 확률이 3%라는 의미입니다.
- p-value ≤ 0.05이므로, 우리는 귀무가설을 기각하고 대립가설을 지지할 수 있습니다. 즉, 새로운 캠페인이 기존 캠페인보다 구매율을 높이는 데 효과적이라는 결론을 내릴 수 있습니다.
추가 고려사항
- 신뢰수준: 통계적 검정에서 일반적으로 사용하는 신뢰수준은 95%이며, 이에 대응하는 p-value 기준은 0.05입니다. 하지만 연구의 성격에 따라 0.01(99% 신뢰수준) 또는 0.10(90% 신뢰수준)을 사용할 수도 있습니다.
- 효과크기: p-value는 통계적 유의성을 나타내지만, 효과의 실제 크기나 중요성을 보여주지 않습니다. 따라서 p-value와 함께 효과크기(effect size)도 고려하는 것이 좋습니다.
- 다중검정: 여러 가설을 동시에 검정할 때, 유의수준을 조정해야 합니다. 이를 위해 보통 보정 방법(Bonferroni correction 등)을 사용합니다.
결론
p-value는 가설검정에서 귀무가설을 기각할지 여부를 결정하는 데 중요한 역할을 합니다. p-value의 해석은 연구의 신뢰성과 결론의 타당성을 평가하는 데 필수적입니다. 정확한 해석을 위해 신뢰수준, 효과크기, 다중검정 등의 추가적인 통계적 고려사항을 함께 반영하는 것이 중요합니다.
정규분포 vs 표준정규분포
정규분포를 표준 정규분포로 변환하는 과정
표준 정규분포란?
표준 정규분포(Standard Normal Distribution)는 평균이 0이고 표준편차가 1인 정규분포를 말합니다. 이는 정규분포를 비교하고 분석하기 위해 데이터를 표준화하는 데 사용됩니다.
- 평균(μ): 0
- 표준편차(σ): 1
표준 정규분포의 특성과 사용
- 특성:
- 대칭적이고 종 모양을 가진 분포
- 평균이 0이고, 표준편차가 1
- Z-값을 사용하여 원래 분포와 비교 가능
- 면적의 합이 1이며, 이는 확률을 나타냅니다
- 사용 예:
- 다양한 정규분포를 비교할 때
- 데이터의 상대적 위치와 이상치를 분석할 때
- 가설검정과 신뢰구간 계산 등에서 사용
z (x값이) 1.645 일때 왼쪽에서 부터 1.645 까지 그래프를 더하면 , 적분하면 0.95가 나옴. 그럼 1.645 보다 큰 쪽은 0.05
결론
기술 통계는 데이터를 요약하고, 추론 통계는 표본 데이터를 통해 모집단의 특성을 추정하는 데 사용됩니다. 두 접근법 모두 데이터 분석에서 중요한 역할을 하며, 정확한 의사결정에 필수적입니다. 표준편차와 분산의 개념을 이해하고, 신뢰구간과 가설검정을 통해 데이터의 전체적인 특성을 파악하는 것이 중요합니다.
참고 링크
https://blog.naver.com/istech7/50153739190
정규 분포(normal distribution), 표준 정규 분포(standard normal distribution), T 분포(T distribution)
현실 세계에서 관측되거나 측정되는 자료는 연속형(continuous) 아니면 범주형(categorical) 으로 나타나게...
blog.naver.com
https://m.blog.naver.com/iotsensor/222182891116
Ⅵ. 통계적 추론(신뢰구간과 표본크기)
1. 개념 실제 우리의 일상생활에서 학문적 연구에서 모집단의 성격을 모르는 상황에서 모집단의 성격을 규...
blog.naver.com
'About Statistics (통계)' 카테고리의 다른 글
표본오차와 신뢰구간 (0) | 2024.08.07 |
---|---|
상관관계와 인과관계 | Correlation does not imply causation (0) | 2024.08.01 |
데이터 분석에서 통계가 중요한 이유 (0) | 2024.08.01 |
ROC curve 와 AUC (0) | 2022.03.30 |
베이지안 이론(Bayesian theory) (0) | 2022.03.29 |