본문 바로가기
Data Analytics (데이터 분석)

데이터 리터러시(문해력)란 ?

by 용스토리랜드 2024. 7. 3.

데이터 리터러시 (Data Literacy) ; 데이터 문해력이란 무엇일까요?? 

  1. 데이터를 읽는 능력 
  2. 데이터를 이해하는 능력 
  3. 데이터를 비판적으로 분석하는 능력 
  4. 결과를 의사소통에 활용할 수 있는 능력

즉, 데이터 수집과 데이터 원천을 이해하고 주어진 데이터에 대한 다양한 활용법을 이해하고, 데이터를 통핸 핵심지표를 이해하는 것. -> 올바른 질문을 던질 수 있도록 만들어줌. 

 

✅데이터 분석에 대한 오해와 착각 

  • 데이터를 잘 분석하면 문제, 목적, 결론이 나올 것이라고 생각. 
  • 데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 생각
  • 분석에 실패하면 방법론, 스킬이 부족한 것이라고 생각.

결국, 데이터 분석에서 가장 중요한 것은 고민하고 생각하는 것. 스킬적인 부분은 도구에 불과하다.


✅데이터 해석 오류 사례 

1. 심슨의 역설 (Simpson's Paradox) 

  • 심슨의 역설은 수학자 에드워드 H. 심슨(Edward H. Simpson)이 1951년에 처음으로 설명한 현상입니다. 예를 들어, 두 약물 A와 B가 특정 질병에 대한 치료 효과를 비교할 때 전체 데이터를 보면 약물 A가 더 효과적일 수 있지만, 성별이나 나이와 같은 하위 그룹으로 나누어 분석하면 약물 B가 더 효과적일 수 있습니다. 이러한 역설적인 결과는 의사결정 과정에서 큰 혼란을 초래할 수 있습니다.
  • 심슨의 역설 예시) 학과성별지원자 수합격자 수합격률 
    학과 성별 지원자 수 합격자 수 합격률
    A 남학생 90 30 33.3%
    A 여학생 10 5 50.0%
    B 남학생 10 7 70.0%
    B 여학생 90 60 66.7%
    전체 데이터를 보면, 남학생의 합격률은 37/100 = 37.0%이고 여학생의 합격률은 65/100 = 65.0%입니다. 그러나 학과별로 나누어 보면, 학과 A에서는 여학생의 합격률이 높고 학과 B에서는 남학생의 합격률이 높습니다. 전체적으로 여학생의 합격률이 높지만, 각 학과에서는 성별에 따른 합격률이 달라집니다. 이것이 심슨의 역설입니다.
  • 간단한 예시로 심슨의 역설을 이해해봅시다. 한 대학교에서 남학생과 여학생의 두 학과에 대한 지원자 수와 합격자 수를 분석했다고 가정합니다.
  • 왜 심슨의 역설이 발생하는가?
    • 심슨의 역설은 데이터의 혼합 효과와 관련이 있습니다. 하위 그룹에서 중요한 변수가 전체 데이터 세트에서는 무시되었기 때문에 발생합니다. 이 역설은 다음과 같은 상황에서 자주 발생합니다:
    1. 하위 그룹의 크기 차이: 하위 그룹의 크기가 크게 다를 때, 한 그룹의 영향력이 전체 결과에 더 큰 영향을 미칩니다.
    2. 변수의 상호작용: 두 개 이상의 변수가 상호작용할 때, 단일 변수만으로는 설명할 수 없는 결과가 나타날 수 있습니다.
  • 심슨의 역설을 피하는 방법
    1. 하위 그룹 분석: 전체 데이터뿐만 아니라 하위 그룹으로 나누어 분석하여 각 그룹의 경향을 파악합니다.
    2. 혼란 변수 조정: 혼란 변수(confounding variable)를 식별하고, 이를 조정하여 분석 결과에 미치는 영향을 최소화합니다.
    3. 다양한 분석 기법 사용: 회귀 분석, 분산 분석 등 다양한 통계 기법을 사용하여 데이터를 다각도로 분석합니다.
    결론
  • 심슨의 역설에 대한 이해는 데이터 과학자가 더욱 신뢰할 수 있는 분석 결과를 도출하는 데 큰 도움이 될 것입니다. 이를 통해 데이터를 올바르게 해석하고, 더 나은 의사결정을 내릴 수 있습니다.
  • 심슨의 역설은 데이터 분석에서 종종 간과될 수 있는 중요한 개념입니다. 전체 데이터를 볼 때와 하위 그룹을 나누어 볼 때 상반된 결과가 나타날 수 있기 때문에, 이를 이해하고 주의 깊게 분석하는 것이 중요합니다. 데이터를 분석할 때는 항상 다양한 관점에서 접근하고, 하위 그룹 분석과 혼란 변수 조정을 통해 보다 정확한 통찰을 얻도록 노력해야 합니다.

2. 시각화를 활용한 왜곡

데이터 시각화는 복잡한 데이터를 쉽게 이해할 수 있도록 도와줍니다. 그러나 시각화를 왜곡하면 잘못된 정보를 전달할 수 있습니다. 자료의 표현 방법에 따라서 해석의 오류 여지가 존재합니다.

 

 


3. 샘플링 편향

샘플링 편향은 데이터 수집 과정에서 특정 그룹이 과소 또는 과대 대표되는 현상입니다. 이는 분석 결과에 큰 영향을 미칠 수 있습니다.

사례: 온라인 설문조사

한 온라인 쇼핑몰이 고객 만족도를 조사하기 위해 웹사이트 방문자를 대상으로 설문조사를 진행했습니다. 결과는 대부분의 고객이 매우 만족하고 있음을 보여주었습니다. 그러나 이 결과는 실제 고객 만족도를 반영하지 않을 수 있습니다. 인터넷 사용이 익숙하지 않은 고객이나 나이가 많은 고객은 설문조사에 참여하지 않았을 가능성이 높기 때문입니다.

이처럼 샘플링 편향은 특정 그룹의 의견을 과대 대표하거나 과소 대표하여 전체 결과를 왜곡할 수 있습니다.


4. 상관관계와 인과관계

상관관계는 두 변수 간에 어떤 관계가 있음을 나타내지만, 이는 인과관계를 의미하지 않습니다. 상관관계와 인과관계를 혼동하면 잘못된 결론을 내릴 수 있습니다.

 

사례: 아이스크림 판매량과 익사 사고

여름철에 아이스크림 판매량이 증가하고, 동시에 익사 사고도 증가하는 경향이 있습니다. 이 두 변수 사이에 상관관계가 있지만, 아이스크림 판매량이 증가한다고 해서 익사 사고가 증가한다고 결론을 내릴 수 없습니다. 이 두 변수는 모두 여름이라는 공통 요인에 의해 영향을 받습니다.

이처럼 상관관계는 인과관계를 의미하지 않으므로, 데이터를 해석할 때 주의가 필요합니다.

 

 

데이터 분석이 목적이 되지 않도록 '왜?'를 항상 생각해야 한다.
반응형