통계는 우리의 일상 속에서 하루도 빠짐없이 등장하고 있습니다. 얼마 전 치러졌던 재·보궐선거에서 성별이나 연령대별로 어떤 후보를 지지하는지 확인할 수 있었던 그래프부터 또다시 매일 증가하는 추세를 보여주는 코로나바이러스감염증-19 확진자 수 그래프까지. 특정한 정보를 가장 알기 쉽고 직관적으로 전달할 수 있는 것이 바로 통계자료이기 때문입니다. 그러나 이러한 통계를 아무런 의심 없이 그대로 받아들이는 것은 위험한 결과를 불러올 수 있습니다. 통계에는 오류가 발생하기 쉽고 이를 이용해 대중들을 속이는 통계가 존재하기 때문입니다. 우리가 조심해야 할 통계의 오류에는 어떤 것이 있을까요?

▲ 지난해 청와대 홈페이지에 공개된 코로나바이러스감염증-19 확진자 추이. x축의 날짜 간격이 서로 다르게 표시돼 있다.
▲ 지난해 청와대 홈페이지에 공개된 코로나바이러스감염증-19 확진자 추이. x축의 날짜 간격이 서로 다르게 표시돼 있다.

대표적인 통계의 오류로는 ‘심슨의 역설’이 있습니다. 심슨의 역설은 영국의 통계학자 에드워드 심슨이 정리한 역설로 각각의 변수에 신경 쓰지 않고 전체 통계 결과를 유추하다가 발생하는 오류입니다. 즉 각각의 변수들 사이에서 성립한 성질이 그 변수들을 종합한 전체 데이터에서는 성립하지 않을 수 있다는 것이죠. 예를 들어 수리기사 A의 수리 성공 확률이 70%이고 수리기사 B의 수리 성공 확률이 40%라고 할 때 단순히 생각하면 많은 사람들이 수리기사 A의 실력이 더 좋다고 말할 것입니다. 그러나 수리기사 B가 더 심각하게 파손된 물건의 수리를 더 많이 맡았고 수리기사 A는 그에 비해 상대적으로 가벼운 고장의 수리를 맡았다면 수리기사 A의 실력이 더 좋다고 판단할 수 없게 되는 것입니다.

상관관계와 인과관계를 정확히 구분하지 못해 통계자료를 해석하는 과정에서 오류가 발생하기도 합니다. 상관관계는 일정한 수치로 계산돼 두 대상이 서로 관련성이 있다고 추측되는 관계를 말합니다. 인과관계는 선행하는 한 변인이 후행하는 다른 변인의 원인이 되고 있다고 믿어지는 관계입니다. 얼핏 비슷해 보이지만 둘은 완전히 다른 관계입니다. 두 데이터 사이에 상관관계가 존재한다고 해서 반드시 인과관계가 성립하지 않는 것을 보면 알 수 있습니다.

지난 2013년 영국의 옥스퍼드대학 연구팀에서는 채식주의자와 육식주의자의 심혈관계 질병 발병률을 비교했습니다. 연구 결과 채식주의자의 심혈관계 질병 발병률이 더 낮다고 나왔죠. 하지만 이러한 상관관계만 가지고 육류 소비량과 건강 사이의 인과관계를 증명할 수는 없습니다. 운동량이나 건강에 대한 관심도, 건강검진을 받는 빈도와 같은 중요한 다른 요소들이 고려되지 않았기 때문입니다. 이처럼 상관관계와 인과관계를 구분하기 위해서는 잠재 변수에 대한 인식이 필요합니다. 잠재 변수는 겉으로 드러나지는 않지만 드러난 요소들의 상관관계에 큰 영향을 미치기 때문입니다.

심리적인 요인 역시 통계를 올바르게 해석하는 데 방해가 되기도 합니다. 복잡한 것을 싫어하고 원인과 결과로 연결지어 단순히 결론을 짓고 싶어 하는 마음에 판단이나 의사 결정에 필요한 가장 기초적인 확률인 기저율을 무시하게 되는 것입니다. 예를 들어 차 색깔에 따라 ‘블루’와 ‘그린’이라고 불리는 두 택시 회사가 있고 전체 택시의 85%는 블루 회사, 15%는 그린 회사 소속이라고 합니다. 한밤중에 택시가 사고를 냈고 목격자는 사고를 낸 택시가 그린 회사라고 말했습니다. 목격자가 색깔을 정확히 말했을 확률이 80%라면 사고를 낸 택시가 그린 회사의 택시일 확률은 얼마일까요? 카머넌과 트버스키가 1983년에 실시한 실험 결과 대부분의 사람들은 이 질문에 80%라고 답했습니다. 그러나 실제 확률은 41% 정도에 불과합니다. 

문제에서 맨 처음에 제시된 ‘전체 택시의 85%는 블루 회사, 15%는 그린 회사 소속’이라는 조건이 기저율이며 사람들은 이를 무시하고 결론을 내린 것입니다.
통계 결과를 표현하는 표나 그래프에서 대중들에게 원하는 해석을 이끌어내기 위해 의도적으로 오류를 발생시키는 경우도 있습니다. 통계자료의 전체적인 경향성과는 상관없이 특정 부분의 그래프만 돋보기를 통해 확대하거나 색을 다르게 하고 화살표를 이용해 수치의 증가나 감소를 눈에 띄게 만드는 것입니다. 같은 축에서도 축에 표시된 숫자 사이의 눈금 간격을 다르게 만들어 수치의 변화율을 과장하기도 합니다.

통계는 보다 정확하고 객관적인 정보 전달을 위해 사용됩니다. 그러나 앞서 살펴본 것처럼 통계를 이용하는 전 과정에서 오류가 발생할 가능성이 존재합니다. 이것이 우리가 제시된 통계를 그대로 받아들여서는 안 되는 이유입니다. 단편적인 수치를 의심 없이 믿기보다는 그 속에 숨겨진 잠재 요인이나 기저율을 고려해 보고 종합적으로 판단해야 합니다. 그래프를 볼 때도 눈금과 비율을 꼼꼼히 확인하는 것이 좋습니다. 오류에 현혹되지 않는 올바른 해석을 통해 우리는 통계라는 도구를 조금 더 편리하게 이용할 수 있을 것입니다.


김유경 기자 candy8867@uos.ac.kr

저작권자 © 서울시립대신문 무단전재 및 재배포 금지