[그건 정말 그 때문일까①] “그건 그냥 통계 돌린 거 아니야?”


15
글자크기 설정
최대 작게
작게
보통
크게
최대 크게

“그건 통계잖아.”

“데이터 분석이지, 인과는 아니잖아.”

수의사라면, 현장에서 일해본 사람이라면, 연구를 하든 하지 않든 이런 말들을 한 번쯤 들어본 적이 있을 겁니다. 필자가 들을 때 마다 흠칫하는 문장이기도 하며, 이 시리즈 시작의 이유이기도 합니다.

이러한 생각의 기원은 중고등학교 시절 받은 과학 수업에서 찾아볼 수 있습니다. 실험군과 대조군을 설정하고, 다른 조건은 모두 같게 통제한 뒤 하나만 바꿔서 실험하는 연구설계, 그 설계 안에서만 “이게 원인이다”라고 말할 수 있다고 배웠습니다. 물론 고등교육과정에서 이 설계에서 유래한 다른 방법도 배우게 됩니다. 하지만 이로 인해서 실험연구가 아닌 연구에 대한 부정적 인식이 생깁니다.

“통계적 유의성(또는 상관성)이 항상 인과성은 아니야”

분명 이 말은 맞습니다. 실제로, 통계적 유의성이 항상 인과를 말해주지는 않으니까요. 하지만, 어느 순간부터 그 말이

“그러니까 그건 의미 없어”

라는 식으로 쓰이기 시작했습니다. 어떤 분들은 실험이 아닌, 단지 데이터만을 이용했다며, 그 연구의 결론에 대해 의심 또는 심지어 불신의 여지를 두는 경우가 있습니다. 앞서 언급한, 실험연구에 대한 우리의 인식에서 비롯된 것입니다.

현실의 문제가 실험연구로 항상 해결 가능한 것은 아닙니다. 윤리적인 이유로, 시간이나 비용 문제로 실험이 불가능한 경우가 있습니다.

예를 들어, 흡연이 폐암의 원인인지. 조류인플루엔자 발생 농장에 위험요인이 무엇인지. 이건 단순한 호기심이 아니라 사람을 살리고, 현장을 바꾸는 판단의 근거이기 때문에 반드시 인과성을 필요로 합니다.

하지만 이걸 어떻게 ‘실험’으로 보여줄 수 있을까요? 사람들을 무작위로 나눠 일부에겐 20년 동안 흡연을 하게하고, 나머지에겐 금연을 하게 하는 실험 대장정, 또는 농장을 직접 지어서, 차량을 무작위로 출입시키고, 방역 수준을 다르게 적용해보는 실험 등은 과학적으로는 ‘이상적인 설계’일 수 있어도 현실에선 불가능하고, 비윤리적이며, 위험할 수 있습니다.

   

인류는 현실이 허용하는 방식 안에서 최선의 해결책을 제시해왔습니다. 그 중 하나가, 실험이 아닌 일상에서 수집된 기록들 즉, 관찰자료를 활용하는 것입니다. 예를 들어, 병원 진료기록, 백신 접종 이력, 질병 발생 보고, 환경 모니터링 자료들처럼 누가, 무엇을, 언제 겪었는지를 시간순으로 따라가볼 수 있는 데이터들이죠. 그 데이터가 있다면 그리고 실험이 불가능하다면, 우린 여기서 이런 질문을 던져야합니다.

“그럼 어떻게 해야 통계적 유의성이 인과성이 되는거야?”

이런 질문에서 관찰자료를 통한 인과추론 논의가 시작됩니다. 문제는, 우리가 일상에서 수집한 데이터를 가지고 인과를 추론하려 할 때 인과성이 있어 보이지만 (즉, 통계적 상관성은 보이지만) 사실은 없는 경우, 혹은 실제로 인과성이 있는데도 보이지 않는 경우처럼(즉, 통계적 상관성은 나타나지 않음), 관계의 방향이나 존재 자체가 흐려지는 착각이 자주 발생한다는 점입니다.

이 시리즈에서는 일상에서 수집된 데이터에서 실험연구의 구성을 무너뜨리는, 즉 그런 착각을 만들어내는 대표적인 세 가지 구조인 선택바이어스, 정보바이어스, 그리고 교란에 대해 순서대로 짚어보려고 합니다.

현실에서는 이 세 가지가 서로 겹치는 면도 있고, 실제 상황에서는 구분이 그렇게 단순하지 않을 때도 많습니다. 간단히 미리 말씀드리자면 (물론 실제보다 훨씬 단순화된 설명이긴 하지만), 선택바이어스는 표본의 대표성으로 인해 생기는 오류, 정보바이어스는 우리가 수집한 정보가 부정확해서 생기는 오류입니다. 마지막으로 교란(confounding)은, 원인과 결과 모두에 영향을 주는 제3의 요인이 원인처럼 보이게 만들어, 인과성 추정에 혼란을 주는 경우를 말합니다.

사실 이런 용어나 개념 없이도 여러분은 이미 그렇게 판단하고 있습니다. 정도의 차이일 뿐, 우리가 일상에서 내리는 많은 판단엔 이미 인과에 대한 직관이 들어 있습니다. 저는 그 익숙한 감각을, 조금 더 또렷한 구조로 보여드리려는 것뿐입니다.

이를 통해, 우리가 연구뿐만 아니라 진료실 및 일상 속에서도 더 나은 의사결정을 위해, 상관성이라는 안개 속에서 인과성을 식별해내는 힘을 함께 길러보겠습니다.

   

다음 편인 “선택 바이어스”에 들어가기 전에, 먼저 그 바탕이 되는 개념, ‘바이어스’라는 오류 자체가 무엇인지 이번 편에서 짚고 가보겠습니다.

데이터를 해석할 때, 오류는 크게 두 가지로 나눌 수 있습니다. 하나는 무작위 오류(random error)이고, 다른 하나는 체계적 오류(systematic error), 즉 바이어스(bias)입니다.

무작위 오류(random error)는 말 그대로, 방향 없이 랜덤하게 나타나는 오류입니다.  우리가 알고 싶은 참값, 그러니까 여기서는 ‘인과성’ 자체에는 영향을 주지 않지만, 추정값이 그 주변에서 흔들리게 만들죠. 여러 번 인과성을 추정하면 평균적으로 참값과 일치하게 됩니다. 다행히 이 오류는 표본 수를 늘리면 줄일 수 있습니다. 반복 측정이나 더 많은 데이터를 통해 안정된 추정에 가까워질 수 있는 오류입니다.

다른 하나는 체계적 오류(systematic error), 바이어스(bias)입니다. 말 그대로, 랜덤이 아니라 특정한 방향성을 띠고 반복적으로 나타나는 오류입니다. 참값보다 크거나 작게, 또는 인과관계가 실제보다 훨씬 강하게 보이거나, 아예 없는 것처럼 보이거나, 심지어 반대 방향으로 나타나기도 합니다.

이런 오류는 단순히 ‘흔들리는 것’이 아니라, 판단의 방향 자체를 틀어버릴 수 있다는 점에서 훨씬 더 치명적입니다. 그리고 무엇보다 중요한 점은, 이 오류는 표본 수를 늘리더라도 줄일 수 없습니다. 데이터가 많다고해서, 모든 의문에 답할 수는 없다는 거죠. 우리는 이 오류를 구분해서 인식하고, 일상 속에서 올바른 의사결정을 내릴 수 있어야 합니다.

참고로, 이 글에서는 바이어스(bias)라는 용어를 그대로 사용합니다. ‘편향’, ‘바이어스’, ‘삐뚤림’, ‘치우침’등 다양한 번역어가 존재하지만, 각각의 표현이 담고 있는 뉘앙스가 조금씩 다르고, 아직 학계에서도 공식적으로 정리된 번역어는 없습니다. 특히, 인과 추론의 구조 자체가 왜곡되는 방식을 설명해야 하기에, 이 글에서는 바이어스라는 원어를 그대로 사용하겠습니다.

이제 다음 편에서는, 그 체계적 오류 중 하나인 선택 바이어스가 우리의 판단을 어떻게 어긋나게 만들고 있는지를 조금 더 가까이 들여다보겠습니다.

[임준식 수의사의 그건 정말 그 때문일까] 다른 칼럼 보러 가기

[그건 정말 그 때문일까①] “그건 그냥 통계 돌린 거 아니야?”

Loading...
파일 업로드 중 ...