
지난 편에서는, 우리가 일상생활 속에서 실험이 아닌 관찰을 통해 인과성을 추론할 때 착각을 일으킬 수 있는 세 가지 대표적인 구조인 선택 바이어스, 정보 바이어스, 교란을 소개하고 체계적 오류인 바이어스에 대해서 기본 개념을 알아봤습니다.
이번 편에서는 그 중 관찰한 대상의 대표성과 관련된 선택 바이어스에 대해서 알아보겠습니다.
* * * *
“이 약을 맞은 동물들이 더 빨리 나았어요.”
“이런 농장에서 감염이 더 많이 발생했어요.”
우리는 이런 말을 자주 듣고, 어쩌면 자연스럽게 믿습니다. 하지만 그 말들이 어떤 대상을 관찰해서 만들어졌는지를 물어본 적은 드뭅니다.
“우리는 누구를 보고, 전체를 말하고 있는 걸까?”
예를 들어, 입양 후기들을 보면, 예전에 학대를 받았던 반려동물들이 오히려 더 순하고 사람을 잘 따른다는 이야기를 종종 듣습니다. 그래서 우리는 이렇게 생각하게 됩니다.
“아픈 경험을 한 동물들이 오히려 더 착해지더라.”
이런 말은 보호자의 실제 경험에서 나온 말입니다. 그리고 실제로 입양된 개체들 중 그런 사례는 분명 존재합니다. 그 관찰 자체는 틀리지 않습니다. 하지만 문제는, 그 관찰을 “왜 그런 결과가 나왔는가”라는 인과 추론의 근거로 삼을 때 시작됩니다.
예를 들어, “학대를 받은 동물은 더 순하다”는 결론을 일반화하거나, 그 데이터를 정책, 교육, 행동 기준으로 확장하려 할 때 그 순간부터는 선택된 일부 개체만을 보고 전체 구조를 해석하게 되는 바이어스가 개입됩니다.
왜냐하면, 우리가 보고 있는 그 동물들은 학대 이후에도 회복 가능성이 있었고, 사람과의 상호작용에 반응을 보였기 때문에 입양 시스템에 들어올 수 있었던 개체들이기 때문입니다. 반대로, 극심한 트라우마로 인해 공격성이나 회피 반응이 높아 입양 자체가 어려웠던 개체들은 애초에 이 데이터에 포함되지 않습니다.
즉, 관찰된 사실은 맞지만, 그것을 인과의 목적으로 해석하는 순간, 우리는 선택 바이어스의 전형적 함정에 빠질 수 있습니다.
이처럼 선택 바이어스는 “왜 그렇게 됐는가?”가 아니라, “누가 관찰되었는가?”라는 질문을 먼저 던져야만 그 인과를 바로잡을 수 있게 해줍니다.
가축 질병 사례에서도 비슷한 착각이 생길 수 있습니다. 예를 들어, 어떤 분석에서 차단방역 시설이 잘 갖춰진 농장에서 감염 사례가 더 많이 보고됐다면, 우리는 이렇게 생각할 수 있습니다.
“방역이 감염을 막는 데 효과가 없나 보다.”
하지만 정말 그럴까요? 그 데이터는, 감염을 인지하고 보고하거나 검사를 요청한 농장들로부터 들어졌습니다. 적극적으로 방역을 하는 농장일수록 감염에 민감하게 반응하고, 감시망 안으로 들어올 가능성이 더 높습니다. 반대로, 감염이 있어도 신고하지 않거나 감시 대상에 포함되지 않은 농장들은 애초에 데이터에 존재하지 않을 수 있습니다.
결국 우리는 “방역을 했는데도 감염됐다”는 게 아니라, “감염된 농장 중에서 방역을 잘 해온 농장들만 잘 관찰(보고)됐다”는 사실을 보고 있었을 수도 있습니다. 이것이 바로 선택 바이어스입니다. 보이는 결과를 원인처럼 받아들이는 순간, 인과는 거꾸로 뒤집히게 됩니다.
얼마 전, 동물병원 개업과 폐업 데이터를 함께 보여주는 데일리벳 기사를 인상 깊게 읽었습니다. 단순히 “몇 개가 있다”는 수치만이 아니라, 그 수치가 어떤 흐름 속에서 만들어졌는지를 함께 보여주고 있었기 때문입니다. 이런 구조적 시도는 우리가 자주 빠지는 함정을 피하게 해줍니다.
예를 들어, 한 지역에 동물병원이 5개 있다고 가정해봅시다. 이 숫자만 보면 이렇게 생각할 수도 있습니다.
“다른 지역은 10개 넘게 있는데 여긴 5개밖에 없네? 시장 여력이 있겠다.”
실제로 인구 분포나 경제력, 반려동물 수까지 고려해 봐도 상대적으로 병원 수가 적어 보일 수 있습니다. 그럼 자연스럽게 이렇게 생각하겠죠.
“여긴 병원이 부족하니까, 새로 열면 되겠다.”
하지만 만약 이 지역이 최근 1~2년 사이 병원 10곳이 폐업한 지역이라면요? 예전에는 15개였지만 지금은 5개만 남은 상황이라면? 그 ‘적은 숫자’는 기회의 신호가 아니라, 경고의 결과일 수 있습니다. 그렇다면 우리는 이렇게 다시 물어야 합니다.
“이 숫자는 어디서부터 온 것인가?”
“무엇이 빠졌고, 무엇만 남아 있는가?”
우리는 보이는 병원만 보고, 사라진 병원들을 잊고 있었던 것일 수 있습니다.
이것이 바로 생존자 바이어스(survivorship bias)이라고 불리는 선택 바이어스의 대표적 사례입니다.
* * * *
감시 체계를 강화하거나, 임상 현장에서 더 많은 정보를 수집한다고 해도 체계적으로 만들어지는 이 오류가 사라지는 것은 아닙니다. 포착되지 않은 조건은 여전히 남고, 관찰되지 못한 집단은 여전히 비가시적인 채로 남습니다. 즉, 표본 수를 늘리더라도 이 바이어스를 줄일 수 없습니다.
이건 ①편에서 언급했듯, 바이어스는 통계적 우연이 아니라, 애초에 비교의 구조가 왜곡되어 있는 상태이기 때문입니다.
앞으로 우리가 마주치는 일상 속 장면들, 동물병원에서의 상담, 현장의 방역 결정, 그 안에 이런 선택 바이어스의 가능성이 있는지 한 번쯤 생각해보면 어떨까요?
“내가 생각한 인과성이, 과연 모든 대상에 적용이 될까?”
그런 질문을 한 번 더 던질 수 있다면, 상관성의 안개 사이에서 인과성을 조금 더 분명히 가늠해볼 수 있습니다.
[임준식 수의사의 그건 정말 그 때문일까] 다른 칼럼 보러 가기
