반려동물 방사선 사진 60만장 모아 빅데이터 만든다

디지털 뉴딜 AI 학습용 데이터 구축에 포함..’동물의료영상을 일반 이미지 취급’ 문제 지적도

등록 : 2021.04.07 11:52:32   수정 : 2021.04.07 11:52:50 윤상준 기자 ysj@dailyvet.co.kr

반려동물 의료분야에도 빅데이터 정책연구과제가 등장했다. 개·고양이의 흉·복부·근골격계 방사선 사진 60만장을 인공지능(AI) 학습이 가능한 데이터로 만드는 사업이다.

불모지였던 국내 반려동물 의료 빅데이터 분야에 기반을 구축하려는 움직임은 환영할만 하지만, 연구과제가 헬스케어가 아닌 일반 영상 이미지 데이터 사업으로 분류돼 첫 단추를 잘못 끼울 수 있다는 우려도 나온다.

과학기술정보통신부는 지난달 반려동물 질병진단을 위한 영상 데이터 구축을 포함한 ‘인공지능 학습용 데이터 사업’ 공모를 발표했다.

반려동물 질병 진단을 위한 영상 데이터 구축사업
RFP에서 제시한 방사선 사진 예시

디지털 뉴딜에 반려동물 의료영상 데이터 구축 포함

·복부·근골격계 방사선 영상 60만장 빅데이터 만든다

문재인 정부 디지털 뉴딜의 일환으로 진행되는 이번 사업은 음성, 영상, 헬스케어, 교통·물류 등 6대 핵심분야에서 150종의 데이터를 구축하기 위해 마련됐다. 92개 컨소시엄을 구축사업자로 선정해 올해 말까지 2,925억원을 투입하는 대형 국책연구사업이다.

데이터는 AI 개발의 필수조건이다. 대량의 가공된 데이터를 분석·학습하는 과정 속에서 양질의 AI가 개발된다. 알파고는 축적된 기보의 토대 위에서 탄생할 수 있었다.

하지만 개별기업이 양질의 데이터를 대량으로 수집·가공하는 과정부터 나서기는 부담이다. 빅데이터를 만들기 위해 대량의 반복 수작업이 요구되기 때문이다. 시간과 비용 문제가 걸림돌이다.

정부는 2025년까지 인공지는 학습에 필요한 데이터 1,300종을 확보해 AI허브로 개방하는 것을 목표로 데이터 구축을 추진하고 있다. 인공지능이 학습할 데이터 세트를 만들겠다는 것이다. 지난해까지 191종의 데이터를 구축한데 이어 올해 150종을 추가할 계획이다.

여기에는 반려동물 의료분야가 처음으로 포함됐다. 올해 ‘반려동물 질병진단을 위한 영상 데이터’ 구축에 38억원이 투입된다.

복부, 흉부, 근골격계 등 3종의 정상 및 질병 관련 방사선 영상 데이터를 만드는 내용이다.

이를 위해 수집해야 하는 방사선 영상은 최소 60만장 이상이다. 다빈도 복부질환 10종, 흉부질환 5종, 근골격계질환 5종의 반려동물 환자 9천마리 이상을 포함한다. 전체 영상에서 질환 영상이 차지하는 비중이 30% 이상이어야 한다.

이미지는 동물병원별 PACS를 통해 수집하고, 이미지별로 2인 이상의 수의사가 질환과 촬영부위를 평가해야 한다.

아울러 종, 품종, 연령, 성별, BCS, 질환명 등 메타데이터와 질병 영상별 전자의무기록이 요구된다. 개인정보와 민감정보는 비식별화 처리한다.

오는 16일까지 공모를 마감한 후 다음 달에 사업자를 선정, 올해 말까지 데이터 구축을 완료한다는 목표다.

 

일반인 크라우드소싱 활용할수록 방사선 판독 데이터 만들기에 적합하다?

헬스케어 아닌 일반 이미지 판독 취급 지적

반려동물 의료의 빅데이터, 인공지능 기반은 아직 불모지다. 반려동물의 영상판독 AI를 개발하려면 일단 영상 빅데이터부터 필요하다.

개발된 인공지능이 상용화되는 과정에서 보호자의 자가진료를 조장하거나 수의사 진료권을 위협하는 등 부작용 가능성이 있다는 점은 별론으로 하더라도, 4차산업혁명 시대에 신뢰할 수 있는 데이터 기반의 필요성을 간과할 수는 없다.

때문에 정부의 데이터 댐 구축사업에 반려동물 의료가 포함된 것에도 나름의 의미가 있다.

하지만 동물의료 분야의 데이터 개발을 사람의료와 달리 보는 시각은 문제라는 지적도 나온다.

2021 인공지능 학습용 데이터구축 지원사업 수행기관 선정 평가기준 중 일자리 분야 기준.
반려동물 질병 진단을 위한 영상 데이터 구축사업은 비수의사에게 맡길 수 없는 일임에도 불구하고 헬스케어 기준을 적용받지 못해, 일반인 크라우드소싱이 많을수록 유리한 구조다.

이번 ‘반려동물 질병진단을 위한 영상 데이터’ 구축사업은 ▲음성·자연어 ▲비전 ▲헬스케어 ▲교통·물류 ▲농축수산 ▲재난·안전·환경 등 6대 과제 중 ‘헬스케어’가 아닌 ‘비전’으로 분류됐다.

비전은 신체 동작 데이터, 추상 이미지 데이터, 형상 추정 데이터 등 일반적인 이미지를 다루는 분야다. 반면 헬스케어는 심장질환 심초음파 및 심전도 데이터, 뇌 영상 데이터 등 의료분야에 초점을 맞추고 있다.

둘은 사업자 선정 기준도 다르다. 특히 정부가 코로나19 위기의 일자리 창출에 무게를 두면서 크라우드 소싱을 장려한다는 점에서 차이를 보인다.

헬스케어가 아닌 분야의 데이터 사업은 데이터 구축 과정에서 국민 누구나 참여하는 크라우드 소싱을 적극 활용하는 사업자가 선정에 유리한 구조다. 데이터를 라벨링하는 수작업에 청년 취업준비생, 경력단절여성, 은퇴자 등을 고용하라는 취지다.

반면 헬스케어 분야 사업은 의료의 특수성을 감안해 크라우드 소싱의 비중을 낮췄다.

반려동물의 방사선 영상을 판독하고 라벨링하는 일은 비(非)수의사에게 맡길 수 없다는 점에서 후자가 더 적합하지만, 실제로는 전자의 기준이 적용된다.

이미지 판독 담당자의 자격기준을 수의사로만 규정한 것도 다른 점이다.

이번에 함께 공고된 ‘소아청소년 피부질환 이미지 데이터’ 구축 사업의 경우 최소 2인 이상의 전문의가 교차판독하고 병리학적 검사를 통해 확진된 피부영상 데이터에 임상정보를 라벨링할 것을 요구하고 있다.

아직 국내에 수의영상의학전문의 제도는 없긴 하지만, 데이터 60만장의 품질을 담보하려면 수의과대학원 영상의학 전공 학위자 수준의 자격을 요구해야 한다는 지적이 나오는 이유다.

한 업계 관계자는 “반려동물 분야에 빅데이터를 구축한다는 것 자체는 바람직하고 필요한 일”이라면서도 “헬스케어 분야로 지정되지 않은 이유를 모르겠다”고 꼬집었다.

일자리 창출에만 무게를 두다가 데이터 자체의 품질이 의심받게 될 수 있다는 것이다.

또다른 관계자는 “60만장의 데이터는 제대로 라벨링하려면 전국 수의과대학과 대형 병원이 적극적으로 협력해야 하는 규모”라며 “사업기간이 6개월뿐인데다 선정 기준을 보면 좋은 데이터보단 단기간의 일자리 창출에 방점을 찍은 것 아닌가 우려된다”고 지적했다.