[기고] ‘이 고객은 진료비를 얼마나 쓸까’ 통계적으로 예측하기

고객분석 : 고객별 매출 예측하기


0
글자크기 설정
최대 작게
작게
보통
크게
최대 크게

장사꾼이 하는 ‘밑지고 판다’는 말은 세상의 3대 거짓말 가운데 하나라는 우스갯소리가 있습니다만, 생각해보면 정말 밑지고 파는 것 같은 물건들이 우리 주변에 널려 있습니다.

배달의민족이나 요기요 같은 배달서비스 앱은 최초 주문시 만원이 넘는 할인혜택을 제공합니다. 쿠팡이나 마켓컬리 같은 인터넷 쇼핑몰에서는 인기 상품을 수량 한정으로 100원에 판매하며 배송까지 무료로 해 주기도 하는데요.

소비자 입장에서는 이런 혜택이 반갑지만, 사실 회사 입장에서는 고객에게 제공한 혜택만큼의 비용을 지출하게 됩니다. 왜 전자상거래 회사들은 한 사람당 만원이 넘는 순손실을 감수하면서 이런 이벤트를 반복하는 걸까요?

*   *   *   *

# 100원 마케팅은 밑지고 파는 장사일까

온라인 전자상거래 업체들은 자사 서비스를 이용하는 고객 데이터를 잘 알고 있습니다. 어떤 쇼핑몰의 연간 고객 재방문율이 30%이고 고객당 평균 이익은 만원이라고 하겠습니다.

그럼 한 명의 고객을 새로 유치했을 때 첫 해에 10,000원의 이익이 발생하고, 그 다음 해의 이익 기대값은 3,000원, 그 다음해의 기대값은 900원, 그 다음해는 270원…  더이상 우리의 고객이 아니게 될 때까지 한 사람당 통계적으로 14,300원 정도의 이익을 기대할 수 있습니다.

따라서 신규 고객을 빠르게 모을 수만 있다면 13,000원 정도의 비용은 기꺼이 감수합니다. 기존 비즈니스만으로도 여전히 고객당 1,300원의 이익을 기대할 수 있고, 고객 수 자체가 많아지면 다른 비즈니스 영역으로의 확장을 통해 추가적인 이익모델을 만들 수도 있으니까요.

사실 잘 기획된 100원 마케팅은 통계적으로 전혀 밑지는 장사가 아닙니다.

하지만 신규 고객을 유치하는데 드는 비용이 한 명당 14,300원을 넘어가게 된다면 장기적으로 그 비즈니스는 지속가능하지 않습니다.

그래서 밑지고 파는 듯한 이런 마케팅에는 여러 가지 제약 조건이 붙기 마련입니다. 마케팅 수신 동의는 기본이고, ‘최초 주문’ 에만 할인 제공되거나, ‘수량 한정’으로 판매되는 식이죠.

이처럼 “어떤 소비자가 그 일생 동안 얼마만큼의 이익을 가져다주는가”를 돈으로 계산한 것을 CLV, 고객 생애가치(Customer Lifetime Value)라고 합니다.

현대 경영학에서 굉장히 널리 알려진 개념이며 대부분의 마케팅 전략은 궁극적으로 CLV 최대화를 목적으로 한다고 해도 과언이 아닙니다.

 

# 동물병원에서 개인화된 CLV를 활용할 수 있을까

고객 데이터 활용에 뛰어난 기업들은, 전체 고객의 평균 CLV를 측정하고 관리하는 데에서 한 발 더 나아갑니다.

CLV를 고객별로 모델링한다음 통해 생애가치가 높은 고객군에게는 차별화된 서비스를 제공하고, 생애가치가 낮은 고객군에게는 의도적으로 마케팅 비용을 줄여 전체적인 이익규모를 제고하는 고도의 마케팅 전략을 사용하기도 합니다.

하지만 동물병원에서 고객별 CLV를 측정하거나 전략적으로 활용하는 경우는 없습니다.

여러 가지 이유가 있는데, 우선 동물의료 서비스 자체가 가진 고유한 특성이 물건을 사고파는 전자상거래와는 다른 점이 많아서 지표 자체에 대한 이해나 활용에 대한 업계의 관심이 저조한 편입니다.

또한 CLV는 이익에 대한 지표이기 때문에 매출뿐만 아니라 사업자가 고객 획득을 위해 지출하는 비용을 알아야 하는데, 개인사업자로서 운용되는 동물병원 특성상 비용구조를 정확히 파악하기 어렵다는 현실적인 한계도 있습니다.

그렇다면 역시 동물병원은 지난 달 매출이 지지난 달에 비해 올랐는지 내렸는지만 확인하고, 원장님 머리 속에서 어림잡은 운영비용을 매출에서 빼 대략적인 이익규모를 산출해가며 주먹구구식으로 경영할 수밖에 없는 걸까요?

 

# CLV 대신 활용가능한 지표 : 고객별 기대 매출

동물병원의 비용구조는 원장님조차 100% 정확히 파악하기 어렵다는 현실을 받아들인다면, 경영학에서 말하는 CLV는 산출할 수 없습니다. 하지만 EMR 데이터로 파악 가능한 부분이 있는데 바로 각각의 고객이 발생시킨 (진료) 매출 패턴입니다.

데이터랩에서는 이 점에 착안해, RFM 모델과 고객별 CLV 산출 알고리즘을 결합해 동물병원 고객의 과거 결제 데이터로부터 미래의 재방문 확률과 기대 매출을 예측하는 모델을 작성했습니다.

RFM 모델에 대해서는 앞선 기고문인 [동물병원의 잠재적 우수고객과 이탈우려 고객 찾기]를 참조하세요.

이전에 [우리 병원 다음달 내원객 숫자 예측하기]에서도 간단한 모델링과 예측 분석을 수행했습니다만, 다수로 구성된 고객 그룹이 아니라 하나의 고객 단위로 특정한 지표를 예측하려면 수학적으로 훨씬 더 복잡한 모델이 필요한데요.

구체적인 수식은 생략하겠습니다. 여기서 사용한 예측 모델개별 고객별로 N번째 구매를 마치고 이탈할 확률과 평균 구매 금액에 대한 몇 가지 통계적 가정을 전제로 하고 있다는 점만 말씀드리겠습니다. 이러한 세부 모델들을 결합해 실제 데이터에 적합시켰을 때 오차가 가장 작은 (현실을 가장 잘 설명하는) 모델을 탐색하게 됩니다.

 

# 실제 동물병원 데이터로 예측한 고객 매출

J 동물병원의 3개월(2019년 10월~12월)간 고객 데이터를 추출해 앞의 2개월(훈련기간 : 10~11월) 데이터로 모델을 학습시키고, 뒤의 1개월(테스트기간 : 12월) 데이터는 모델이 예측한 값과 비교하려고 합니다.

우선 모델이 의도한 대로 작동하고 있는지 개별 데이터부터 살펴보겠습니다. 우리는 구매 횟수와 이탈 확률 분포를 고객별로 가정했기 때문에, 특정한 고객이 특정한 미래의 어느 시점에도 여전히 우리의 고객일(=생존하고 있을) 확률을 산출할 수 있습니다.

위 그래프는 데이터셋에서 임의의 한 고객을 추출해 시간대별 생존 확률을 나타낸 것입니다.

X축은 시간대, Y축은 이 고객이 생존했을(=J 동물병원의 고객일) 확률을 나타냅니다. 파란 선은 모델이 추론한 확률의 변동, 빨간 색 점선은 해당 고객이 구매를 발생시킨 시점입니다.

이 고객은 2019년 10월에 집중적으로 내원하고, 11월에 1번 결제한 이력이 있습니다. 모델은 기본적으로 마지막으로 내원(구매)한 시점으로부터 멀어질수록 생존확률이 낮아질 것으로 추론하며, 고객의 재구매가 발생할 때마다 생존확률을 갱신하는데요.

내원의 집중도가 높았던 10월 하순에 이 고객의 생존확률을 99%로 평가하고, 최종 내원일인 11월 하순 이후로 시간이 지날수록 생존확률을 낮게 평가한 모습을 확인할 수 있습니다. 예측 기간의 말일인 12월 31일에 여전히 이 고객이 생존해 J 동물병원의 유효고객일 확률은 약 30%까지 내려가네요.

일단 모델이 엉뚱한 방식으로 작동하진 않는 것 같습니다. 그렇다면 이러한 고객별 예측이 전체적으로는 얼마나 잘 들어맞았는지도 확인해볼 필요가 있겠죠.

앞서 산출된 고객별 생존 확률 추이를 기반으로, 지정한 미래의 특정 기간 (여기서는 12월) 중에 고객이 나타낼 구매 빈도를 예측할 수 있습니다.

위 그래프는 실제 데이터(파란색)와 모델의 예측값(주황색) 분포를 비교한 결과입니다.

상단 그래프는 테스트 기간(12월) 중 고객수(Y축)를 고객의 구매횟수(X축)별로 나타내고 있습니다.

중단 그래프는 전체 기간 (10월~12월) 중 시간의 흐름(X축)에 따른 일별 결제건수(Y축)를, 하단 그래프는 동기간 누적 결제 횟수(Y축)를 나타냅니다. 중단과 하단 그래프의 빨간색 점선은 훈련 데이터셋과 테스트 데이터셋을 나눈 기준점입니다.

모델이 어느 정도 안정적인 예측성능을 나타내고 있음을 확인할 수 있습니다.

미래 특정 시점까지의 생존확률 및 생존기간 중 예측 구매횟수(RFM 모델의 RF에 해당)에 평균 구매금액(RFM모델의 M에 해당)을 곱하면 예측 매출이 고객별로 산출됩니다.

아래 표에서 익명화된 일부 고객의 과거(훈련기간) RFM, 모델이 예측한 미래(테스트기간)의 예측된 구매횟수/객단가 및 매출수준을 확인할 수 있습니다.

60번, 18번, 16번 고객 모두 과거 데이터의 RFM은 제각각이지만 2019년 12월엔 66만원 정도의 매출을 발생시킬것으로 예상됩니다.

본 사례에서 전체적인 예측치와 실제값 사이의 평균제곱오차(MSE)를 구하면 구매횟수는 0.255, 객단가는 6026062.249로 나타납니다. 데이터포인트(고객)별로 구매횟수는 0.5회, 객단가는 2500원 정도 오차가 나타난다는 뜻입니다.

아직 더 넓은 기간과 많은 병원을 대상으로 모델의 유효성과 안정성을 검증해야 하지만, 적용범위가 넓어지더라도 활용하지 못할 수준의 성능이 나타나진 않을 것으로 예상하고 있습니다.

 

# 고객별 예측 매출을 어떻게 활용해야 할까

고객별 매출 예측 모델은 아이엠디티에서 개발중인 EMR 차트에 탑재할 것을 염두에 두고 있습니다.

단순한 과거 경영 실적 지표 확인을 넘어, 선제적인 마케팅 전략 수립이나 합리적인 고객 관계 관리를 통한 병원 전체의 경영 효율화에도 데이터과학과 인공지능 기술이 기여할 수 있을 것으로 기대합니다.

다만, 동물병원은 단순한 상행위를 하는 곳이 아닌 만큼 “의료진이 개별 고객의 미래 매출 예측치를 알고 있는 상태에서 진료를 수행하는 것이 반드시 좋은 영향을 미칠 것인가”에 대한 기술윤리적인 고민도 있습니다.

원래 의도와는 달리, 모델이 예측한 매출이 현업에서 보호자의 경제적 수준에 따라 차별적인 진료를 수행할 근거로 작용할 가능성도 있으니까요.

이러한 기술적 부작용을 최소화하고, 모델의 활용성은 높이는 방식으로 인공지능 기술을 EMR 차트에 녹여낼 기획을 준비하고 있습니다. 장래에 더 많은 데이터와 더 나은 성능의 모델로 현업 수의사 선생님들과 함께할 수 있기를 바랍니다.

*아이엠디티 데이터랩(iamdt d.LAB)은 벳아너스 얼라이언스의 EMR 데이터와 각종 통계 데이터를 바탕으로 동물병원 경영과 반려동물 산업에 도움이 되는 인사이트를 도출합니다(문의 hyde@iamdt.co.kr).

[기고] ‘이 고객은 진료비를 얼마나 쓸까’ 통계적으로 예측하기

Loading...
파일 업로드 중 ...