ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 생존분석(카플란 마이어, Kaplan-Meier Estimation)
    데이터 분석 공부 2021. 1. 16. 10:35

    생존분석이란?

    Censoring을 고려하여 Time to Event에 대해 분석을 하는 것을 말한다. 

    사건의 발생 확률을 알아보는 통계 분석 및 예측 기법 중 하나이다.

     

    생존분석에 존재하는 3가지 주요 개념

    1. 사건(Event): 분야에 따라 사건의 정의가 달라지며, 사망, 이탈 등이 사건에 해당한다.

    2. 시간(Time): 대상을 관찰하기 시작한 시점으로부터 경과한 시간을 의미한다.

    3. 중도절단(Censored): 생존분석에서 손실된 데이터를 처리하기 위해 도입된 개념이고 Right Censored와 Left Censored로 구분이 된다.

    Right Censored: 특정 사건이 발생한 시점이 특정 시기(서비스 프로모션이 끝난 시기)이후인 경우

    Left Censored: 특정 사건이 발생한 시점이 특정 시기(서비스 프로모션 기간)에 미치지 못한 경우

     

    위의 3가지 개념들을 통하여 생존 함수(Survival Function)과 위험 함수(Harzard Function)을 구할 수 있음

    생존함수: 특정 시기보다 더 오래 생존할 확률을 추정한다.

    위험함수: 특정 시기에 사건이 발생할 확률을 추정한다.

     

    만약 한 회사의 서비스의 홍보를 위한 프로모션을 사용한 유저가 A라고 가정을 한다면, 프로모션의 효과를 여러가지 방면에서 판단할 필요가 있다. 하나의 효과는 회사가 프로모션을 시작할 때, 설정한 구매전환을 액션을 보였는가 안보였는가를 볼 수 있다.

     

    "각 유저는 어떤 모습을 보이고, 이 유저는 서비스의 구매 관점에서 생존상태인지 이탈상태인지 판별하자"

     

    이때, 생존 분석의 접근성은 프로모션을 이용한 그룹 X,Y가 있다. 이때, 특정 서비스를 구매한 그룹은 X, 구매하지 않은 그룹을 Y라고 가정을 한다. 이 두 그룹에 대한 생존시간의 차이가 유의미한지를 확인하기 위해서는 T-test가 아닌, Censoring을 활용한다. 이는 중도탈락한 데이터라도 이 데이터가 있었던 시점까지의 정보는 활용한다는 의미이다. 즉, 생존분석은 중도절단된 자료의 부분적 정보까지 최대한 활용한다.

     

    기존 통계모형을 활용하지 않고, 생존분석을 이용하는 2가지 이유

    1. Time to event(어떤 사건이 발생하기까지 걸리는 시간)를 알자 -> 예시: 고객 이탈
    -> Time(시간)은 년도, 달, 주, 일이나 다른 시간적 개념을 활용

    2. Cenosring 데이터를 고려하자

    위의 2가지 이유를 충족시키기 위해서는 linear regression, t-test. logistic regression등의 다른 통계적 방법으로는 해결할 수 없다.

     

    생존 분석의 목적

    1. 특정 유저의 time to event를 예측하고자 할 때

    2. 둘 이상의 그룹을 비교하여 Time to event(생존예후)를 비교하고자 할 때

    3. 변수들의 Event(생존)에 미치는 변수 파악 및 비교

     

    최근 코로나19사태에서 생존분석이 고려될 수 있는 부분들

    1. 환자가 코로나19 증상을 보여주는 Time 찾기

    2. 어떤 연령그룹이 치사율이 더 높이보이는지 찾기

    3. 어떤 약품이 생존가능성을 높여주는지 찾기

    4. 성별이 생존기간에 중요한 변수로써 역할 하는지 알아보기

    5. 환자의 생존일에서 중앙값이 어딘지 찾기

    6. 환자의 생존에 영향을 미치는 변수 선별해내기

     

    또한,

    1. Cancer studies for patients survival time analyses.
    2. Sociology for “event-history analysis.”
    3. In Engineering for “failure-time analysis.”
    4. Time until product failure.
    5. Time until a warranty claim.
    6. Time until a process reaches a critical level.
    7. Time from initial sales contact to a sale.
    8. Time from employee hire to either termination or quit.
    9. Time from a salesperson hires to their first sale. 의 영역들에서도 활용이 된다.

    생존분석의 방법론

    1. Kaplan-Meier Estimation(Curve)

     생존 분석에서 사용되는 통계 기법이다. 비모수 통계를 이용하여 생존함수를 추정한다. 미국 통계학자 폴 마이어 에드워드 카플란에 의해 개발되었다(출처: 위키백과)

     

    비모수 통계:  통계학에서 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석법이다. 비모수적(Non-parametric), 비모수검정법 혹은 분포무관(Distribution-free)검정법이라고도 한다.(출처: 위키백과)

     

    카플란-마이어 생존분석은 관측된 생존 시간으로부터 생존확률을 추정하고, 관찰 시간에 따라서 사건이 발생한 시점에서의 사건 발생률을 계산하는 방법이다. 또한, 생존 분석 관련한 데이터를 시각화하고 요약하는데 최적의 방법인 것 같다.

     

    카플란-마이어 생존분석은 적은 표본에 대해서, 적용할 수 있는 장점이 있어서 범용성이 큰 면이 있다.

    전체 분석 기간 동안 사건(이탈 등)이 발생한 시점마다 생존율을 산출하여 누적생존율을 산출한다.(누적한계추정법이라고도 불린다.)

    사건의 관찰기간 순서대로 자료를 정렬한 뒤, 각 구간별로 관찰 대상 수 중 생존자수의 비율을 구간생존율 P(t)를 산출한다.

    관찰기간동안 1명이 사망한 경우, 구간생존율은 (n1)/n이 된다.

     

    P(t)(구간생존율): t시간까지의 생존자수/t시간까지의 관찰대상수

    S(t) = S(t-1)*P(t)

     

    생존확률 S(t)

     

     

Designed by Tistory.