ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 분류 학습이란?
    데이터 분석 공부 2020. 8. 9. 13:49

    머신러닝, 다르게 표현하면 '데이터 분석'은 크게 1. 데이터 가공/변환 2. 모델 학습/예측 3. 평가 이렇게 3가지의 단계로 이뤄진다.

    이때, 모델 학습을 할 때, 레이블링된 특정 값이 있고, 머신러닝이라고 하면 크게 분류/회귀가 가장 많이 사용되기도 하고, 다양하게 학습을 해볼 수 있는 것이다.

     

    오늘은 분류 학습이 무엇인지를 간략하게 적어보고 다음 Step으로 넘어가려 한다.

     

    먼저, 지도학습이란

    - 어떤 Raw Data에 특정 값이 입력된(레이블링) 셋이 있고

    - 이러한 명시적 답이 주어진 데이터셋이 있을 때, 학습을 하는 머신러닝 방식이다.

     

    다양한 분류 머신러닝 알고리즘

    - 베이즈 통계와 생성 모델을 기반한 나이브 베이즈(Naive Bayes)

    - 독립 변수와 종속 변수의 선형 관계에 기반한 로지스틱 회귀(Logistic Regression)
    (참고: 로지스틱 -> https://kdj1018.tistory.com/entry/Regression%ED%9A%8C%EA%B7%80%EC%9D%98-%EA%B8%B0%EB%B3%B8-%EA%B0%9C%EB%85%90)

    - 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신(Support Vector  Machine)

    (잠깐!! What is 최대 분류 마진 about? 이게 뭐꼬?

    -> 답 요 있다!! 마진 최대로 하는 선형 결정경계, 근데도 어렵네? 다음에 SVM 정리하면 그때 상세히 정리를 하려 한다.)

    - 근접 거리를 기준으로 하는 최소 근접(Nearest Neighbor)알고리즘

    - 심층 연결 기반의 신경망(Neural Network)

    - 서로 다른(또는 같은) 머신러닝 알고리즘을 결합한 앙상블(Ensenble)

     

    앙상블!!

    - 분류에서 가장 각광 받는다.(높은 예측 성능)

    - 서로 다른/같은 알고리즘을 단순 결합한 형태도 있지만, 배깅(Bagging)과 부스팅(Boosting)으로 나뉜다.

    - 배깅의 대표: 랜덤 포레스트(Random Forest) -> 뛰어난 예측 성능, 빠른 수행 시간, 우연성

    - 부스팅의 대표: 그래디언트 부스팅(Gradient Boosting) -> 뛰어난 예측 성능, But 수행 시간이 길다 -> 최적화 모델 튜닝이 어렵다.

    - 부스팅의 경우, XgBoost(eXtra Gradient Boost)와 LightGBM 등 기존 그래디언트 부스팅의 예측 성능을 한 단계 발전시키면서도 수행 시간을 단축시킨 알고리즘들이 지속적으로 등장하면서, 정형 데이터의 분류 영역에서 가장 활용도가 높은 알고리즘으로 자리잡고 있다.

     

     

     

    참고: 머신러닝 완벽 가이드

     

     

Designed by Tistory.