-
머신러닝, 다르게 표현하면 '데이터 분석'은 크게 1. 데이터 가공/변환 2. 모델 학습/예측 3. 평가 이렇게 3가지의 단계로 이뤄진다.
이때, 모델 학습을 할 때, 레이블링된 특정 값이 있고, 머신러닝이라고 하면 크게 분류/회귀가 가장 많이 사용되기도 하고, 다양하게 학습을 해볼 수 있는 것이다.
오늘은 분류 학습이 무엇인지를 간략하게 적어보고 다음 Step으로 넘어가려 한다.
먼저, 지도학습이란
- 어떤 Raw Data에 특정 값이 입력된(레이블링) 셋이 있고
- 이러한 명시적 답이 주어진 데이터셋이 있을 때, 학습을 하는 머신러닝 방식이다.
다양한 분류 머신러닝 알고리즘
- 베이즈 통계와 생성 모델을 기반한 나이브 베이즈(Naive Bayes)
- 독립 변수와 종속 변수의 선형 관계에 기반한 로지스틱 회귀(Logistic Regression)
(참고: 로지스틱 -> https://kdj1018.tistory.com/entry/Regression%ED%9A%8C%EA%B7%80%EC%9D%98-%EA%B8%B0%EB%B3%B8-%EA%B0%9C%EB%85%90)- 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신(Support Vector Machine)
(잠깐!! What is 최대 분류 마진 about? 이게 뭐꼬?
-> 답 요 있다!! 마진을 최대로 하는 선형 결정경계, 근데도 어렵네? 다음에 SVM 정리하면 그때 상세히 정리를 하려 한다.)
- 근접 거리를 기준으로 하는 최소 근접(Nearest Neighbor)알고리즘
- 심층 연결 기반의 신경망(Neural Network)
- 서로 다른(또는 같은) 머신러닝 알고리즘을 결합한 앙상블(Ensenble)
앙상블!!
- 분류에서 가장 각광 받는다.(높은 예측 성능)
- 서로 다른/같은 알고리즘을 단순 결합한 형태도 있지만, 배깅(Bagging)과 부스팅(Boosting)으로 나뉜다.
- 배깅의 대표: 랜덤 포레스트(Random Forest) -> 뛰어난 예측 성능, 빠른 수행 시간, 우연성
- 부스팅의 대표: 그래디언트 부스팅(Gradient Boosting) -> 뛰어난 예측 성능, But 수행 시간이 길다 -> 최적화 모델 튜닝이 어렵다.
- 부스팅의 경우, XgBoost(eXtra Gradient Boost)와 LightGBM 등 기존 그래디언트 부스팅의 예측 성능을 한 단계 발전시키면서도 수행 시간을 단축시킨 알고리즘들이 지속적으로 등장하면서, 정형 데이터의 분류 영역에서 가장 활용도가 높은 알고리즘으로 자리잡고 있다.
참고: 머신러닝 완벽 가이드
'데이터 분석 공부' 카테고리의 다른 글
알고리즘_코딩도장_비슷한 단어 찾아내기 (0) 2020.08.11 알고리즘_코딩도장_소수의 개수 구해보기 (0) 2020.08.10 <SQL> Programmers_DATETIME에서 DATE로 형 변환 (0) 2020.07.31 <SQL> Programmers_오랜 기간 보호한 동물(2) (0) 2020.07.31 <SQL> Programmers_중성화 여부 파악하기 (0) 2020.07.31