분류 학습이란?

데이터 분석 공부 2020. 8. 9. 13:49

머신러닝, 다르게 표현하면 '데이터 분석'은 크게 1. 데이터 가공/변환 2. 모델 학습/예측 3. 평가 이렇게 3가지의 단계로 이뤄진다.

이때, 모델 학습을 할 때, 레이블링된 특정 값이 있고, 머신러닝이라고 하면 크게 분류/회귀가 가장 많이 사용되기도 하고, 다양하게 학습을 해볼 수 있는 것이다.

오늘은 분류 학습이 무엇인지를 간략하게 적어보고 다음 Step으로 넘어가려 한다.

먼저, 지도학습이란

- 어떤 Raw Data에 특정 값이 입력된(레이블링) 셋이 있고

- 이러한 명시적 답이 주어진 데이터셋이 있을 때, 학습을 하는 머신러닝 방식이다.

다양한 분류 머신러닝 알고리즘

- 베이즈 통계와 생성 모델을 기반한 나이브 베이즈(Naive Bayes)

- 독립 변수와 종속 변수의 선형 관계에 기반한 로지스틱 회귀(Logistic Regression)
(참고: 로지스틱 -> https://kdj1018.tistory.com/entry/Regression%ED%9A%8C%EA%B7%80%EC%9D%98-%EA%B8%B0%EB%B3%B8-%EA%B0%9C%EB%85%90)

- 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신(Support Vector Machine)

(잠깐!! What is 최대 분류 마진 about? 이게 뭐꼬?

-> 답 요 있다!! 마진을 최대로 하는 선형 결정경계, 근데도 어렵네? 다음에 SVM 정리하면 그때 상세히 정리를 하려 한다.)

- 근접 거리를 기준으로 하는 최소 근접(Nearest Neighbor)알고리즘

- 심층 연결 기반의 신경망(Neural Network)

- 서로 다른(또는 같은) 머신러닝 알고리즘을 결합한 앙상블(Ensenble)

앙상블!!

- 분류에서 가장 각광 받는다.(높은 예측 성능)

- 서로 다른/같은 알고리즘을 단순 결합한 형태도 있지만, 배깅(Bagging)과 부스팅(Boosting)으로 나뉜다.

- 배깅의 대표: 랜덤 포레스트(Random Forest) -> 뛰어난 예측 성능, 빠른 수행 시간, 우연성

- 부스팅의 대표: 그래디언트 부스팅(Gradient Boosting) -> 뛰어난 예측 성능, But 수행 시간이 길다 -> 최적화 모델 튜닝이 어렵다.

- 부스팅의 경우, XgBoost(eXtra Gradient Boost)와 LightGBM 등 기존 그래디언트 부스팅의 예측 성능을 한 단계 발전시키면서도 수행 시간을 단축시킨 알고리즘들이 지속적으로 등장하면서, 정형 데이터의 분류 영역에서 가장 활용도가 높은 알고리즘으로 자리잡고 있다.

참고: 머신러닝 완벽 가이드

'데이터 분석 공부' 카테고리의 다른 글

알고리즘_코딩도장_비슷한 단어 찾아내기 (0)	2020.08.11
알고리즘_코딩도장_소수의 개수 구해보기 (0)	2020.08.10
<SQL> Programmers_DATETIME에서 DATE로 형 변환 (0)	2020.07.31
<SQL> Programmers_오랜 기간 보호한 동물(2) (0)	2020.07.31
<SQL> Programmers_중성화 여부 파악하기 (0)	2020.07.31

ABOUT ME

경제랑 데이터 공부하는 두자이 경제랑 데이터 공부하는 두자이

'데이터 분석 공부' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'데이터 분석 공부' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바