파이썬
-
생존분석(카플란 마이어, Kaplan-Meier Estimation)데이터 분석 공부 2021. 1. 16. 10:35
생존분석이란? Censoring을 고려하여 Time to Event에 대해 분석을 하는 것을 말한다. 사건의 발생 확률을 알아보는 통계 분석 및 예측 기법 중 하나이다. 생존분석에 존재하는 3가지 주요 개념 1. 사건(Event): 분야에 따라 사건의 정의가 달라지며, 사망, 이탈 등이 사건에 해당한다. 2. 시간(Time): 대상을 관찰하기 시작한 시점으로부터 경과한 시간을 의미한다. 3. 중도절단(Censored): 생존분석에서 손실된 데이터를 처리하기 위해 도입된 개념이고 Right Censored와 Left Censored로 구분이 된다. Right Censored: 특정 사건이 발생한 시점이 특정 시기(서비스 프로모션이 끝난 시기)이후인 경우 Left Censored: 특정 사건이 발생한 시점이..
-
Simple Linear Regression에 대한 탐구데이터 분석 공부 2020. 9. 10. 01:17
머신러닝에 대한 기본적인 모델들을 공부할 때, 기본적인 것들 중에서 Simple Linear Regression을 마주할 수 있다. 그래서 오늘은 Regression, 즉 회귀가 무엇인지에 대한 글을 쓰려고 한다. 1. Regression이 뭐야? 통계학적으로는 ouput variable과 input variable간의 관계를 측정하는 기준으로써 정의됐다. 그리고, Linear Regression, 선형 회귀는 이전과 이후 사건의 선형 관계를 알고자 하는 방법이다.input 변수들의 갯수에 따라서 선형 회귀는 Simple Linear Regression(1개의 input), Multiple linear regression(다수의 input)으로 나뉜다. 2. 표현식 input 변수를 보통 x, outpu..
-
[Python] Dafit(다핏)에서 받은 커머스 데이터 전처리데이터 분석 공부 2020. 5. 23. 12:02
몸풀기용으로 Raw Data하나 받아서 내 마음 가는대로 전처리 해보기 다음 게시물은 조금 어려운 작업도 추가해서 올려야지 ㅇㅇ 나는 개인적으로 display로 데이터 정보를 한 눈에 보는걸 선호한다. Cell마다 코드 넣고 결과보는거 나에게는 넘나 귀찮은것;; For문 써서 좀 쉽게 바꿔 보려 했는데, 특정 컬럼에 있던 이상치를 확인 안해서, 수작업으로 데이터 처리했지만, 이러한 작업 전에 결측치, 이상치를 먼저 잘 잡아내는게 중요하다. 똑바로 해야 Gui~~ 사실 처음 데이터 정리할 때는, 무언가 엄청난 노동이 들어가지는 않는다. 다만, Business Needs에 따라 데이터를 수정할 때, Which Logic을 써야할지에 대해서는 고민을 해야쥐 이제 슬슬 통계와 머신러닝, 클라우드 좀 공부하려 하..
-
Python, Warnings을 왜 활용하는가?데이터 분석 공부 2020. 4. 5. 23:45
캐글에서 코로나 바이러스 데이터 전처리를 하기 위해 코딩을 하는데, 문득 warnings에 대해 정리하고 싶어서 써본다. Jupyter notebook에서 데이터 코딩을 하다보면 버전이 올라갈 때마다 어떤 부분의 변경이 되어야 한다는 사항을 알려주는 경고 메시지(warnings message)가 뜨는 경우가 있다. 이게 빨간색인데 생각보다 거슬린다. 왠지 내가 코딩을 잘못한건가 싶기도 하고.... 그래서 해결책을 가져왔지!!! 짜잔!!! 1. warnings.filterwarnings(action = 'ignore') => 경고 메시지를 무시하고 숨긴다. 2. Warnings.filterwarnings(action = 'default') => 숨기기했던 경고 메시지를 다시 보이게 한다. 그럼 이만, By..
-
<Kaggle참고> 코로나 바이러스 분석 및 시각화(1)데이터 분석 공부 2020. 4. 1. 00:56
코딩을 하기 앞서 https://www.kaggle.com/therealcyberlord/coronavirus-covid-19-visualization-prediction에서 사용한 패키지에 대해서 정리를 하는 것이 필요할 듯 하다. 1. import numpy as np NumPy("넘파이"라 읽는다)는 행렬이나 일반적으로 대규모 다차원 배열을 쉽게 처리 할 수 있도록 지원하는 파이썬의 라이브러리이다. NumPy는 데이터 구조 외에도 수치 계산을 위해 효율적으로 구현된 기능을 제공한다.(출처: 위키백과) => 간단하게 설명하면, 데이터 분석을 포함하여 수학과 과학연산을 위한 파이썬 기본 패키지이다. 왜 사용을 하는가? => 첫째, 효율적인 N-차원 배열 객체를 사용할 수 있다. 이를 통해, 메모리를 효..
-
Python map() 함수란 무엇인가?데이터 분석 공부 2020. 3. 5. 19:29
코로나 바이러스 데이터 처리하는 코드짜다가, map함수를 썼는데, 그냥 좀 헷갈리는 부분을 정리하려고 데이터 분석 카테고리에 첫 글을 작성한다. python map() lambda 표현식에서 조건부 표현식을 사용해봤다. - lambda 매개변수들 : 식1 if 조건식 else 식2 map은 df_patient['birth_year']의 요소들을 각각 처리하므로 lambda의 반환값도 요소로 볼 수 있다. df_patient['birth_year']의 요소들을 val변수로 지칭을 해주고, 이 값이 0보다 크면 val값을 유지해주고, 아니면 nan값을 기입해준다. 람다 표현식 안에서 조건부 표현식 if, else를 사용할 때, 콜론을 사용하지 않는다. 이것은 일반적인 조건문 표현방식과 차이점이기 때문에, 유..