
캘리포니아 집값 데이터를 활용하여 선형회귀 가정을 확인하고, 이상치를 제거하면서 주택 가격을 예측해본다. 선형회귀 가정 확인import numpy as npimport pandas as pdimport statsmodels.api as smimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy import statsfrom sklearn.datasets import fetch_california_housingfrom scipy.stats import shapirofrom statsmodels.stats.stattools import durbin_watson 캘리포니아 집값 데이터셋으로 선형회귀를 진행한다.# 캘리포니아 주택 데이터셋 로드califo..

선형회귀에 대한 개념을 알아보고, 회귀분석 실습을 통해 잔차가설을 확인해본다. 선형회귀종속 변수 Y와 한 개 이상의 설명 변수 X와의 선형 상관 관계를 모델링하는 회귀분석 기법으로, 한 개의 설명 변수에 기반한 경우 단순 선형 회귀, 둘 이상의 설명 변수에 기반한 경우에는 다중 선형 회귀라고 한다. 선형회귀 기본 가정선형성 (Linearity)설명변수 X와 반응변수 Y 사이에 존재하는 관련성은 X=x의 값에서 Y의 기댓값을 $E(Y|X = x) = B_{0} + B_{1}x$ 해당 선형식 회귀 계수에 대한 선형식 둘의 선형관계가 지속적이어야 한다. 독립성 (Independence)오차항은 다른 값에 영향을 주지 않으며, 오차항은 서로 독립적이어야 한다.- 시간의 순서에 따라 Durbin-Waston 통..

Online Retail 데이터를 활용하여 RFM 분석을 실습해본다. RFM 분석고객 분석을 위한 피처인 R, F, M 피처를 가지고 고객을 이해하고, 분석하는 방법론이다.R(Recency) : 고객 중 가장 최근 구매한 상품 구입일과 현재까지의 기간F(Frequency) : 상품 구매 횟수, 주문 횟수M(Monetary) : 고객의 총 주문 금액 분류 기준, 도메인에 따라 분석 결과가 변할 수 있다.RFM 피처 외에 쿠폰에 대한 사용, 고객의 불만율, 고객의 다양한 제품 구매, 고객의 지속기간, 손익 등을 피철로 추가하여 분석하는 것도 가능하다.retail_df=pd.read_excel(io='online_retail_II.xlsx')retail_sp=retail_df[0:10000] RFM 피처를 ..

K-means 클러스터링에 대해 알아보고, Mall_Customers 데이터를 활용하여 군집화와 군집 평가를 실습해본다. K-means 클러스터링 데이터를 k개의 클러스터로 묶는 비지도학습의 일종으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작하는 알고리즘이다. 레이블이 달려 있지 않은 입력 데이터에 레이블을 추가하는 역할을 수행할 수 있다. Objective function$$ J = \sum_{j=1}^{k}\sum_{i=1}^{n}{\left\|x_{i}^{(j)}-c_{j}\right\|}^2$$$k$ : number of clusters$n$ : number of cases$x_{i}$ : case $i$$c_{j}$ : centroid for cluster $j$ 장점알고..

KNN 알고리즘에 대해 알아보고, 실습을 통해 KNN 알고리즘의 파라미터, 최적의 k를 찾아본다. KNN(K-Nearest Neighbors)KNN은 데이터로부터 가까운 거리에 있는 k개의 다른 데이터에 의한 결과로 예측하는 알고리즘을 말한다.회귀 문제와 분류 문제 모두 해결 가능한 Memory-based learning이다. k 결정 과정너무 큰 k를 선택하면, 미세한 경계부분의 분류 정확도가 떨어지게 되며,너무 작은 k를 선택하면, 과적합이 될 가능성이 생기며, 이상치의 영향을 크게 받고, 패턴이 직관적이지 못한다. Majority voting데이터의 갯수가 균일하지 않다면, 거리에 반비례하는 Weight를 주어 편향성의 영향을 줄일 수 있다. 종속변수범주형 변수KNN 중 가장 많이 나타나는 범주로 ..

임계값 변화에 따른 정밀도, 재현율 변화를 확인해보고, 정밀도와 재현율의 관계, F1 score에 대해 알아본다.임계값 변화에 따른 평가지표 값의 변화 확인타이타닉 데이터셋을 활용하여 평가지표를 확인해본다.import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scoreimport seaborn as snsimport numpy as npfrom sklearn.linear_model import LogisticRegressionfrom sklearn.metrics import accuracy_score, precision_score, recall_score, confu..

머신러닝 모델의 평가지표를 알아보고, 교차검증 평가지표를 코드로 구현해본다.평가지표란?모델에 의해 예측된 값이 실제 값과 비교하였을 때의 오차를 구하는 과정이다. 머신러닝 모델의 성능을 평가하는 지표는 크게 회귀 문제와 분류 문제로 나뉠 수 있다.문제 종류목표 변수모델평가지표회귀(Prediction)연속형선형 회귀MSE, MAE, MAPE 등분류(Classification)범주형로지스틱, SVM정확도, 정밀도, 재현율, F1 점수 회귀 문제의 평가지표Mean Squared Error(MSE, 평균 제곱 오차)실제 값과 예측 값의 차이를 제곱하여 평균을 낸 지표로, 값이 작을수록 모델의 성능이 좋다고 판단된다. Mean Absolute Error(MAE, 평균 절대 오차)실제 값과 예측 값의 차이의 절댓값..

데이터셋의 구분과 교차검증 알고리즘에 대해 알아보고, Iris 데이터셋을 활용하여 이를 구현해본다.Train/Test/Validation DatasetTrain Data : 모델 학습하는 과정에서 파라미터 값을 산축하는 과정에서 사용하는 데이터Test Data : 학습한 모델의 성능을 평가하기 위해 사용하는 데이터Validation Data : 모델이 과적합되는지를 확인하기 위해 사용하는 데이터 데이터를 나누는 이유?모델을 일반화시키기 위한 방법으로, 과적합을 막을 수 있다. OverfittingML 모델이 훈련 데이터를 지나치게 학습한 상태로, 새로운 데이터에 대한 예측이 어렵다.훈련 데이터에 대한 성능은 높지만, 일반화된 데이터에 대해 성능이 떨어진다. Overfitting 원인모델 복잡도 : 모델이..
- Total
- Today
- Yesterday