일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 평가지표
- 로지스틱
- 빅데이터분석학회
- 머신러닝
- 엔트로피
- 선형회귀
- Machine Learning
- 데이터사이언스
- AutoML
- 논문리뷰
- 부스팅
- skld
- BDA
- 의사결정트리
- 가지치기
- BDA학회
- confusion_matrix
- OLS
- 랜덤포레스트
- dl
- distillm
- 지니계수
- 규제
- DT
- adaboost
- 한국산업경영시스템학회
- AAAI
- 에이다부스트
- 로짓
- ML
- Today
- Total
목록전체 글 (24)
데이터 사이언스 공부할래

DT 모델의 하이퍼파라미터를 알아보고, iris 데이터를 활용하여 DT 모델을 실습해본다. DT 모델 하이퍼파라미터criterion 분할 품질을 측정하는 기능분류 (DecisionTreeClassifier): "gini" (기본값), "entropy" 회귀 (DecisionTreeRegressor): "squared_error" (기본값), "friedman_mse", "absolute_error", "poisson" splitter 각 노드에서 분할을 선택하는 전략"best" (기본값): 최적의 분할을 선택 "random": 무작위 분할을 선택 max_depth 트리의 최대 깊이로, 깊이가 깊으면 모델이 과적합될 수 있다.기본값: None (노드가 순수해질 때까지 또는 min_samples_split..

Decision Tree의 정의와 ML에서의 엔트로피와 지니계수 개념을 알아본다. Decision Treetree 구조를 활용하여 entropy가 최소화되는 방향으로 데이터를 분류하거나 원하는 어떤 결과값을 예측하는 분석 방법 루트노드(Root Node) : 나무가 시작되는 노드자식노드(Child Node) : 상위의 노드에서 분리된 하위 노드부모노드(Parent Node) : 자식 노드의 상위 노드중간노드(Internal Node) : 나무 중간에 위치한 노드로 루트노드 또는 최하위 노드가 아닌 모든 노드가지(Branch) : 하나의 노드로부터 잎사귀 노드까지 연결된 일련의 노드들잎사귀 노드, 끝노드(Leaf Node, Terminal Node) : 각 가지 끝에 위치한 노드순수노드(Pure Node)..
타이타닉 데이터와 BMI 데이터를 활용하여 하이퍼파라미터를 조정해보며, 로지스틱 회귀를 실습해본다. 로지스틱 회귀 주요 하이퍼파라미터 penalty: 사용될 규제(regularization) 유형을 지정하며, 기본값은 'l2'이다.'l1': L1 규제(Lasso), 'l2': L2 규제(Ridge), 'elasticnet': L1과 L2의 결합, 'none': 규제 없음 dual: 듀얼 형식을 사용할지 여부를 지정하며, 기본값은 False이고, 주로 샘플 수가 특성 수보다 많은 경우에 False로 설정한다. tol: 종료 기준을 설정하는 데 사용되는 허용 오차로, 기본값은 1e-4이다. C: 규제 강도를 설정하며, 값이 작을수록 강한 규제를 의미하고, 기본값은 1.0이다. fit_intercept: 절편..

로지스틱 회귀, 오즈값, 시그모이드 함수에 대해 알아본다. 로지스틱 회귀선형회귀분석과 유사하지만 종속변수가 양적척도가 아닌 질적척도이다.특정 수치를 예측하는 것이 아닌 어떤 카테고리에 들어갈지 분류하는 모델로, 기본 모형은 종속변수가 0과 1이라는 이항으로 이루어진다. (ex. 구매/미구매, 성공/실패) 선형회귀의 사상은 그대로 유지하되 종속변수가 1이 될 확률로 변환되고, 그 확률에 따라 0과 1의 여부를 예측한다.이를 위해서는 오즈(Odds)와 로짓변환을 이용한다. (S자 커브로 변하는 것을 오즈, 로짓변환으로 표현한다.)확률을 표현하기 위해서는 선형회귀가 아닌 S자 모형으로 변환한다. 오즈값 (Odds Ratio)오즈는 사건이 발생할 가능성이 사건이 발생하지 않을 가능성보다 어느정도 큰지 나타내..

라쏘 회귀(L1 Regularization), 릿지 회귀(L2 Regularization)에 대해 알아본다. 회귀분석의 성능을 평가할 때, 대부분 실제값과 예측값의 차이를 가지고 평가한다.둘의 관계만을 확인하면, 회귀계수에 대해 과적합이 일어날 수 있다. Regularization최적 모델을 위한 비용함수의 구성요소 : 학습데이터 잔차 오류 최소화(RSS 선형회귀의 비용함수 개념) + 회귀계수 크기 제어(규제를 통해 과적합 현상을 낮추고, 일반화할 수 있도록 진행 회귀 계수를 규제)비용 함수의 목표 : $ Min(RSS(W)+\alpha \ast \begin{Vmatrix}W\end{Vmatrix}$ 가중치 규제모델의 손실 함수 값이 너무 작아지지 않도록 특정한 값(함수) 추가Weight 값이 과도하게..