일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- adaboost
- 의사결정트리
- 선형회귀
- 지니계수
- 가지치기
- BDA
- 규제
- confusion_matrix
- 부스팅
- 랜덤포레스트
- 한국산업경영시스템학회
- 논문리뷰
- DT
- 빅데이터분석학회
- skld
- 에이다부스트
- dl
- AAAI
- ML
- distillm
- AutoML
- 평가지표
- 엔트로피
- OLS
- 데이터사이언스
- BDA학회
- Machine Learning
- 머신러닝
- 로짓
- 로지스틱
- Today
- Total
목록분류 전체보기 (24)
데이터 사이언스 공부할래
랜덤 포레스트와 보팅 패키지의 하이퍼파라미터를 확인해보고, 실습해본다.RandomForest 하이퍼파라미터n_estimators: 결정 트리의 개수를 의미. 기본값은 100. 트리 수를 늘리면 성능이 향상되지만 계산 비용도 증가 criterion: 분할의 품질을 측정하는 기준. 분류에 사용되는 기준은 "gini"(지니 불순도) 또는 "entropy"(정보 이득). 기본값은 "gini" max_depth: 트리의 최대 깊이. 너무 깊은 트리는 과적합을 일으킬 수 있음. 기본값은 None, 리프 노드가 순수하거나 min_samples_split보다 적은 샘플을 가질 때까지 확장 min_samples_split: 노드를 분할하기 위해 필요한 최소 샘플 수. 기본값은 2 min_samples_leaf: 리프 ..

앙상블 학습, 부트스트랩 샘플링 개념에 대해 알아본다. 기존 의사결정트리는 하나의 트리구조, 규칙기반의 단일모델이기에 변동성이 크다는 문제를 가지고 있다. 이를 보완하기 위해 여러 개의 결정트리를 결합하여 예측 성능을 향상하고, 분류, 회귀 문제를 모두 사용할 수 있도록 한다. 앙상블 학습 앙상블 학습은 여러 개의 모델 또는 여러 개의 데이터 셋을 통합하여 모델을 만드는 방식으로, 크게 배깅, 부스팅, 스태킹 방법이 있다. 부트스트랩 샘플링(Bootstrap Sampling) 신뢰성을 높이기 위해 자주 사용하는 기법으로, 원본 데이터 셋에서 무작위로 데이터를 선택하여 새로운 샘플을 여러 번 생성하는 방법이다. 과정 안에서 중복을 허용한다는 점이 특징이다. 역할신뢰구간 및 표준 오차 추정 : 무작위 샘..

DT 모델의 하이퍼파라미터를 알아보고, iris 데이터를 활용하여 DT 모델을 실습해본다. DT 모델 하이퍼파라미터criterion 분할 품질을 측정하는 기능분류 (DecisionTreeClassifier): "gini" (기본값), "entropy" 회귀 (DecisionTreeRegressor): "squared_error" (기본값), "friedman_mse", "absolute_error", "poisson" splitter 각 노드에서 분할을 선택하는 전략"best" (기본값): 최적의 분할을 선택 "random": 무작위 분할을 선택 max_depth 트리의 최대 깊이로, 깊이가 깊으면 모델이 과적합될 수 있다.기본값: None (노드가 순수해질 때까지 또는 min_samples_split..

Decision Tree의 정의와 ML에서의 엔트로피와 지니계수 개념을 알아본다. Decision Treetree 구조를 활용하여 entropy가 최소화되는 방향으로 데이터를 분류하거나 원하는 어떤 결과값을 예측하는 분석 방법 루트노드(Root Node) : 나무가 시작되는 노드자식노드(Child Node) : 상위의 노드에서 분리된 하위 노드부모노드(Parent Node) : 자식 노드의 상위 노드중간노드(Internal Node) : 나무 중간에 위치한 노드로 루트노드 또는 최하위 노드가 아닌 모든 노드가지(Branch) : 하나의 노드로부터 잎사귀 노드까지 연결된 일련의 노드들잎사귀 노드, 끝노드(Leaf Node, Terminal Node) : 각 가지 끝에 위치한 노드순수노드(Pure Node)..
타이타닉 데이터와 BMI 데이터를 활용하여 하이퍼파라미터를 조정해보며, 로지스틱 회귀를 실습해본다. 로지스틱 회귀 주요 하이퍼파라미터 penalty: 사용될 규제(regularization) 유형을 지정하며, 기본값은 'l2'이다.'l1': L1 규제(Lasso), 'l2': L2 규제(Ridge), 'elasticnet': L1과 L2의 결합, 'none': 규제 없음 dual: 듀얼 형식을 사용할지 여부를 지정하며, 기본값은 False이고, 주로 샘플 수가 특성 수보다 많은 경우에 False로 설정한다. tol: 종료 기준을 설정하는 데 사용되는 허용 오차로, 기본값은 1e-4이다. C: 규제 강도를 설정하며, 값이 작을수록 강한 규제를 의미하고, 기본값은 1.0이다. fit_intercept: 절편..

로지스틱 회귀, 오즈값, 시그모이드 함수에 대해 알아본다. 로지스틱 회귀선형회귀분석과 유사하지만 종속변수가 양적척도가 아닌 질적척도이다.특정 수치를 예측하는 것이 아닌 어떤 카테고리에 들어갈지 분류하는 모델로, 기본 모형은 종속변수가 0과 1이라는 이항으로 이루어진다. (ex. 구매/미구매, 성공/실패) 선형회귀의 사상은 그대로 유지하되 종속변수가 1이 될 확률로 변환되고, 그 확률에 따라 0과 1의 여부를 예측한다.이를 위해서는 오즈(Odds)와 로짓변환을 이용한다. (S자 커브로 변하는 것을 오즈, 로짓변환으로 표현한다.)확률을 표현하기 위해서는 선형회귀가 아닌 S자 모형으로 변환한다. 오즈값 (Odds Ratio)오즈는 사건이 발생할 가능성이 사건이 발생하지 않을 가능성보다 어느정도 큰지 나타내..

라쏘 회귀(L1 Regularization), 릿지 회귀(L2 Regularization)에 대해 알아본다. 회귀분석의 성능을 평가할 때, 대부분 실제값과 예측값의 차이를 가지고 평가한다.둘의 관계만을 확인하면, 회귀계수에 대해 과적합이 일어날 수 있다. Regularization최적 모델을 위한 비용함수의 구성요소 : 학습데이터 잔차 오류 최소화(RSS 선형회귀의 비용함수 개념) + 회귀계수 크기 제어(규제를 통해 과적합 현상을 낮추고, 일반화할 수 있도록 진행 회귀 계수를 규제)비용 함수의 목표 : $ Min(RSS(W)+\alpha \ast \begin{Vmatrix}W\end{Vmatrix}$ 가중치 규제모델의 손실 함수 값이 너무 작아지지 않도록 특정한 값(함수) 추가Weight 값이 과도하게..

다항/다중회귀에 대해 알아보고, 캘리포니아 주택 데이터를 활용하여 선형/다항/다중회귀에 대한 OLS를 비교해본다. 다항회귀독립변수의 2차, 3차 방정식과 같은 다항식으로 표현하는 회귀 분석으로, 종속 변수와 독립 변수 간의 비선형 관계를 다항식 형태로 모델링하는 방법이다. 다항회귀는 과적합을 막기 위해 규제가 필요하다. (규제에 관해서는 다음 주차에서 다룬다.) 다항회귀는 비선형회귀가 이닌, 선형회귀이다. 회귀에서 선형과 비선형 회귀를 나누는 기준은 회귀 계수가 선형과 비선형인지에 따라 다른 것이며, 독립변수의 선형과 비선형 여부와는 상관 없다. 다변량 다항 회귀 (Multivariate Polynomial Regression): 여러 개의 독립 변수와 그들의 다항항을 포함하여 종속 변수와의 관계를 모델..