'B.D.A' 카테고리의 글 목록

[BDA 데이터 분석 모델링반 (ML 1) 19회차] 에이다부스트 실습

AdaBoost를 만들기 위한 구조화를 실습과 패키지를 활용하여 AdaBoost를 실습해본다. AdaBoost 메서드fit(X, y): 설명 주어진 입력 데이터 X와 타겟 레이블 y를 사용하여 AdaBoost 모델을 학습 입력X: 학습 데이터(특성 행렬). 크기: (n_samples, n_features). y: 타겟 레이블. 크기: (n_samples,). 역할지정된 약한 학습자(예: 결정 스텀프)를 반복적으로 학습시키고, 각 학습자의 가중치를 계산하여 최종 모델을 구성 predict(X): 설명 학습된 AdaBoost 모델을 사용하여 새로운 데이터 X에 대한 예측을 수행 입력X: 예측할 데이터(특성 행렬). 크기: (n_samples, n_features). 출력각 샘플에 대한 예측된 클래스 ..

B.D.A 2024. 9. 6. 20:13

[BDA 데이터 분석 모델링반 (ML 1) 18회차] 에이다 부스트(AdaBoost)

에이다 부스트(AdaBoost) 알고리즘에 대해 알아본다. 에이다 부스트오류 데이터에 가중치를 부여하면서 부스팅을 수행하는 알고리즘으로, AdaBoost 학습 단계에서 모델이 잘못 예측한 샘플에 더 큰 가중치를 부여하여 더 잘 학습하도록 유도한다. 초기에는 모두 동일한 가중치를 가지며, 단계가 진행될수록 잘못 예측한 샘플의 가중치를 점진적으로 증가시켜 이전 학습기들이 잘못 예측한 부분을 보완하도록 유도한다. Input : Dataset $ D = \left\{ (x^1, y^1), \cdots ,(x^N, y^N) \right\},$ $y^{(i)}\in \left\{-1, 1 \right\}$ $\textrm{for}$ $i = 1, \cdots , N$ Step0 : 모든 $i = 1, \cdo..

B.D.A 2024. 8. 27. 23:00

[BDA 데이터 분석 모델링반 (ML 1) 17회차] 랜덤 포레스트 실습

랜덤 포레스트와 보팅 패키지의 하이퍼파라미터를 확인해보고, 실습해본다.RandomForest 하이퍼파라미터n_estimators: 결정 트리의 개수를 의미. 기본값은 100. 트리 수를 늘리면 성능이 향상되지만 계산 비용도 증가 criterion: 분할의 품질을 측정하는 기준. 분류에 사용되는 기준은 "gini"(지니 불순도) 또는 "entropy"(정보 이득). 기본값은 "gini" max_depth: 트리의 최대 깊이. 너무 깊은 트리는 과적합을 일으킬 수 있음. 기본값은 None, 리프 노드가 순수하거나 min_samples_split보다 적은 샘플을 가질 때까지 확장 min_samples_split: 노드를 분할하기 위해 필요한 최소 샘플 수. 기본값은 2 min_samples_leaf: 리프 ..

B.D.A 2024. 8. 22. 16:06

[BDA 데이터 분석 모델링반 (ML 1) 16회차] 랜덤 포레스트

앙상블 학습, 부트스트랩 샘플링 개념에 대해 알아본다. 기존 의사결정트리는 하나의 트리구조, 규칙기반의 단일모델이기에 변동성이 크다는 문제를 가지고 있다. 이를 보완하기 위해 여러 개의 결정트리를 결합하여 예측 성능을 향상하고, 분류, 회귀 문제를 모두 사용할 수 있도록 한다. 앙상블 학습 앙상블 학습은 여러 개의 모델 또는 여러 개의 데이터 셋을 통합하여 모델을 만드는 방식으로, 크게 배깅, 부스팅, 스태킹 방법이 있다. 부트스트랩 샘플링(Bootstrap Sampling) 신뢰성을 높이기 위해 자주 사용하는 기법으로, 원본 데이터 셋에서 무작위로 데이터를 선택하여 새로운 샘플을 여러 번 생성하는 방법이다. 과정 안에서 중복을 허용한다는 점이 특징이다. 역할신뢰구간 및 표준 오차 추정 : 무작위 샘..

B.D.A 2024. 8. 13. 23:31

[BDA 데이터 분석 모델링반 (ML 1) 15회차] 의사결정 트리(DT) 실습

DT 모델의 하이퍼파라미터를 알아보고, iris 데이터를 활용하여 DT 모델을 실습해본다. DT 모델 하이퍼파라미터criterion 분할 품질을 측정하는 기능분류 (DecisionTreeClassifier): "gini" (기본값), "entropy" 회귀 (DecisionTreeRegressor): "squared_error" (기본값), "friedman_mse", "absolute_error", "poisson" splitter 각 노드에서 분할을 선택하는 전략"best" (기본값): 최적의 분할을 선택 "random": 무작위 분할을 선택 max_depth 트리의 최대 깊이로, 깊이가 깊으면 모델이 과적합될 수 있다.기본값: None (노드가 순수해질 때까지 또는 min_samples_split..

B.D.A 2024. 8. 8. 19:05

[BDA 데이터 분석 모델링반 (ML 1) 14회차] 의사결정 트리(DT)

Decision Tree의 정의와 ML에서의 엔트로피와 지니계수 개념을 알아본다. Decision Treetree 구조를 활용하여 entropy가 최소화되는 방향으로 데이터를 분류하거나 원하는 어떤 결과값을 예측하는 분석 방법 루트노드(Root Node) : 나무가 시작되는 노드자식노드(Child Node) : 상위의 노드에서 분리된 하위 노드부모노드(Parent Node) : 자식 노드의 상위 노드중간노드(Internal Node) : 나무 중간에 위치한 노드로 루트노드 또는 최하위 노드가 아닌 모든 노드가지(Branch) : 하나의 노드로부터 잎사귀 노드까지 연결된 일련의 노드들잎사귀 노드, 끝노드(Leaf Node, Terminal Node) : 각 가지 끝에 위치한 노드순수노드(Pure Node)..

B.D.A 2024. 8. 4. 16:22

[BDA 데이터 분석 모델링반 (ML 1) 13회차] 로지스틱 회귀 실습

타이타닉 데이터와 BMI 데이터를 활용하여 하이퍼파라미터를 조정해보며, 로지스틱 회귀를 실습해본다. 로지스틱 회귀 주요 하이퍼파라미터 penalty: 사용될 규제(regularization) 유형을 지정하며, 기본값은 'l2'이다.'l1': L1 규제(Lasso), 'l2': L2 규제(Ridge), 'elasticnet': L1과 L2의 결합, 'none': 규제 없음 dual: 듀얼 형식을 사용할지 여부를 지정하며, 기본값은 False이고, 주로 샘플 수가 특성 수보다 많은 경우에 False로 설정한다. tol: 종료 기준을 설정하는 데 사용되는 허용 오차로, 기본값은 1e-4이다. C: 규제 강도를 설정하며, 값이 작을수록 강한 규제를 의미하고, 기본값은 1.0이다. fit_intercept: 절편..

B.D.A 2024. 7. 24. 22:46

[BDA 데이터 분석 모델링반 (ML 1) 12회차] 로지스틱 회귀

로지스틱 회귀, 오즈값, 시그모이드 함수에 대해 알아본다. 로지스틱 회귀선형회귀분석과 유사하지만 종속변수가 양적척도가 아닌 질적척도이다.특정 수치를 예측하는 것이 아닌 어떤 카테고리에 들어갈지 분류하는 모델로, 기본 모형은 종속변수가 0과 1이라는 이항으로 이루어진다. (ex. 구매/미구매, 성공/실패) 선형회귀의 사상은 그대로 유지하되 종속변수가 1이 될 확률로 변환되고, 그 확률에 따라 0과 1의 여부를 예측한다.이를 위해서는 오즈(Odds)와 로짓변환을 이용한다. (S자 커브로 변하는 것을 오즈, 로짓변환으로 표현한다.)확률을 표현하기 위해서는 선형회귀가 아닌 S자 모형으로 변환한다. 오즈값 (Odds Ratio)오즈는 사건이 발생할 가능성이 사건이 발생하지 않을 가능성보다 어느정도 큰지 나타내..

B.D.A 2024. 7. 24. 02:01

데이터 사이언스 공부할래

티스토리툴바