일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- 로짓
- distillm
- 선형회귀
- 한국산업경영시스템학회
- adaboost
- skld
- 엔트로피
- AutoML
- 빅데이터분석학회
- ML
- 논문리뷰
- confusion_matrix
- 데이터사이언스
- DT
- BDA
- 규제
- OLS
- 가지치기
- 에이다부스트
- AAAI
- 로지스틱
- 평가지표
- Machine Learning
- dl
- 랜덤포레스트
- 머신러닝
- 의사결정트리
- 지니계수
- BDA학회
- 부스팅
- Today
- Total
목록ML (3)
데이터 사이언스 공부할래

본 논문 리뷰는 개인적인 학습 내용을 바탕으로 작성된 것으로, 일부 내용에 오류가 있을 수 있습니다. 논문 정보 Ko, J., Kim, S., Chen, T., & Yun, S. Y. (2024). Distillm: Towards streamlined distillation for large language models. arXiv preprint arXiv:2402.03898. DistiLLM: Towards Streamlined Distillation for Large Language ModelsKnowledge distillation (KD) is widely used for compressing a teacher model to a smaller student model, reducing it..

머신러닝 모델의 평가지표를 알아보고, 교차검증 평가지표를 코드로 구현해본다.평가지표란?모델에 의해 예측된 값이 실제 값과 비교하였을 때의 오차를 구하는 과정이다. 머신러닝 모델의 성능을 평가하는 지표는 크게 회귀 문제와 분류 문제로 나뉠 수 있다.문제 종류목표 변수모델평가지표회귀(Prediction)연속형선형 회귀MSE, MAE, MAPE 등분류(Classification)범주형로지스틱, SVM정확도, 정밀도, 재현율, F1 점수 회귀 문제의 평가지표Mean Squared Error(MSE, 평균 제곱 오차)실제 값과 예측 값의 차이를 제곱하여 평균을 낸 지표로, 값이 작을수록 모델의 성능이 좋다고 판단된다. Mean Absolute Error(MAE, 평균 절대 오차)실제 값과 예측 값의 차이의 절댓값..

데이터셋의 구분과 교차검증 알고리즘에 대해 알아보고, Iris 데이터셋을 활용하여 이를 구현해본다.Train/Test/Validation DatasetTrain Data : 모델 학습하는 과정에서 파라미터 값을 산축하는 과정에서 사용하는 데이터Test Data : 학습한 모델의 성능을 평가하기 위해 사용하는 데이터Validation Data : 모델이 과적합되는지를 확인하기 위해 사용하는 데이터 데이터를 나누는 이유?모델을 일반화시키기 위한 방법으로, 과적합을 막을 수 있다. OverfittingML 모델이 훈련 데이터를 지나치게 학습한 상태로, 새로운 데이터에 대한 예측이 어렵다.훈련 데이터에 대한 성능은 높지만, 일반화된 데이터에 대해 성능이 떨어진다. Overfitting 원인모델 복잡도 : 모델이..