| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
- CNN
- Python
- dementional reduction
- 트랜스포머
- ASR
- 에이전트
- 데이터엔지니어
- 객체지향
- RDBMS
- 알고리즘
- UMAP
- SQL
- 정보처리기사
- 머신러닝
- 자연어처리
- LangGraph
- 힙정렬
- python 기초
- 생성형 인공지능
- python기초
- 랭그래프
- 데이터 시각화
- 기초
- 딥러닝
- RNN
- CLIP
- Transformer
- 캐글
- TTS
- 소프트웨어 개발
- Today
- Total
수달이네 기술 블로그
1. 머신러닝의 기초 본문
경진대회를 풀기 위한 관점으로 본 머신러닝


분류와 회귀
y = f(x): x는 input(feature), f()는 모델(파라미터들로 구성) y 는 output
- 학습: 모델에 input(xtrain)과 모델이 가진 랜덤한 하이퍼 파라미터의 곱을 y’(y’train)라 할때
- 나타나야하는 정답ytrain 와 y’train의 차이 즉 loss or error를 줄이는 방향으로 파라미터를 업데이트 하는것이 학습의 과정이다.
- 학습된 모델을 test에 가져다 xtest에 넣어보고 ytest가 나온 값을 실제 ytest와 비교하는 것을 평가라 한다.
분류
분류(classification): 어떤 대상을 정해진 범주에 구분해 넣는 작업
이진분류(binary classification): 타깃값이 두 개인 분류
- 타이타닉(살았나 죽었나)
다중분류(multiclass classification): 타깃값이 세 개 이상인 분류
회귀
독립변수(independent variable): 영향을 미치는 변수
종속변수(dependent variable): 영향을 받는 변수
회귀(regression): 독립변수(피처)와 종속변수(타깃값)간의 관계를 모델링하는 방법(y = f(x)
단순선형회귀(simple linear regression): 독립변수 여러개와 종속변수 하나 사이의 관계를 나타낸 모델링 기법
다중선형회귀(multiple linear regression): 독립변수 여러개와 종속변수하나 사이의 관계를 나타낸 모델링 기법
회귀 문제에서는 주어진 독립변수와 종속변수 사이의 관계를 기반으로 최적의 파라미터를 찾아야한다.
회귀 평가지표

결국, 정답과 학습한 모델이 예측한 값의 차이
- ^y가 예측임.
- MSLE등 로그를 취한 평가지표는 차이가 작을 때 주로 사용
- 경진대회의 평가지표를 보고 경진대회가 원하는 바를 알 수 있다.
상관계수
두 변수 사이의 상관관계 정도를 수치로 나타낸 값.
피어슨 상관계수: 선형 상관관계의 강도와 방향을 나타내며, -1 ~ 1 사이의 값을 갖는다. 상관관계가 음스면 음의 상관관계, 양수면 양의 상관관계가 있다한다.

분류 평가지표
오차행렬(confusion matrix)
실제 타깃값과 예측 타깃값이 어떻게 매칭되는지를 보여주는 지표

정확도(accuracy): 실제값과 예측값이 얼마나 일치되는지 비율로 나타낸 평가지표

정밀도(precision): 양성 예측의 정확도
병을 진단하는 경우에는 있는 병을 없다고 예측하는 것보다, 없는병을 있다고 예측하는 편이 나음.

재현율(recall): 실제 양성값(TP+FN)중 양성으로 잘 예측한 값(TP)의 비율, 재현율은 민감도 또는 참 양성비율이라고 한다.
스팸메일의 경우 스팸메일이 아닌데 맞다고 예측하는 것보다 스팸메일이 맞는데 아니라고 예측하는게 나음.

F1 점수(F1 score):정밀도와 재현율을 조합한 평가지표

로그손실
로그손실: 분류 문제에서 타깃값을 확률로 예측할 때 기본적으로 사용하는 평가지표(값이 작을수록 좋음)


ROC(Receiver Operating Characteristic) : 참 양성 비율(TPR)에 대한 거짓 양성 비율(False Positive Rate, FPR)곡선 AUC(Area Under the Curve) : ROC 곡선 아래 면적
레이블인코딩
범주형 데이터를 숫자로 일대일 매핑해주는 인코딩 방식. 범주형 데이터를 숫자로 치환하는 것

원-핫 인코딩
여러값 중 하나만 활성화 하는 인코딩

피처 스케일링
서로 다른 피처 값의 범위(최댓값 - 최솟값)가 일치하도록 조정하는 작업. 값의 범위 가 데이터마다 다르면 모델 훈련이 제대로 안 될 수도 있다.
- x1: 0~100, x2: 0~1 이런식으로 다 다를 수 있기 때문에 바꿔주는게 스케일링
min-max정규화
피처 값의 범위를 0~1로 조정하는 기법. 조정 후 최솟값은 0, 최댓값은 1이 된다.

표준화
평균이 0, 분산이 1이 되도록 피처 값을 조정하는 기법. min-max 정규화와 다르게 표준화는 상한과 하한이 없다.

K 폴드 교차 검증
데이터셋 개수가 적을때 사용한다.
테스트와 트레인 데이터셋은 구분되지만 테스트셋을 바꿔가면서 트레인한 결과를 평균내겠다.(거의 안씀 ex)병원에서 환자의 케이스가 적을때 등)
- 전체 훈련 데이터를 K개 그룹으로 나눈다.
- 그룹 하나는 검증 데이터로, 나머지 K-1개는 훈련 데이터로 지정한다.
- 훈련 데이터로 모델을 훈련하고, 검증 데이터로 평가한다.
- 평가점수를 기록한다.
- 검증 데이터를 다른 그룹으로 바꿔가며 2~4 절차를 K번 반복한다.
- K개 검증 평가점수의 평균을 구한다.

층화 K 폴드 교차 검증(Stratified K-Fold Cross Validation)
타깃값이 골고루 분포되게 폴드를 나누는 K 폴드 교차 검증 방법. 타깃값이 불균형하게 분포되 어 있을 때 층화 K 폴드를 사용하면 좋다.

주요 머신러닝 모델
선형회귀 모델
선형 회귀식을 활용한 모델. 선형 회귀 모델을 훈련한다는 것은 훈련 데이터에 잘 맞는 모델 파라미터, 즉 회귀계수를 찾는 것이다.

x와 y의 관계를 나타낸다.
로지스틱 회귀 모델
선형 회귀 방식을 응용해 분류에 적용한 모델. 스팸 메일일 확률을 구하는 이진 분류 문제에 로지스틱 회귀를 사용할 수 있다.

타깃값일 확률이 0.1이면 sigmoid라는 활성화 함수로 결과값을 정함.
- sigmoid: 0.5보다 작으면 0 0.5보다크면 1로 간주
결정트리
분류와 회귀 문제에 모두 사용가능한 모델,’의사결정 나무’라고도 한다.

불순도(impurity) : 한 범주 안에 서로 다른 데이터가 얼마나 섞여 있는지 나타내는 정도
엔트로피(entropy) : ‘불확실한 정도
정보 이득(information gain) : 1에서 엔트로피를 뺀 수치(1-엔트로피)
지니 불순도(gini impurity) : 엔트로피와 비슷한 개념. 지니 불순도 값이 클수록 불순도가 높고 작을수록 불순도도 낮다.
앙상블 학습(ensemble learning)
다양한 모델이 내린 예측 결과를 결합하는 기법. 앙상블 학습을 활용하면 대체로 예측 성능이 좋아진다. 과대적합 방지 효과도 있음.
보팅(voting) : 서로 다른 예측 결과가 여러 개 있을 때 개별 결과를 종합해 최종 결과를 결정하는 방식
하드 보팅(hard voting) : ‘다수결 투표’ 방식으로 최종 예측값을 정하는 방식
소프트 보팅(soft voting) : 개별 예측 확률들의 평균을 최종 예측확률로 정하는 방식
배깅(bagging) : 개별 모델로 예측한 결과를 결합해 최종 예측을 정하는 기법. ‘개별 모델이 서로 다른 샘플링 데이터를 활용’한다는 점이 특징이다.
부스팅(boosting) : 가중치를 활용해 분류 성능이 약한 모델을 강하게 만드는 기법
랜덤 포레스트(random forest)
결정 트리를 배깅 방식으로 결합한 모델. 나무(tree)가 모여 숲(forest)을 이루듯 결정 트리가 모 여 랜덤 포레스트를 구성한다. 결정 트리와 마찬가지로 랜덤 포레스트도 분류와 회귀 문제에 모 두 적용할 수 있다.

하이퍼파라미터
하이퍼파라미터는 사용자가 직접 설정해야 하는 값이다. 모델이 좋은 성능을 내려면 어떤 하이퍼파라미터가 어떤 값을 가지면 좋을지를 찾아야 하며, 이를 하이퍼파라미터 최적화라고 한다.
그리드서치(grid search)
가장 기본적인 하이퍼파라미터 최적화 기법. 주어진 하이퍼파라미터를 모두 순회하며 가장 좋 은 성능을 내는 값을 찾는다. 모든 경우의 수를 탐색하기 때문에 시간이 오래 걸린다.
랜덤서치(random search)
하이퍼파라미터를 무작위로 탐색해 가장 좋은 성능을 내는 값을 찾는 기법. 무작위라는 한계 때 문에 그리드서치나 베이지안 최적화에 비해 사용 빈도가 떨어진다.
베이지안 최적화(bayesian optimization)
사전 정보를 바탕으로 최적 하이퍼파라미터 값을 확률적으로 추정하며 탐색하는 기법. 그리드 서치나 랜덤서치보다 최적 하이퍼파라미터를 더 빠르고 효율적으로 찾아준다. 코드도 직관적이 며 사용하기 편리하다.

'프로젝트' 카테고리의 다른 글
| 3. ASR 모델의 도메인 특화 용어 인식 오류율 감소를 위한 논문 탐구 (0) | 2026.04.04 |
|---|---|
| 2. 인공지능 음성 인터페이스의 지연시간/인지심리학적 분석 (0) | 2026.04.02 |
| 1. Whisper Fine-Tuning에 대해 (0) | 2026.04.01 |
| 1. 멀티클라우드(도커) (0) | 2025.10.12 |
| 0. 캐글 프로젝트 준비 (1) | 2025.09.23 |