파이프라인
- 데이터 처리 컴포넌트들이 연속되어 있는 것
- 각 component는 많은 데이터를 추출해 처리하고 그 결과를 다른 데이터 저장소로 보냄.
- 보통 컴포넌트들은 비동기적으로 작동한다. 즉, 각 컴포넌트들은 완전히 독립적이다. 컴포넌트 사이의 인터페이스는 데이터 저장소 뿐이다.
실제 데이터 작업시
문제를 정의하여 적절한 모델을 선택한 후 성능 측정 지표를 선택한다.
평균 제곱근 오차(RMSE,root mean square error): 회귀 문제의 전형적인 성능 지표
- 오차가 커질수록 이 값은 더 커지므로 예측에 얼마나 많은 오차가 있는지 가늠하게 해준다.

- n: RMSE를 측정할 데이터셋에 있는 샘플 수
평균 절대 오차(MAE, mean absolute deviation): 회귀 문제의 성능 지표, 이상치로 보이는 구역이 많을 때 사용.

RMSE와 MAE 모두 예측값의 벡터와 타깃값의 벡터 사이의 거리를 재는 방법.
- 사이킷런의 mean_squared_error() 함수에 squared 매개변수를 false로 지정하여 rmse를 구할 수 있음.
from sklearn.metrics import mean_squared_error
lin_rmse = mean_squared_error(housing_labels, housing_predictions, squared=False)
'머신러닝' 카테고리의 다른 글
| sklearn, pandas, numpy, matplotlib (0) | 2024.10.09 |
|---|---|
| 핸즈온 머신러닝 3판 2장(2) (1) | 2024.10.09 |
| 핸즈온 머신러닝 3판 2장(1) (3) | 2024.10.09 |
| Kernel (0) | 2024.10.07 |
| 핸즈온 머신러닝 3판 1장 (1) | 2024.09.27 |