본문 바로가기

머신러닝

핸즈온 머신러닝 3판 2장

파이프라인

  • 데이터 처리 컴포넌트들이 연속되어 있는 것
  • 각 component는 많은 데이터를 추출해 처리하고 그 결과를 다른 데이터 저장소로 보냄.
  • 보통 컴포넌트들은 비동기적으로 작동한다. 즉, 각 컴포넌트들은 완전히 독립적이다. 컴포넌트 사이의 인터페이스는 데이터 저장소 뿐이다. 

실제 데이터 작업시

문제를 정의하여 적절한 모델을 선택한 후 성능 측정 지표를 선택한다.

 

평균 제곱근 오차(RMSE,root mean square error): 회귀 문제의 전형적인 성능 지표

  • 오차가 커질수록 이 값은 더 커지므로 예측에 얼마나 많은 오차가 있는지 가늠하게 해준다.

  • n: RMSE를 측정할 데이터셋에 있는 샘플 수 

평균 절대 오차(MAE, mean absolute deviation)회귀 문제의 성능 지표, 이상치로 보이는 구역이 많을 때 사용.

 

RMSE와 MAE 모두 예측값의 벡터와 타깃값의 벡터 사이의 거리를 재는 방법.

 

  • 사이킷런의 mean_squared_error() 함수에 squared 매개변수를 false로 지정하여 rmse를 구할 수 있음.
from sklearn.metrics import mean_squared_error

lin_rmse = mean_squared_error(housing_labels, housing_predictions, squared=False)

 

'머신러닝' 카테고리의 다른 글

sklearn, pandas, numpy, matplotlib  (0) 2024.10.09
핸즈온 머신러닝 3판 2장(2)  (1) 2024.10.09
핸즈온 머신러닝 3판 2장(1)  (3) 2024.10.09
Kernel  (0) 2024.10.07
핸즈온 머신러닝 3판 1장  (1) 2024.09.27