본문 바로가기
MLOps

MLOps 구성요소(1)

by 태현IT 2024. 4. 25.
반응형

데이터 관리

개발 환경에 데이터를 전달하고 추론용 데이터를 배포된 서비스에 전달하는 과정 포함 // 데이터의 질과 가용성이 모델의 성능에 큰 영향을 미침

  • 데이터 수집 및 데이터 소스 관리 및 연결
  • 필요 시 데이터 파이프라인 도입
  • 데이터셋 형상 관리를 통한 데이터 변경사항 추적, 버전 관리, 실험 지연성 보장하기 위한 도구
  • S3, Google Cloud Storage, Hadoop, Dataflow, Kafka, etc.

모델 개발

데이터 분석부터 모델 학습 및 검증에 이르는 전체 과정(새로운 모델을 만드는 것이 목표)

  • 데이터 분석 / 검증/ 전처리(Feature Engineering)
  • 모델 training (Hyperparameter Tuning) , validation, evaluation
  • 실험 관리 : hyperparameter, 데이터와 같은 메타 데이터를 포함하여 학습 기록 추적
  • 파이프라인 작성
  • pandas, numpy, scikit-learn, torch, tensorflow, mlflow, wandb, Optuna, Kubeflow Pipelines, etc.

ML Pipeline

모델 개발 시에 만든 머신러닝 파이프라인 배포

  • 개발된 머신러닝 모델의 모듈화 결과물
  • Parameter를 바꿔가면서 지속적으로 시행 가능(Hyperparameter Tuning, Data drift 발생 시, 새로운 데이터로 학습, etc.)
  • 자동화 프로세스 및 버전 관리(매 실행은 파라미터 실행시간 데이터 완료 여부 등 메타데이터도 저장)
  • 실험환경까지 포함하여 저장을 하여 재현성보장
  • Kubeflow Pipelines, TFX, Apache Beam, Airflow, etc.

Model Registry

모델 개발 과정 중 또는 머신러닝 파이프라인 실행으로 만든 모델의 저장소

  • 실험에 사용된 메타데이터(모델 버전, 데이터, 파라미터 등) 기록
  • 실험관리에 기능을 수행하는 곳에 주로 존재
  • 배포 / 디버깅 목저의 모델 import 인터페이스 제공
  • MLflow, wandb, seldon, etc

 

반응형

'MLOps' 카테고리의 다른 글

MLOps 구성요소(2)  (0) 2024.04.25
MLOps Level 1 : ML pipeline automation  (0) 2024.03.23
MLOps Level 0  (0) 2024.03.23
Model Decay의 이유(1) : Data Drift, Training-serving Skew  (0) 2024.02.23
프로덕션 ML 시스템의 특징(Model Decay)  (0) 2024.02.22