반응형
0 단계 : 기본단계 Research 과정과 유사한 프로세스를 가져가는 것으로 보임
<머신러닝 엔지니어링 관점>
1. Offline 데이터 추출 및 분석
- 데이터를 수동관리하고 필요한 시점마다 특정 위치에 데이터를 옮기는 방식
- 데이터 유출, 일관성 부족, 접근성 저하 의 문제가 있음
- 데이터의 변화 적용이 어렵기 때문에 모델에서 문제 발생 시 파악할 때 어려움이 존재
2. 학습된 모델을 모델 레지스트리에 저장
실험적인 단계에서는 상관이 없지만 자동화가 되어있지 않기 때문에 휴먼 에러 발생 가능성 존재
<MLOps 관점>
Model Registry : 배포(프로덕션) 가능한 모델인지 확인 불가, 모델에 문제가 있을 경우 재학습이 불가능(대응이 어려움)
Model Serving : 모니터링 및 로깅 시스템이 없음, 디버깅이 어려움.
<해당 레벨에서 해결해야할 점(추후 Level 들에서 해결)>
데이터 관리 시스템 구축
- 현실에서 들어오는 데이터를 머신러닝 엔지니어가 사용할 수 있도록 활용.
- 데이터셋 관리를 통해 여러 엔지니어가 같은 데이터셋을 사용할 수 있도록 해야함.
- 데이터셋 버젼이 다양할 경우 각 버젼마다 추론 결과를 파악할 수 있어야 함.
ML 실험 과정 자동화
- 데이터 / 하이퍼파라미터 를 사람의 개입 없이 자동적으로 바꿔가면서 실험이 되어야 하고 logging도 필요
엔지니어와 Ops의 소통 매개체
- Ops환경에서 모델을 생성
- 배포 전 미리 모델 검증
모니터링 시스템 구축
- 추론 성능 등 지표에 대해서 파악할 수 있는 모니터링 시스템 구축
- 문제 해결을 위한 디버깅 환경 구축
반응형
'MLOps > 이론' 카테고리의 다른 글
MLOps 구성요소(1) (0) | 2024.04.25 |
---|---|
MLOps Level 1 : ML pipeline automation (0) | 2024.03.23 |
Model Decay의 이유(1) : Data Drift, Training-serving Skew (0) | 2024.02.23 |
프로덕션 ML 시스템의 특징(Model Decay) (0) | 2024.02.22 |
ML 서비스 개발 순서 (0) | 2024.02.22 |