MLOps 구성요소(1)
·
MLOps/이론
데이터 관리개발 환경에 데이터를 전달하고 추론용 데이터를 배포된 서비스에 전달하는 과정 포함 // 데이터의 질과 가용성이 모델의 성능에 큰 영향을 미침데이터 수집 및 데이터 소스 관리 및 연결필요 시 데이터 파이프라인 도입데이터셋 형상 관리를 통한 데이터 변경사항 추적, 버전 관리, 실험 지연성 보장하기 위한 도구S3, Google Cloud Storage, Hadoop, Dataflow, Kafka, etc.모델 개발데이터 분석부터 모델 학습 및 검증에 이르는 전체 과정(새로운 모델을 만드는 것이 목표)데이터 분석 / 검증/ 전처리(Feature Engineering)모델 training (Hyperparameter Tuning) , validation, evaluation실험 관리 : hyperpar..
MongoDB Sample Dataset(1) GET - sample analytics
·
개발과정/Database
깨달은 점 1. Array의 경우 list 타입으로 데이터를 가져올 수 있다. 2. 날짜의 경우, datetime.datetime 타입으로 데이터를 가져올 수 있다. 3. 데이터가 없는 경우가 있기 때문에, get함수를 활용하여 데이터를 가져오자. 1. DB 구조 accounts, customers, transactions 총 3개의 Collection을 가지고 있다. 2. 각 DB의 구조(Python코드와 Atlas에서 보이는 데이터 예시) account : 이전에 올린 글의 방식과 동일하게 데이터를 가져오는 것을 볼 수 있다. customer : 해당 데이터에 문제가 존재했다. active가 첫 데이터에만 존재하고, 나머지 데이터에는 존재하지 않았다. 해당 데이터에 대해서 처리 방식에 대해 2가지정도..
MongoDB 기초 - CRUD Todo
·
개발과정/Database
1. 가상환경 설정 및 접근 #python 가상환경 설정 python3 -m venv ./mondodb #가상환경 활성화 source mongodb/bin/activate #pip 설치 pip3 install pymongo pip3 install uvicorn pip3 install "pymongo[srv]" 2. 전체 폴더 구조 3. 폴더별 설명 main.py : uvicorn 명령어를 실행하게 하는 파일(uvicorn main:app --reload) config : 원하는 database에 접근하게 하는 세팅파일 client : MongoDB링크 등록(Cluster 접근) db : Cluster 내의 database 들 중 어떤 database 가져올 지 확인(todo_db) collection(t..
MLOps Level 1 : ML pipeline automation
·
MLOps/이론
ML Pipeline(Source code) 도입 Source Repository에 있는 모델을 활용하여 배포 과정 시작, 반드시 개발 환경을 포함하여 배포할 것(docker를 활용하는 부분일 것이라고 추측) Automatic pipeline(Production 과정에서) 기존의 0 단계에서 지적되었던 데이터 관리 문제를 해결하기 위해 Feature store 도입 Data source와 연동되어 데이터 자동 수집 수집된 데이터에 대한 형상관리 기능 추가 데이터 변환(엔지니어링 과정에서 처리도 가능) 가능 및 버전관리 ML metadata store : log 담당 ML Pipeline 실행 기록 어떤 데이터를 활용하여 어떤 모델이 만들어져서 model registry에 어떻게 저장되었는 지 에 대한 기..
MLOps Level 0
·
MLOps/이론
0 단계 : 기본단계 Research 과정과 유사한 프로세스를 가져가는 것으로 보임 1. Offline 데이터 추출 및 분석 데이터를 수동관리하고 필요한 시점마다 특정 위치에 데이터를 옮기는 방식 데이터 유출, 일관성 부족, 접근성 저하 의 문제가 있음 데이터의 변화 적용이 어렵기 때문에 모델에서 문제 발생 시 파악할 때 어려움이 존재 2. 학습된 모델을 모델 레지스트리에 저장 실험적인 단계에서는 상관이 없지만 자동화가 되어있지 않기 때문에 휴먼 에러 발생 가능성 존재 Model Registry : 배포(프로덕션) 가능한 모델인지 확인 불가, 모델에 문제가 있을 경우 재학습이 불가능(대응이 어려움) Model Serving : 모니터링 및 로깅 시스템이 없음, 디버깅이 어려움. 데이터 관리 시스템 구축 ..
Applications of RNNs
·
인공지능/기초
RNN의 종류 그림 예시 One-to-one 전통적인 신경망 One-to-many 음악 생성, 이미지 자막달기(image captioning) Many-to-one 문장 분류, 영상 분류 Many-to-many 개체명 인식 Many-to-many 번역기 Reference : [1] Afshine Amidi, Shervine Amidi, "CS 230 - Deep Learning", https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks