본문 바로가기

Upstage AI Lab 2기

Upstage AI Lab 2기 [Day117] Data-Centric AI

Upstage AI Lab 2기
2024년 5월 31일 (금) Day_117

 

 

[Data-Centric AI] (1-1) Data-Centric AI란

AI System = Code + Data

[2] [IT & Future Strategy 2020-7] AI 학습용 데이터 사업의 실효성 향상을 위한 정책 방향 16 [3] https://www.anaconda.com/resources/whitepapers/state-of-data-science-report-2022

 

Model-Centric AI : 모델 중심 접근 방식

- 최대한 많은 데이터 확보하여 raw data의 noise 조차도 무시할 수 있도록

- freeze data, improve algorithm/model

Data-Centric AI : 데이터 중심 접근 방식

- freeze model, improve data

https://www.modulos.ai/resources/data-centric-ai-executive-summary/

 

AI 서비스 개발과정

Project Setup → Data Preparation → Model Training → Deploying

After Deployment : 장비사양이 결정된 상황 → Data Centric이 조금 더 중요해짐 ∴ 데이터 품질 중요성 부가되기 시작

 

MLOps : 데이터셋 구축을 위한 인프라를 만들어 데이터를 체계적이고 효율적으로 관리할 수 있도록 자동화된 시스템

Azure, MLOps Blog Series Part 1: The art of testing machine learning systems using MLOps

 

Data-Centric AI가 산업에 미친 영향

LLM의 시대 - 빅테크만 개발 가능

일반기업, 개인, 연구자들 - Fine-tuning → 많은 데이터 필요 X, 소량의 고품질 데이터

 

Fine-tuning의 현주소 : LoRA

사전학습 모델 완전히 고정 + low rank query-value attention matrix 추가

low rank query-value attention matrix 만 학습시킴

https://adapterhub.ml/blog/2022/09/updates-in-adapter-transformers-v3-1/

 

LLM의 시대

- Prompt engineering 강조

- In-Context Learning : 이전에 배운 정보, 컨텍스트 활용

 

GPT-3를 통해 알게 된 사실

  1. 입력값에 지시문을 포함시키면 그에 맞는 결과를 준다.
    • 큰 LLM일수록 좋은 성과 + 일정수준 이상에서는 fine-tuning보다 나은 결과
    • 의의 : prompt engineering 만으로도 fine-tuning을 능가할 가능성
    • 단점 : input에 더 많은 토큰 입력 → inference 비용 ↑
    • prompt engineering 비용과 fine-tuning 비용 비교하여 선택 필
  2. 지시가 구체적일수록 의도에 가까운 결과를 준다. 다양한 목적에 맞는 프롬프트 템플릿이 공유되고 있음.

 

Data-Centric AI 관련 연구

Data-Centric AI (DCAI) @ NeurIPS2021 (Andrew Ng)
DMLR @ ICML'23 (Data-centric Machine Learning Research Workshop at ICML 2023) - Prompting for Small Dataset

 

 

Data-Centric AI 관련 태스크

  • 이상 탐지 및 제거 (Anomaly Detection & Removal)
  • 오류 감지 및 수정 (Error Detection & Correction)
  • 데이터 증강 (Data Augmentation)
  • 피쳐 엔지니어링 (Feature Engineering)
  • 컨센서스 라벨링 (Consensus Labeling)
  • 액티브 러닝 (Active Learning)
  • 커리큘럼 학습 (Curriculum Learning)

 

[Data-Centric AI] (1-2) Data-Centric AI의 미래

keywords : multilingual, multimodal, synthetic data

Foundation model의 시대 : pretrained with unlabeled data, Foundation model에 필요한 데이터에 집중

Zhao, W. X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., ... & Wen, J. R. (2023). A Survey of Large Language Models. arXiv preprint arXiv:2303.18223.

 

keyword 1 : Multilingual

before transformer : unilingual LM

after transformer : unilingual for specific task(e.g. KoBERT)

after LLM : multilingual

 

Multilingual Data

  • MLQA(MultiLingual Question Answering)
  • Multilingual LibriSpeech
  • GEM Benchmark

Multilingual Model

  • BLOOM @ BigScience
  • PaLM2 @ Google
  • MMS(Massively Multilingual Speech) @ Meta

 

keyword 2 : Multimodal

LMM(Large Multimodal Model)

Multimodal Data

  • VQA (Visual Question Answering)
  • VidLN (Video Localized Narratives)
  • VDialogUE - 5 tasks, 6 datasets

Multimodal Model

  • GPT-4 @ OpenAI
  • PaLM-E @ Google
  • KOSMOS-2 @ Microsoft - <image>, <grounding>, <loc>

 

keyword 3 : Synthetic Data

합성데이터 예) 자율주행 시뮬레이션, VQA 데이터 생성, 오디오 데이터 생

https://blogs.nvidia.com/blog/2021/06/08/what-is-synthetic-data/ Synthetic data will become the main form of data used in AI. Source: Gartner, “Maverick Research: Forget About Your Real Data – Synthetic Data Is the Future of AI,” Leinar Ramos, Jitendra Subramanyam, 24 June 2021.

 

 

[Data-Centric AI] (2-1) 데이터 구축 프로세스 소개

데이터 구축 파이프라인 6단계

[Data-Centric AI] (2-1) 데이터 구축 프로세스 소개 강의자료 중

데이터 용어

  • 원시 데이터 (raw data) : 데이터 수집 후, 데이터 전처리 전
  • 원천 데이터 (source data) : 데이터 전처리 후, 데이터 라벨링 전
  • 라벨링 데이터 (labeled data) : 데이터 라벨링 후

 

데이터 구축 파이프라인

  1. 데이터 수집
  2. 데이터 전처리 : 데이터 품질 확보, 데이터 스키마 설계
    [Data-Centric AI] (2-1) 데이터 구축 프로세스 소개 강의자료 중


  3. 데이터 라벨링 : Quality Control, Efficiency, Scalability
  4. 데이터 클렌징 : 데이터 내재적/외재적 요소 검수
    • 내재적 : Inter Annotator Agreement
    • 외재적 : IRB(기관생명윤리위원회, Institutional Review Board), TTA (한국정보통신기술협회, Telecommunications Technology Association)
  5. 데이터 스플릿 : train, valid, test split
  6. 데이터 릴리즈

 

데이터 구축 사이클

 

 

[Data-Centric AI] (2-2) 데이터 구축 기획서 작성

명확한 방향 설정, 리소스 및 일정 관리, 품질 관리, 갈등 방지

[Data-Centric AI] (2-2) 데이터 구축 기획서 작성 강의자료 중

 

AI Hub의 '인공지능 학습용 데이터 구축 지원사업' 데이터 구축 기획서

  1. 1. 구축 계획 수립 ( = 요약 )
    1.1. 구축 목적, 방법, 규모
    1.2. 데이터 명세서
    2023년도 인공지능 학습용 데이터 구축 지원사업 공고 - [붙임 1] 인공지능 학습용 데이터 구축 계획서
  2. 데이터 구축
    2.1. 개요
    2.2. 데이터 수집
    2.3. 데이터 정제 ( = 전처리 )
    2.4. 데이터 가공 ( = 라벨링 )
    2.5. 학습모델 적용 방안