본문 바로가기

Upstage AI Lab 2기

(72)
Upstage AI Lab 2기 [Day126] Information Retrieval (4) ANN Upstage AI Lab 2기2024년 6월 14일 (금) Day_126 Embedding 생성과 ANNANN 알고리즘 (Approximate Nearest Neighbor)1. LSH (Loclity Sensitive Hashing) - 여러 벡터를 하나의 버켓으로 군집화2. Tree/Space Partitioning - ANNOY : vectorspace → subspace로 분할, 트리에 저장ref:https://speakerdeck.com/matsui_528/cvpr20-tutorial-billion-scale-approximate-nearest-neighbor-searchhttps://erikbern.com/2015/10/01/nearest-neighbors-and-vector-models-p..
Upstage AI Lab 2기 [Day126] Information Retrieval (3) 신경망 기본 정보 추출 Upstage AI Lab 2기2024년 6월 14일 (금) Day_126 신경망 기본 정보 추출Vector Similarity임베딩 생성 : 단어/문장 → 벡터문제점 : 반대 의미인 경우에도 유사도가 높게 나올 수 있음 1. Word2Vec - CBoW, Skip-gram → Doc2Vec, Top2Vec (Topic), Biovectors (BioVec, ProtVec, GeneVec)→ 맥락 고려 x 2. ELMo, ULMFiT, Transformer, BERT→ pretrained model 활용, 맥락 고려질의-문서 pair로 BERT를 fine-tuning 해서 information retrieval 할 수는 있지만 실제로는 잘 쓰이지 않음예) [CLS] query [SEP] document ..
Upstage AI Lab 2기 [Day125] Information Retrieval (1) Upstage AI Lab 2기2024년 6월 13일 (목) Day_125 검색엔진 발전과정문제정의 : 텍스트 문서 집합 (비정형) → 질의 → 적합한 문서 추출 및 랭킹방대한 양 & 속도 & 적합도 검색엔진에 필요한 데이터 구조와 알고리즘1. 역색인 (Inverted Index) -  {key : 단어, value : 문서}, 추출된 문서에 대해서는 우선순위(ranking) 필요2. Ranking Algorithm질의와 문서의 유사도 : TF-IDF, BM25 등문서 자체의 품질 : Page Rank, Spam Score, Recency(시의성) 등(Implicit) Relevance Feedback - 서비스 중에 사용자의 선호도를 implicitly 반영도전과제 : ① 지속적 최적화 비용 (언어, ..
Upstage AI Lab 2기 [Day118] LM to LLM Upstage AI Lab 2기2024년 6월 3일 (월) Day_118Multilingual LLM1. Multilingual Pre-trained Modellow resource language에 대한 기술적 차별 ↓ (1) mBERT (Multilingual BERT) (2) XLM (Cross-lingual Language Model)- Translation Language Modelref:Lample, Guillaume, and Alexis Conneau. "Cross-lingual language model pretraining." https://arxiv.org/pdf/1901.07291 (3) MASS (Masked Sequence to Sequence Pre-training) - span..
Upstage AI Lab 2기 [Day117] Data-Centric AI Upstage AI Lab 2기 2024년 5월 31일 (금) Day_117  [Data-Centric AI] (1-1) Data-Centric AI란AI System = Code + Data Model-Centric AI : 모델 중심 접근 방식- 최대한 많은 데이터 확보하여 raw data의 noise 조차도 무시할 수 있도록- freeze data, improve algorithm/modelData-Centric AI : 데이터 중심 접근 방식- freeze model, improve data AI 서비스 개발과정Project Setup → Data Preparation → Model Training → DeployingAfter Deployment : 장비사양이 결정된 상황 → Data Centr..
Upstage AI Lab 2기 [Day117] LM to LLM Upstage AI Lab 2기 2024년 5월 31일 (금) Day_117더보기todo[ ] 경진대회 회고 정리하기[ ] QLoRA 논문 읽기[ ] 테디노트 AutoRAG[ 0 ] 강의 수강[ 0 ] Data Centric AI[ 0 ] Data-Centric AI란 무엇인가?[ 0 ] Data-Centric AI의 미래[ 0 ] 데이터 구축 프로세스 소개[ 0 ] 데이터 구축 기획서 작성[ ] 강의 복습 및 정리[ 0 ] 의미기반 언어 지식 표현 체계 이론[ ] 문맥기반 언어지식 표현 체계 이론 의미기반 언어 지식 표현 체계 이론 Word EmbeddingsCount-based methods : Count vector, TF-IDF. 의미 정보, 순서 정보 고려 X.Prediction-based me..
Upstage AI Lab 2기 [Day116] LM to LLM Upstage AI Lab 2기2024년 5월 30일 (목) Day_116 더보기 [ 0 ] 코드 필사[ 0 ] 산책[ ] 경진대회 회고 정리하기[ ] QLoRA 논문 읽기[ ] 강의 복습 및 내용 정리하기[ 0 ] 카운트 기반 언어모델[ ] 언어모델 평가방법  [LM to LLM] (2-2) 카운트 기반 언어모델1. 카운트 기반 단어 표현 방법 : 국소 표현(Local Representation) / 분산 표현 (Dense Representation)Local Representation- 단어별 고유식별자로 mapping (e.g. one-hot encoding), 각 단어 = 벡터에서 1개의 차원- 고차원, 차원간 독립적- 단어간 의미적 관계를 직접적으로 표현X Dense Representation-..
Upstage AI Lab 2기 [Day109] NLP 경진대회 - LoRA 공부 Upstage AI Lab 2기2024년 5월 21일 (화) Day_109 LoRA (Low-Rank Adaptation) LoRA: Low-Rank Adaptation of Large Language Modelshttps://arxiv.org/pdf/2106.09685 LoRA to transformerWk = W0k + BAk Wq = W0q + BAq Wv = W0v + BAv    QLORA: Efficient Finetuning of Quantized LLMshttps://arxiv.org/pdf/2305.14314   참고자료:https://sebastianraschka.com/blog/2023/self-attention-from-scratch.htmlhttps://velog.io/@kaiba..