본문 바로가기

분류 전체보기

(108)
[패스트캠퍼스 Upstage AI Lab 2기 부트캠프] #13 파이널 프로젝트 # 01. 프로젝트 소개 : Scientific Knowledge Question AnsweringTask : InformationRetrievalEvaluation Metric : MAP(Mean Average Precision) 프로젝트 기간 : June 13th, 2024 - July 3rd, 2024 (19:00) Given Dataset : documents.jsonl : 4272개의 document data (Ko-H4 데이터 중 MMLU, ARC 데이터 기반으로 생성)eval.jsonl : 220개의 자연어 query (멀티턴 대화 20개, 일상대화 20개 포함) # 02. EDA1. documents.jsonlkey : "docid", "src", "content""src" 의 형태는 출처..
Building and Evaluating Advanced RAG 강의 자료 : https://learn.deeplearning.ai/courses/building-evaluating-advanced-rag/lesson/1/introduction 더보기Advanced Techniques for RAG1. sentence-window retrieval2. auto-merging retrieval Evaluation of LLM QA System1. context relevance2. groundedness3. answer relevance  Advanced RAG pipeline!pip install llama_index trulens_eval더보기from llama_index import ServiceContext, StorageContextPart 1. Advance..
[패스트캠퍼스 Upstage AI Lab 2기 부트캠프] #12 특강 특강 #01. [AD] Anomaly Detection 대회 특강 강사 : 신종선 (마키나락스)일자 : 2024년 6월 18일 (화) MakinaRocks : 제조업 도메인제조업에서 발생하는 문제들에 대한 이상 탐지 및 최적화, 강화학습.센서데이터 : 정형 & 시계열 데이터 MLOps for all (https://mlops-for-all.github.io/en/)ML Engineer를 위한 MLOps(https://mlops-for-mle.github.io/tutorial/) 정상 데이터와의 유사도에 따라 Novelty Detection, Anomaly Detection, Out of Detection.- "이상"을 정의하는 정도에 따라 달라짐. 시계열 데이터에서 이상치를 통계모델로 찾기는 어려움 대회..
Upstage AI Lab 2기 [Day126] Information Retrieval (4) ANN Upstage AI Lab 2기2024년 6월 14일 (금) Day_126 Embedding 생성과 ANNANN 알고리즘 (Approximate Nearest Neighbor)1. LSH (Loclity Sensitive Hashing) - 여러 벡터를 하나의 버켓으로 군집화2. Tree/Space Partitioning - ANNOY : vectorspace → subspace로 분할, 트리에 저장ref:https://speakerdeck.com/matsui_528/cvpr20-tutorial-billion-scale-approximate-nearest-neighbor-searchhttps://erikbern.com/2015/10/01/nearest-neighbors-and-vector-models-p..
Upstage AI Lab 2기 [Day126] Information Retrieval (3) 신경망 기본 정보 추출 Upstage AI Lab 2기2024년 6월 14일 (금) Day_126 신경망 기본 정보 추출Vector Similarity임베딩 생성 : 단어/문장 → 벡터문제점 : 반대 의미인 경우에도 유사도가 높게 나올 수 있음 1. Word2Vec - CBoW, Skip-gram → Doc2Vec, Top2Vec (Topic), Biovectors (BioVec, ProtVec, GeneVec)→ 맥락 고려 x 2. ELMo, ULMFiT, Transformer, BERT→ pretrained model 활용, 맥락 고려질의-문서 pair로 BERT를 fine-tuning 해서 information retrieval 할 수는 있지만 실제로는 잘 쓰이지 않음예) [CLS] query [SEP] document ..
Upstage AI Lab 2기 [Day125] Information Retrieval (1) Upstage AI Lab 2기2024년 6월 13일 (목) Day_125 검색엔진 발전과정문제정의 : 텍스트 문서 집합 (비정형) → 질의 → 적합한 문서 추출 및 랭킹방대한 양 & 속도 & 적합도 검색엔진에 필요한 데이터 구조와 알고리즘1. 역색인 (Inverted Index) -  {key : 단어, value : 문서}, 추출된 문서에 대해서는 우선순위(ranking) 필요2. Ranking Algorithm질의와 문서의 유사도 : TF-IDF, BM25 등문서 자체의 품질 : Page Rank, Spam Score, Recency(시의성) 등(Implicit) Relevance Feedback - 서비스 중에 사용자의 선호도를 implicitly 반영도전과제 : ① 지속적 최적화 비용 (언어, ..
RAG from scratch (4) 자료 : https://www.youtube.com/playlist?list=PLfaIDFEXuae2LXbO1_PKyVJiQ23ZztA0x  Indexing(Indexing techniques for vectorstores) (1) Multi-representation Indexingmake a good summary style indexing to fetch the full documenti.e. distill documents idea from "Proposition Indexing" (https://arxiv.org/pdf/2312.06648) - decouple raw documents and retrieval unit document → split → (via LLMs) make proposit..
Upstage AI Lab 2기 [Day118] LM to LLM Upstage AI Lab 2기2024년 6월 3일 (월) Day_118Multilingual LLM1. Multilingual Pre-trained Modellow resource language에 대한 기술적 차별 ↓ (1) mBERT (Multilingual BERT) (2) XLM (Cross-lingual Language Model)- Translation Language Modelref:Lample, Guillaume, and Alexis Conneau. "Cross-lingual language model pretraining." https://arxiv.org/pdf/1901.07291 (3) MASS (Masked Sequence to Sequence Pre-training) - span..